2012年11月アーカイブ

11月30日

| コメント(0) | トラックバック(0)
こんにちは\(^o^)/
Thunderbirdに学習させるために、問題発言を効率よく抽出する方法ですが
ソースを新しく作りなおしてみました!!
作りなおしたといっても、元々あるソースを少々いじっただけなんですけど...

Twitterで検索機能があるのですが、例えばそこで「死ね」と検索します。
そのURLが以下のようになるのですが...
https://twitter.com/search?q=死ね&src=typd
要は「死ね」の部分が検索したいワードになればいいわけなので
学習させたいワード一覧をtxtからとってきて、その検索ページに行ってつぶやき一覧を抽出する
といった仕組みです(´・ω・`)
これもcronで自動処理してもらえばいいというわけです。
1回で約20個のつぶやきをとってくるのですが、4,5回やれば学習してきます。

あとはソースの気になるところをちょくちょく直していきたいと思っています。

学会の要旨ですが...
自分がやったところからどんどん埋めていけ〜と言われたので
今日明日でだいたい作成して先生に提出しないとヤバい!!
ということで頑張ります(・ω<)!!

11月23日

| コメント(0) | トラックバック(0)
今日寝坊しました(´・ω・`)スンマセン...
買い出しありがとうございました。

前回に引き続き、問題発言の抽出を行いました。
TwitterGraphや検索機能を使ってやってみました!!
検索機能で例えば「死ね」という言葉を検索すると、
たくさん出てくるのでそこから取ってくるといった感じです。
TwitterGraphでは特にLINE友達を募集している子を見てみると、
LINEでつながっている子が一目瞭然で分かります。
だいだいこの子たちは「#lineで友達になってくれる人rt」で定期的に友達を募集しているので
それでIDを集めることができます。
あとは問題発言だけでなく普通のつぶやきも必要になってくるので、その辺は適当に抽出しました。
ちょっといろいろ試してみたので、効率が悪かったように自分で思います。
学会発表の為にも、効率良く問題発言を抽出できますよアピールしたいので、来週までにまとめたいと思います。

昨日先生に学会の要旨のアウトラインを見せて、もうちょっと内容を膨らませようという話になりました!!
今週の土日は家庭科のレポートつぶして、来週から学会の要旨に取り掛かりたいと思います!!(´・ω・`)

11月16日

| コメント(0) | トラックバック(0)
こんにちは(´・ω・`)

<進捗状況>
中高生の問題発言見つけるの困難です...><
1番目立つのはLineIDをそのまま載せているつぶやきです。
実は今週はソースの方をちょくちょく改善しようと頑張っていたので
スクレイピング自体は止まっていた状態でした(^_^;)
テキストしか抽出できていなかったのでリンクを表示させたかったのですが...

正規表現のところを直せばいいんだ!!って思っていろいろやりました(^_^;)
この2つでつぶやきを整形しているんですが...
1.s/^\s+//g; # 空白を削除
2.s/<[^\]]+>//g; # ]以外の< >をすべて削除

1は空白なので関係なくて、問題は2ですね。
Twitterをhtmlで読み込めば分かりますが、リンクは基本< >内にあるのに
2ではそれをすべて削除しているので直さなくちゃいけないってわけです。
http〜以外の< >を削除すればいいってことなんですけど
どうしても< >全体が抽出されてしまう状況が何度も...
やたら正規表現に詳しくなって終わりましたww
勉強になったので良しとしよう。先生や福地さんに相談してみます。
つぶやきのURLを載せているので、まあ良しとしようかな。

あとはメールをsendmailを使った方に変えました!!
差出人を架空のアドレスからにしたり、送信日時をつぶやかれた日にちになっていたりします。
前回より詳しくて良くなったと思います(・∀・)!!
ソースは補足で後で載せます(^o^)

あと1月の学会に栗木と出ます(^^ゞ
申し込み締め切りが今日までなので、昨日栗木と先生と3人で概要100字程度を考え、今日また見直して申し込みたいと思います!!

<今後の予定>
・引き続き問題発言の抽出
・ソース改善できたら...
・学会レジュメ提出12月7日

授業が忙しいので、来週から12月始めまではずっと追い込んでますww

11月9日

| コメント(0) | トラックバック(0)
明日は福地さんの誕生会ですね(・∀・)
先生が作ったイクラが楽しみ☆
準備があるので前日の8日にこのブログを書いています〜

さて進捗状況!!
この前紹介したスクリプトと何か変わったことといえば...
/data/内のファイルは消すように書き直しました(・∀・)
詳しくは新しく描き直したフローチャートで説明しますね☆

あとはシェルスクリプトでスクリプトを自動処理しています(^^)
1時間に1回処理するように設定しました!!

ThunderbirdにGmailを同期して早速迷惑メールチェックをしてみています(∀)
問題は良い題材がないか〜ってことなんですけど...
#ハッシュタグやあとは特定の中学生のフォロワーから適当に小中高生のIDを拾っています
問題発言を見つけたら迷惑メール扱いにするんですけど、なかなかないです(^_^;)
平和でいいんですけど...
今のところ1番問題だと思ったのはLINEですね
中高生は今LINEが流行っているみたいです
一覧になったつぶやきを見ているとLINE友達募集が目につきました
そしてLINEのIDをそのまま載せている子がいる!!!!!
だめええええええええ!!!
ということで迷惑メール行きww

今後はもっと良い素材が取れるとこを探していきたいですね

シェルスクリプト

| コメント(0) | トラックバック(0)

作ったスクリプトを自動で処理してもらうためにシェルスクリプトを作成。

Check_tweet.sh
*************************************
#!/bin/sh
cd /usr/lib/cgi-bin
/usr/bin/perl TwitterTweet.pl
/usr/bin/perl TwitterTweet-stp2.pl
/usr/bin/perl TwitterTweet-stp3.pl
*************************************

*ターミナルでシェルスクリプトを実行する
*************************
$ ./Check_tweet.sh
*************************

今回は自動で処理してもらいたいのでcronを使う!!
まずはエディタのデフォルト指定から。
[select-editor]で設定できて最初はnanoになってるらしい。
************************************************************
Select an editor.  To change later, run 'select-editor'.
  1. /bin/ed
  2. /bin/nano        <---- easiest
  3. /usr/bin/vim.tiny

Choose 1-3 [2]:
************************************************************
私はgeditを使ってるんですけど...ない!!
ググってもgeditの出し方が分かりませんでしたorz
なので今回はnanoでいきまーす。

*crontabを開いて編集・保存
[crontab -e]でcronの編集ができる。

設定書式は "分 時 日 月 曜日 コマンド"
利用できる文字は
・分 0~59
・時 0~23
・日 1~31
・月 1~12 or jan~dec
・曜日 0~7 [0,7は日曜日] or sun~sat

1時間に1回実行するようにしてみた!!
*************************************************************
59 * * * * /usr/lib/cgi-bin/Check_tweet.sh >/dev/null 2>&1
*************************************************************

10日17時43分だったらこんな感じ↓↓
*************************************************************
43 17 10 * * /usr/lib/cgi-bin/Check_tweet.sh >/dev/null 2>&1
*************************************************************

>/dev/null 2>&1 は実行結果を出力したくない時に使うらしい。
もし失敗してても分からないってことなんだけどw

今んとこうまく動いてますよ〜(・∀・)

11月2日の補足

| コメント(0) | トラックバック(0)
前回作成したフローチャートが微妙に違うので作成し直した(・ω<)
結構分かりやすいと思います(・∀・)
写真 (2).PNG

1. /data/と/ARCHIVE/を比べて新しいファイルをさがす。
2. /ARCHIVE/に同じファイルがあったら,/data/の方のファイルは削除。
3. 新しいファイルは/ARCHIVE/にコピーして,/QUEUE/に移動。
4. /QUEUE/に移動されたファイルはメール送信,その後ファイルは削除。

/ARCHIVE/はファイルがどんどん溜まっていく感じですね(^_^;)
大丈夫かな??ww

スクリプトはこんな感じ↓↓(パス省いてるけど)
*************************************************************************************************
use File::Copy qw/copy move/;

#####ファイル一覧#####
chdir '/data/';
my @data = glob("*.txt");
chdir '/ARCHIVE/';
my @ACV = glob("*.txt");

for (my $i = 0; $i < @data; $i++) {
  my $flg = 'off'; ##フラグをoffに戻す
  AAA: for (my $j = 0; $j < @ACV; $j++){
    if ($data[$i] eq $ACV[$j]){
      $flg = 'on'; ##ファイルイコールだったらフラグon
      unlink "/data/$data[$i]" or die("Error\n");##ファイル削除
      last AAA; ##ループから抜ける
    }
  }
    if($flg eq 'off'){
      my $acv = '/ARCHIVE/';
      my $que = '/QUEUE/';
      copy ("/data/$data[$i]","$acv")  or die "Copy failed $!"; ##ファイルをARCHIVEにコピー
      move ("/data/$data[$i]","$que")  or die "Move failed $!"; ##ファイルをQUEUEへ移動
    }
}
*************************************************************************************************

このスクリプトだけで,いろんなこと覚えた(・∀・)
フラグやラベルの付け方とか。
もちろんfor文も。

11月2日

| コメント(0) | トラックバック(0)
こんにちは(^o^)
11月ですね〜最近寒くなって来ました...もう冬ですね^^;

<<進捗状況>>
Twitterのつぶやきをスクレイピングして,メールで送信するとこまで。

1,TwitterTweet.pl
 Twitterのつぶやきをスクレイピングして,/data/にファイル書き出し。

2,TwitterTweet-stp2.pl
 /data/にあって,/ARCHIVE/にないファイルがあったら/ARCHIVE/にcopy。
 同時にそのファイルを/data/ から/QUEUE/にmove。

3,TwitterTweet-stp3.pl
 /QUEUE/にあるファイルをメールで送信。
 送信したらそのファイルは削除。

1〜3の動作を,シェルスクリプトで自動で処理してもらう。
例えば1時間に1回とか。
あとはどんどん受信欄につぶやきメールが溜まっていく〜

<<その次>>
試しに作ったTwitterでいろんなつぶやきをする。
Thunderbirdのフィルター機能試してみる??
まずThunderbirdの使い方に慣れなきゃ!!

ちょこっとメモ

| コメント(1) | トラックバック(0)
###フラグを立てる###
例えば
メールを既読したら($flag = 1)
メールを未既読だったら($flag = 0)
というように印をつけていくイメージ

$check = yes
$check = no
とかでも良い。自分が分かりやすいように。
主に,
$flag = 0 $flag = 1 が使われる。
慣れるまでは自分が分かりやすいように使おう(^o^)

###chdir###
chdirでパスを指定することができる!!

************************************
chdir '/usr/lib/cgi-bin/MIKU/';
my @MAT = glob("*.txt");
print join("\n",@MAT) . "\n\n";
************************************


このアーカイブについて

このページには、2012年11月に書かれたブログ記事が新しい順に公開されています。

前のアーカイブは2012年10月です。

次のアーカイブは2012年12月です。

最近のコンテンツはインデックスページで見られます。過去に書かれたものはアーカイブのページで見られます。

ウェブページ

Powered by Movable Type 5.12