« 2006年09月 | メイン | 2006年11月 »

2006年10月30日

先週の活動

・SFSとIntersafeの比較

先々週に引き続きデータを集めました。ただ前回と違ってIntersafeの分のブラウザも準備しなければならず、画面一杯に同様の画面が3つという状態になっていました。
方法は前回同様、検索サイトにキーワードを入れ、検索結果を上から順番に一つずつ有害か無害かの判別とブロックの正誤の判定を行いました。
データを集める際に問題だったのが、Intersafeを設定したブラウザだけGoogleの検索結果が少なくなってしまったことです。これだと3つ並べて判定していく方法では上手くいきません。Yahoo!の場合は3つとも結果が同じになったので、今回はYahoo!のみでデータを集めました。

まずはどんなデータを集めようか迷ったのですが、有害サイトとしては一番分かりやすい「アダルトサイト」関連と、最近の行方不明になった小学六年生の女の子が出会いサイトで知り合った男性と一緒にいたという事件を受けて「出会い系サイト」関連のことも気になったのでデータを集めてみました。
以下が結果になります。データ数は300件です。

キーワード:アダルト
      有害サイト:225   無害サイト:75
 SFS   正しいブロック:208 過剰なブロック:16
Intersafe 正しいブロック:223 過剰なブロック:21

キーワード:出会
      有害サイト:248   無害サイト:52
 SFS   正しいブロック:170 過剰なブロック:15
Intersafe 正しいブロック:218 過剰なブロック:20

やはりデータ数はそれほど多くはとれないので信頼性があるかは疑問ですが、結果を見るとやはりIntersafeの方が精度は高いようです。ただ、過剰なブロックもIntersafeの方が多くなっていますが、Intersafeの方では通信販売やコミュニティー掲示板等もブロック対象に入っているようで、犬の餌の通信販売のページや個人のblog等もブロックされることが多かったように感じました。たしかに、子どもが通信販売で注文してしまったり、掲示板に個人情報を書き込んでしまったりすることを防ぐ上ではこの設定でも問題はないかもしれませんが、通販のページで有害な商品を取り扱っていなかったり、掲示板においても特に問題がなさそうなものにおいてブロックされた場合は、過剰なブロックであると判断したために数が多くなってしまいました。出会い系サイトも判別に困りました。というのも、よからぬ目的を持った人の為の出会いサイトだけでなく、真剣に結婚したいという人の為のまじめな結婚紹介の出会いサイトもあったためです。今回はそういうのは関係なしに、出会いに関係しているものはすべて有害なものとして数に入れました。

2006年10月23日

先週の活動

・SFSのデータ収集Google編
・SFSのデータ収集Yahoo!編

先週の月曜日に考えてたことを元にして、試験的にデータを集めてみました。採取したのはサイトが有害か無害か、ブロックされた場合にそれが正しいのか誤っているのかというものです。方法はブラウザを2つ用意し、片方だけSFSを設定し、1件ずつブロックされるかどうかを判断していくという手段でやってみました。

まずは有害なキーワードで検索した場合どれくらいブロックされるのかを知る為に「アダルト」という単語でGoogle検索を行いました。試験的なものなので、あまり多くは有りませんが200件ほどでやってみました。結果としては200件中

無害サイト:3/200 
有害サイト:197/200 
正しいブロック:182/197 92.3%
誤ったブロック:1/3 33.3%

以上のようになりました。やはり「アダルト」で検索した場合、ほとんどがアダルトサイトに引っかかった為に200件のデータでは98.5%がアダルトサイトでした。しかし正しくブロックされたのが92.3%と中々高い数値が出ました。誤ったブロックは無害サイト3件中1件だけでした。これはアダルトサイト被害に対するページでしたが、メタデータに「アダルトサイト」のキーワードが含まれていた為にブロックされてしまいました。正しくブロックされたものでも、メタデータのキーワードによってブロックされていたものも多かったので、有害サイトに使われやすいメタデータの傾向を調べることでキーワードの設定を良くできないかと思いました。

次に有害ではないがなんとなく有害サイトにも引っかかりそうなキーワードで検索した場合はどうなるかを知る為に「ビデオ」という単語を使用しました。今度はGoogleではなくYahoo!を使って検索してみました。Yahoo!検索の場合は次のページに移っても上の2件が前のページ下2件が同じページということもありデータは少し多めに300件集めました。結果は以下の通り

無害サイト:299/300
有害サイト:1/300
正しいブロック:1/1 100%
誤ったブロック:52/299 17.4%

結果を見ると予想に反しほとんどが無害なサイトばかりでした。やはり曖昧な単語で有害なサイトへ辿り着くには件数が足りなかったようです。ここで注目すべきは、無害なサイトが誤ってブロックされてしまう率が17.4%であることです。これもまた「video」という単語がURLやメタデータで引っかかった為にブロックされてしまったのです。メタデータを元にキーワードを設定することでフィルタリングの精度は上げられそうですが、逆に上手な設定を行わないと無害なサイトまでブロックされてしまうことから、SFSにおいてキーワードの設定は慎重に行う必要が有ることが改めて分かりました。


試験的な意味でやってみたのですが、実際にやってみる中で思いついたことも有り、有害か無害かの判断とブロックの正誤の判定だけではデータとしては足りないと感じました。ブロックのされ方もURLによるものかキーワードによるものか等で違いが有ったりと、フィルタリングされる際に使われたキーワードは記録した方がいいと感じました。ブロックされなかった有害ページのメタデータを収集してキーワードの設定に生かしたりもできそうだなと思いました。
以上の考えたことをデータを集める際に意識したいと思いました。


取りあえずデータはどんなにがんばっても1000件が限界かなと思いました。orz

2006年10月16日

先週までの活動

大学の講義も始まり、夏休み中と生活スタイルが劇的に変化したせいか体調を崩し気味・・・

データベースの講義で何をテーマにするかと言うことで「コンテンツフィルタのデータベース」を思いつきました。これまでコンテンツフィルタについて調べても、そういった情報を数多く詳しく載せたものはみつからなかった気がします。よって少しずつではあるのですが、何を載せるかを考えつつデータを集め始めました。

また、無料コンテンツフィルタと有料コンテンツフィルタの精度の比較についてですが、方法はどういったものにすればよいか考えが及ばず、取りあえずデータを集める際に、検索エンジンは何を使うかという点について日本における検索エンジンのシェアについて調べました。普段Googleばかりを使っているのでシェアは一番かと思っていたのですが、結果はGoogleのシェアは28.5%なのに対し、Yahooのシェアが56.4%とGoogleの倍近く有ることが分かりました。この2つだけで日本における検索サイトのシェアの85%を占めているので、データを集めるならGoogleとYahooを使うことにしようと思いました。数値はこのページから引用しました。

比較の方法について考えたのですが、カテゴリごとにいくつか(2つか3つくらい?)キーワードを設定して、検索サイトに入力してデータを集め、フィルタリングの精度を確認する方法。ただどれくらいの件数を集めれば信頼できる数値なのかがよくわからないので考えどころ。(数は多いほど信頼性は高いのでしょうが多すぎても調べきれない・・・)

2006年10月04日

10月4日

本日の活動
・鵜川研究室セミナーで発表

久々にblog更新。ここ数日は研究室に来てましたが面倒くさがらずに習慣化していきたいなと思います。

発表までに練習でダメ出しされた部分を直したり、発表の時にしゃべる内容を書いたカンペもしっかり準備していたのでそれなりには見れたものにはなったかも。緊張した時に早口になって舌が回らなくなるのはご愛嬌で^^;

ひとまず発表のことについては一段落した気分。問題はこれからどうするか。
コンテンツフィルタの有料物と無料物との比較をどのように行うかが思いつかない・・・
キーワードの問題はいっそのことキーワードの機能を外してしまって、他のフィルタリングソフトでキーワードの機能を導入したりでなんとかできないものだろうか。色々とできそうなことはある物の悩みどころー