検索オプションに関するメモ

情報処理実習で紹介したいネタ:「まとめサイトがあるかどうか分からないパロディ記事の関連記事を一気に探す方法」最近の話題としては「女子力 4つの心得 -オムライス」で探してみるとか。結果的にまとめサイトが既に作られていたことがわかったけど、どういう検索語が有効かを考えさせたい。

http://twitter.com/#!/kmyken1/status/67407392559730688

この呟きを見ながら,ふと今回の「モテる女子力を磨くための4つの心得」改変ネタを集めるための検索方法についてメモしておこうと言う気になりました(特に,面白い箇所はありませんが).全体として思った事は,今現在話題になっている時事ネタを深くまで追っていく場合にはマイナス(除外)オプションが有効なのだなと言う事でした.

Google

上記のまとめを作成するのに使用した検索エンジンは,Googleはてな匿名ダイアリー (増田)でした.後者に関しては,「5/6 以降の改変祭り」の大きな担い手となっているドメインの一つが増田だったためで,以下のように「女子力」と言うキーワードで検索すると一覧が出てくると言うやや特殊な状況によるものでした.

話が逸れました.Google は下記のように徐々に除外キーワードを増やしながら検索を続けていきました.

今現在,話題になっているものを追いかける際には,それに関連するいくつかの記事が人気になっており,それを紹介するだけの記事が大量にヒットします.今回の例で言うと(オリジナルの紹介記事以外に)以下のタイトルのものが大量にヒットすると言う結果になっていました.

  • モテる女子力を磨くための4つの心得がキチガイじみてると話題に
  • 美琴「モテる女子力を磨くための4つの心得……? これだわ!!」
  • 初音ミクが「モテる女子力を磨くための4つの心得」を習得するとこうなる

面白いのは,上記の除外オプションに関しては 1ページ目の検索結果にはそこまで大きな影響を与えないと言う事です.2ページ目以降,「次のページ」をクリックする毎に上記のようなタイトルの付いた記事が数多くヒットし始めるようになったのでそれに応じて除外オプションを増やしていった結果が,上記の最後の検索キーワードになりました.除外オプションが有用になるのは検索結果を数10ページ単位で追う場合で,普段(検索結果の1, 2ページ分しか閲覧しない場合)はそこまで気にしなくても良いのかなと言う気もしました.

除外オプションについてもう一つ感じたことは,「24時間以内」,「1週間以内」のように期限を区切って検索する場合に相性が良いと言うことです.新しい記事のみを対象に検索すると,単に記事の紹介だけをする記事のような,所謂ノイズが早い段階からヒットし始めます.そのため,ノイズになり得そうなものをあらかじめキーワードで除外しておくと言う戦略が有効に機能しました.

その他に思った事としては,やはり各種 SBMtwitter 連携のエントリーページが大量にひっかかるので,ドメイン指定でブロックするツールが必要不可欠だなぁと言うものです.Google Chrome では本家がリリースしてるだけあって Personal Blocklist が便利でした.このアドオンをインストールして,取り合えず以下のような有名どころを検索結果には表示させなようにすると,幾分スムーズに検索を行う事ができました.

  • b.hatena.ne.jp
  • clip.livedoor.com
  • ceron.jp
  • tweetbuzz.jp
  • topsy.com
  • tweetmeme.com
  • twib.jp
  • favstar.fm
  • favotter.net

Twitter Search

Twitter Search は上記のまとめを作成する際に使用しました.こちらも有用なのは除外オプションで,「RT」と「http」の文字列を含むツイートを除外するだけで随分と楽に改変ツイートを探すことができました.

Twitter はとにかく URL の紹介ツイートと RT が多いので,これを除く事が検索する際の第一手となるようです.こちらに関しても工夫すればもう少し効率的に目的のものだけをヒットさせられるのでしょうが,上記だけでもスムーズに目的が達成できたのでこれ以上は試してみませんでした.

除外オプションに関しては,「一度検索結果を見てから除外するキーワードを決める」みたいな使い方になるので,なかなか一般的な事は言えませんが,今回の調査のように「今現在盛り上がっている話題の中から目的のものだけを抽出する」のような場合には有効なオプションだなと思いました.