ブックマーク数によるスコアリングの信憑性

やばいやばい騒動の一連の記事の中でちょっと目に留まった記事です.記事の内容自体については特にこれといった感想はないのですが,注目したのは被ブックマーク数の部分.2 つの記事は書かれてある内容がまったく同じものなのですが,被ブックマーク数も大体同じ程度で収束しています.気になってブックマークしているユーザの内訳を調べてみたのですが,どちらの記事もブックマークしているというユーザは一人も存在していませんでした.これは,なかなか興味深い結果だなと思います.

ブックマーク数によるスコアリング(記事の質の評価)に関しては,その信憑性が疑問視されていました(現在でもされている).まったく同じ記事でもその時の勢いによってガラっと被ブックマーク数が変わってしまうのではないか,など.しかし,上記の結果は“いくつかの条件を同じにすれば,被ブックマーク数と記事の質は比例するのではないか”と言う期待を抱かせてくれます.いくつかの条件とは,具体的には以下の通りです.

  • 記事を書いた著者(もしくはその記事を載せた Web サイト)の知名度
  • その記事への被リンク数

これらの影響(ノイズ)をシステム的にうまく除去して(記事の質以外の)条件を揃える事は難しいため,依然として,被ブックマーク数から記事の質のみを比較する(もしくは比較するためのスコアを導出する)事は難しい状況です.また,被ブックマーク数の情報のみでは,その記事が肯定的に評価されているのか否定的に評価されているのかの判断もできません.ですが,上記の結果は“被ブックマーク数なんてまったく当てにならない”から“意外とうまく(記事の質を)評価できているのではないか”と思わせてくれる好例ではないかな,と感じました.

広告を非表示にする