話題と知識

はてなブックマークの日々の人気エントリーを「話題」と「知識」と言う観点で分類したページを作ってみました.この記事ではその分類方法について記述します.

はてブ数とツイート数の相関関係 - Life like a clown でも触れましたが,「ブックマークされる記事」と「ツイートされる記事」にはその性質に差が存在します.例えば,私が纏めた以下の 2つの記事はほぼ同時期にホッテントリ入りしたのですが,ツイート数には大きな差があります.

タイトル Twitter Facebook Hatena
プログラマの嫁が知るべき97のこと - Life like a clown 1669 494 879
プログラミング言語「基礎文法最速マスター」ランキング 324 34 1561

この差は,記事の性質が時事ネタや他人に伝えたくなるような「話題」的な性質を帯びているか,必要になったときにまた読み返そうと思うような「知識」的な性質を帯びているかに起因していると思われます.観測している限りでは,「話題」的性質の強い記事には以下のような特徴があります.

  • ブックマーク数と比較してツイート数が多い
  • ブックマーク・エントリーページに多数のコメントが付く

そこで今回は,ツイート数/ブックマーク数の差(Tweets/Bookmarks gap と呼ぶ事とする)とブックマーク・エントリーページに付くコメントの割合(Bookmark comment ratio と呼ぶ事とする)に着目します.

Topics and Knowledge 〜はてブ「人気の話題と知識」〜 ではこの性質を利用して,以下のような数式で「Score」を求め,その「Score」からその記事が「話題」的な性質が強いか,それとも「知識」的な性質が強いかを判別しています.

<Tweets/Bookmarks gap> = ツイート数 / はてブの被ブクマ数
<Bookmark comment ratio> = コメント数 / 公開ブクマユーザ数
<Score> = <Tweets/Bookmarks gap> * <Bookmark comment ratio> * 100.0

この式で導出した「Score」を元に,過去 5日の被ブクマ数&ツイート数 50以上の記事をソートしてみた結果が以下になります.

ざっと見ると「Score」が高いほど時事ネタなどの「話題」的な性質の強い記事に,低いほどライフハックやプログラミングなど「知識」的な性質の強い記事になっている事が分かります.

これを元に分類する事になるのですが,問題となるのは閾値です.「Score」を確認すると,「話題」の方は割とはっきりしていて 3桁を超えるようなものはほぼ全て「話題」的な性質の強いものとなっています.これに対して,「知識」の方はブレがあるのですが「Score」が 20位までに関しては概ね「知識」に属するような傾向が出ています.一番問題となるのは,「Score」が 20〜100 辺りの領域で,この辺りには両方の性質の記事が入り混じっており,なかなか区別するのが難しい領域となっています.今回は,30を閾値に使用しています.

尚,Topics and Knowledge 〜はてブ「人気の話題と知識」〜 ではついでに,2ch まとめブログに関しては独立して別カテゴリにしています.2ch まとめブログかどうかの判別方法は,2ch まとめブログ シェアランキング を基にしたリスト方式で判別しているので漏れがあると思いますが,見つけたら追加していこうと思います.