はてなブックマークスパムが疑われるサイトを SoGap でフィルタリングする事にしました

現状のはてなブックマークは、スパム業者の独壇場になっていると言う指摘があります。この指摘については確たる証拠を掴むのが難しいと言う理由で http://sogap.cielquis.net 上でのフィルタリング等は(確たる証拠が掴めるまでは)行わないと言う方針だったのですが、最近「いくらなんでも、それはあからさまでやり過ぎだろう」と言う事例が観測されるようになってきたので、ある程度、主観と独断でフィルタリングしていく方針に変更しました。

今日から少しずつ導入していく予定なので、しばらくは残るかと思います。怪しいと思われるサイトがありましたら、@tt_clown 辺りに飛ばしておいてもらえると、後ほど自分で確認して、SoGap でフィルタリングするかどうか決めます。

尚、最大の懸念サイトは NAVER まとめ なのですが、ユーザ投稿サイトと言う性質上さすがにドメイン毎フィルタリングする訳にもいかないので、ここは保留にします。今のところは、NAVER まとめ等については 記事のフィルタリング機能 を用いてユーザが表示形式を変更する事で対応、と言う形が落としどころかなと思っています。

はてなブックマークスパムが疑われる事例

さて。やりすぎだろうと感じた最たる例として、マネーハック 〜投資から節約術までマネー情報の総合サイト〜 が挙げられます。以下は、このブログで注目された記事の一覧です(時系列順)。

上記を見ると軒並み 1000ブクマ超をしているのですが、中身は過去にホットエントリに上がった記事を単に列挙している記事ばかりです。一番最初に投稿された記事のみ幾分頑張って書いている事が見て取れるのですが、それ以降は、頑張らなくても大丈夫と確信したのか一気に手抜きが始まります。エントリーページに、かんたんにブログで紹介できる機能を追加 - はてなブックマーク日記 がリリースされてからは手抜きっぷりにさらに磨きがかかり、「タイトル以外は、自分の文章は 1 文字も書かない」と言う記事も度々見られるようになりました。

今のホッテントリは確実にSEO業者の独壇場になってる

・・・(中略)・・・

宣伝になっちゃうけど、一つのSEOツールだけで2000ブクマを叩き出したならこれは本当に凄い
恐らく水増しブクマに使われたアカウントはせいぜい100〜200ぐらいだと思う
1000人以上のはてなーが手玉に取られたわけだ

上のはあからさまだったが、ホッテントリの非公開ブクマ率とコメント率を見てると、2chまとめサイトとかライフハック系情報サイトにもいくつか怪しいのがある

昔のエントリーでもある程度追加でブクマされるとホッテントリになるところを見ると、ある程度まとまった数のブクマが追加されると一旦圏外になっても再びホッテントリ入りすることができるのだろう
という訳でSEOツールのアルゴリズムは、そもそものネタがつまらない、水増しの効果が薄いエントリは早々にブクマの追加投入を諦め、見込みがありそうなエントリーに対して少しずつブクマを追加する事によってホッテントリをキープしているのではないだろうか

SEOツールによって水増しされてはいるが、そこそこ有用なエントリがホッテントリに入っているのはそのためだろう

はてブSEOの話 - システムアーツ@はてな

ここで「はてブ SEO」と呼ばれている類のはてなブックマークスパムは、これまでよく言われていた「3users 戦略」とは異なる戦略を取っていると思われます。以下に、マネーハック 〜投資から節約術までマネー情報の総合サイト〜 の「不発」だったリンク列挙記事を挙げます。

これを見ると良くて 10users 程度となっており、「大当たり」か「完全に外れ」と言う非常に極端な結果になっています。『マネーハック ~投資から節約術までマネー情報の総...』 の人気エントリー - はてなブックマーク を見ても、2桁ブクマ〜100ブクマレベルの記事は「1000ブクマ超した大当たり記事の URL 違い」のみで、不思議な空白があいています。

はてブ SEO」、ホットエントリに表示される時間を最大化するためのアルゴリズム

ここからは完全に推測のみで記述するので鵜呑みにはしないで欲しいのですが、50users とか 100users 程度の「ホットエントリ入りするかどうかギリギリの水準」の記事がほとんど存在しない事から、恐らくは、「ホットエントリに表示される時間を最大化するためのアルゴリズム」を採用しているのではないかと推測されます。

はてなブックマークのブックマーク数を決定づける最大の要因は、「トップページ または 人気エントリー(ホットエントリ) に表示される時間」となります。この 2 つのページの閲覧数は相当なもののようで、ここに表示されれば内容に関わらずある程度は必ずブックマークされます。

通常であれば、内容に応じて経過時間とともにブックマークされる頻度が減衰していき、やがて「人気エントリー」のページに表示されなくなってほとんどブックマークされなくなると言う道を辿るのですが、この「表示されなくなるまでの時間」を可能な限り先延ばしにする事によって、非常に効果的な記事の露出効果(宣伝効果)を期待できます。

はてなブックマーク人気エントリーは、「直近 6 時間でのブックマーク数の多い順ランキング」であったように記憶しています(かなり昔にどこかのサイトで見た話なので、違うかもしれません・・・)。したがって、最も極端な例だと、「人気エントリーに残るまでに後 1 ブクマ足りない!」のような状況になった時にスパムアカウントで自演ブクマをする事によって延命を図る事ができます。

この推測は、はてなブックマークのブックマーク数を 1 時間毎に集計してランキングしている Hatena::Bookmark::24H を見て強まりました。上記の記事群の「ブックマークのされ方の推移」を追ってみると、Hatena::Bookmark::24H のトップに表示されるような派手さがありません。ほとんどが「Hatena::Bookmark::24H には掲載されないか、掲載されてもかなり下位の方」となっています。

その一方で、はてなブックマーク人気エントリーに表示される時間は他の記事よりもかなり長い傾向にあります。

この現象は、ホットエントリに表示される時間を最大化するために、必要最小限の数のみ手持ちのスパムアカウントでブックマークしているためではないかと推測されます。

新たなランキングシステムのチャンス

個人的には、はてなブックマークのブックマーク数などの情報は「何を表示するか、また、どのような順序で表示するか」の指標の一つとして非常に有用であると思っているのですが、巷でも言われているように、「はてなブックマーク人気エントリー」については残念ながら「スパム勢の汚染が進んでいる」と言う印象があります。

これは、逆に考えると「これらの指標を用いた新たなランキングシステムを作るチャンス」と捉える事ができます。実際、SoGap を作成する事にした動機の一つもそこにあります。

「有用なランキングシステム」には「カテゴライズ」と「フィルタリング」が重要になります。これらを何らかのアルゴリズムによって自動化するのが理想なのですが、やはり現実問題としては人力によるブラックリスト方式のフィルタリングも必要となります。「アルゴリズム」と「人力」をうまく組み合わせて、何かしら可能性を感じるランキングシステムを構築していければなと思います。

後、関係ないのですが、この手の批判的な記事を書く際には言及先のリンクに対して、信頼のならないページと言う意味を込めて rel="nofollow" を付けるようにしているのですが、はてな記法では nofollow 指定ができないので HTML タグを記述しなければならず面倒に感じます。そんな訳で、はてな記法のリンクに nofollow オプションを付けて下さい!

広告を非表示にする