検索エンジンの関連性 - 実証的検定
2008年4月3日
検索エンジンは私たちが目にしたり使用したりする情報をコントロールしています。その重要な要素は、検索クエリーに対して最も関連性の高いウェブページを決定するランキングアルゴリズムです。
これらのアルゴリズムの性能はど程度よいのでしょうか? 非公開ですべての大手検索エンジンが各社独自に性能評価の試みている一方で、公然としてまがいものもでまわっていますが、実際、残りの私たちが手に出来る本物のデータはどこにもありません。
メカニカルタークを利用して、検索エンジンの関連性(レリバンシー)を評価できるので、500件のクエリーをAsk, Google, Live, Yahoo(英語版)の4大検索エンジンで走らせて実験してみました。このクエリーは、現実の検索クエリーセットから任意に抽出したサンプルです。annotatorにトップ5件の検索結果の関連性を、各エンジンごとに評価してもらいました。
下の図は実験結果です:

Askの検索結果は明らかに最悪のパフォーマンスです。そのほか3つの検索エンジンでは、統計的には引き分けです。詳細をみていくと関連性が高いほうからGoogle, Yahoo, Liveの順となりますが、その差はほんのわずかです。このトップ3社の検索エンジンは約80%のクエリーを正しく効果的に返しています。
結果が意味するものは?
よくグーグルが一番よいアルゴリズムをもっていて、その検索結果が一番関連性が高いといわれますが、この調査結果がほんの少しそれを証拠付けてます。確かに、僕たちの手法は予備的で、様々な方法で改善の予備があります。たとえば、エラーバーを小さくし、さらに統計的な相違を見出すとか。。しかし、これは典型的500件のクエリケースで、少しおおざっばですが、かなり客観的な計測結果:検索結果の質としてGoogle, Live, Yahooはほぼ同程度、がでています。
この結果は、ユーザー全体の利便性を表しているわけではありません。というのは、検索エンジン間を比較できるようにするために、メインのウェブの結果(ページタイトル、URL、ページ説明の一部)のみを抽出したからです。実際には、検索エンジンはその他いろいろなもの:たとえば、プレゼンテーション、ブランディング、ビデオ、画像結果、広告等も含まれてきますが、僕たちは、そのうちメインのウェブ検索の関連性のみをテストしました。
詳細に続く・・・
