2007年8月30日木曜日

検索エンジンが有用に機能しなくなってきた

Webが大好きだ。研究のために図書館まで車を飛ばしていたのがどのくらい前のことだったか、もう思い出すこともできない。本当にWebは素晴らしい。しかし、約1年前まではもっと素晴らしかった。技術的なトピックの検索が、最近あまり役に立たなくなってきたことに気づいている読者はいるだろうか。今回は、検索エンジンの動作について、もっとはっきり言うと、検索エンジンが有用に動作しないことについて、少し意見を述べてみたい。

技術的観点から言えば、すべてのインターネットの検索エンジンは、次の三つのステップを実行する必要がある。まず、Web中を探し回って、索引付け可能なあらゆるページを見つけ出す。次に、見つけたページに索引を付ける。そして最後に、これが一番難しいことだが、見つけたページの関連性にランクを付ける。関連性にランクを付けることで、「チョコレートチップ」とキーワードを入力して検索したときに、検索結果の1ページ目に、Nestleと同じぐらい多くの「チップ」を生産している企業であるIntel やAMDへのリンクが表示されることはなくなる。

最初の二つのステップは簡単だが、処理量が多く、リソースを大量に消費する。検索エンジンは、公開されているDNSのドメインリストを起点にして、それらのドメイン上に存在するWebサーバーを検索し、見つかったWebサイトのページを調べてさらに大量のWebページへのハイパーリンクを取得する。次に、それらのWebページをダウンロードして巨大なデータベースを構築する。データベースに格納したページには、索引を付ける。そして、Webページの有用性にランクを付ける処理を実行する。

当然のことだが、Webページにあらかじめ「有用性」や「信頼性」のランクが書き込まれているわけではない。そのため検索エンジンは、ページに書き込まれている情報を使用して、いくつかの問いの答えを取得しながら、ページの有用性を推測する。“理想的な世界”では、この情報によって、誰がコンテンツを作成したのか、作者はどのくらい信頼できる人なのか、誰がページをレビューしたのか、作者とレビューワーはそれによって報酬を得たのかどうか、といったページの特性を知ることができる。しかし、実際にすべての検索エンジンで使われている「有用性」は、学問的かつ専門的な研究の世界で使われているものとは少し異なる。


検索エンジンって難しいね・・・