検索結果の「鮮度」が変わる、Google "QDF"アルゴリズムの仕組み

はてなブックマークに追加する

2008年01月30日 CNET Japan サーチエンジン情報館

Googleの検索結果が同じキーワードでも朝と夜で変化するということについて説明している日本語の記事があまりないので、ここで解説をしておく。この技術はもともと、米New York TimesのGoogleへのインタビューの中で紹介されたもので、QDF(query deserves freshness)と呼ばれるものです。日本国内では2007年4月以降、Googleウェブ検索によく「5分前」「1時間前」「4時間前」といったラベルつきのリンクが掲載されることがありますが、これはQDFアルゴリズムによるものです。

---------------

GoogleやYahoo!で検索した時に私たちが目にする検索結果の並び順というのは、ある時点におけるウェブページのランク付けの結果に基づいたものだ。ウェブページのキーワードとの適合性や、それに張られたリンクの数や質など多数の要因に基づいて算出されたスコアに応じてレレバンシー(関連性、適合性)が判定されている。さてこの検索結果、表示されるリンク(ページ)というのは最近作られた新しいページが多く含まれている方がいいのか、それとも昔から存在する古いページの方がいいのだろうか?

これはユーザーが何を探しているか、またそのキーワードに関連する世の中の出来事やユーザーの関心事に大きく依存する。つまり、検索結果の鮮度は新しければいいわけでもないし、古いほうがいいわけでもない、それはその時点でユーザーが持ち合わせているクエリインテント(検索意図)に依存する。

例えば、1月30日の夕方時点で、asahi.comなどに中国製の冷凍ギョーザを食べたことで腹痛や吐き気を訴えた人がいるというニュースが流れている(記事名:中国製冷凍ギョーザで腹痛・吐き気 農薬混入か 千葉)。例えばこのニュースが報道された時に冷凍ギョーザという検索数が増えた時、そのユーザーのインテントはおそらく冷凍ギョーザの作り方やおいしいお店を探しているのではなくて、そのニュースに関連する話題だろう。同じく、私が所属するアイレップという会社が世界的に注目を浴びる技術を発表したとして、その後に「アイレップ」という社名での検索数が伸びた時、このユーザーはきっとこの発表に関する話題に関心があって検索したのだろうし、発表前にアイレップと検索していたであろう、採用やIRなどに関心があって検索したユーザーとはインテントが異なるはずだ。

こうしたケースでは検索結果の鮮度は高いほうがいい、つまり今リアルタイムでおきている出来事について触れている最新のウェブページが多めに出たほうが、ユーザーの認識するレレバンシー評価は高いはずだ。

一方、いまこのタイミングで「足利尊氏」や「織田信長」などと検索した場合、検索結果の鮮度は重要だろうか?おそらく歴史的事象について調査したいことがあって検索していると推定されるのであって、ウェブページの鮮度は問題にならないはずだ。

このように、検索結果の鮮度はユーザーのインテントに左右されることになる。

この検索結果の鮮度に対して1つの解決策を提示し、実行しているのがGoogle。Googleは "QDF" (Query Deserves Freshness)というアルゴリズムを用いている。

仕組みは次の通りだ。ある一定の期間において、ブログ記事やニュース記事の中で特定のトピックの出現量が増加した時、Googleはそれを「話題性あり(hot)」と判断し、検索結果中に最新の情報を持つ(鮮度の高い)ページへのリンクの割合を増やす。これはGoogleが監視する検索クエリの増減量と照らし合わせて判定する。

例えば、「東京都」というキーワードが毎日平均1万前後の検索回数があるとしよう。ある日、このキーワードの検索回数が急に100万回に増えた時、何らかの出来事により世の中のユーザーが同キーワード(話題)に関心を持ったために検索数が急増したと推定できる。従って、Googleは「東京都」をホットなワードと認識し、検索結果1ページあたりの最新ページの割合を増やす。

ユーザーが使用した検索キーワードが「話題性がある」と判定されている間は、新規・更新されたページが検索結果に表示されやすくなるし、話題性がないと判断される検索キーワードで検索した時に新しいページばかりになってしまうことはない。ユーザーのインテントにあわせて検索結果の鮮度が決定できる。米Googleエンジニア・Amit Singhal氏はQDFによる成果として、ニューヨークで停電が起きた時、それを報じた記事が15分後には検索可能だった事例を挙げている。

このQDFの仕組みによって、次のように検索結果は変わる。先述した「冷凍ギョーザ」と検索した時(2008年1月30日17時時点)や、先日の虚偽の大量保有報告書が登録された「テラメント」と検索した時(同報道が流れた直後)にGoogleで検索すると検索結果1ページ目の大半は記事公開後 8~3時間未満のページのリンクが占めていた。

ちなみに、こうした仕組みを持たないYahoo!は冷凍ギョーザのショッピングサイトへのリンクが多数を占めていたり、テラメントと検索すると2件しか表示しなかった(当時)。MSN / Live Searchに至っては当時"テラメント”という文字列が存在しなかったため、 テ ラ メ ン ト と言葉を分解した上で一致したページが検索結果に表示されていた。Yahoo!はYahoo!ニュースと連携して、一部のニュースの話題については自然検索の上部にニュース記事へのリンクボックスを表示するが、よほど話題性が高いニュースでないと表示されない模様だ(Yahoo!ニュースのトピックスに掲載されている記事のキーワードで検索しても、それほどボックスは表示されない)。

検索技術は精度が高ければグローバルに適用できるものではなく、その国の文化や習慣、言語の問題によって品質は左右されることはある。だから欧米ではGoogleが強くても韓国や中国、日本といったアジア圏ではトップシェアを持っていない。とはいえ、グローバルで展開している故に優位性を発揮できる点も数多く持ち合わせており(例えば自動翻訳技術(Google翻訳)などは面白い)、とりわけ日本では携帯分野でGoogleが単純な携帯利用者数シェアで8割にリーチできることで国内でのプレゼンスも高まるだろうし、今後どこまで国内でシェアを伸ばせるか楽しみなところでもある。

「冷凍ギョーザ」で検索した時の検索結果、2008年1月30日17時。
「冷凍ギョーザ」で検索した時の検索結果、2008年1月30日17時。

株式会社アイレップ SEM総合研究所 所長 渡辺隆広

ページTOPへ戻る

検索結果の「鮮度」が変わる、Google "QDF"アルゴリズムの仕組みを読んだ方におすすめの記事

ページTOPへ戻る