ヤフーが新たにサポートした「Robots-Nocontent」って何だ?

はてなブックマークに追加する

2007年05月06日 CNET Japan ブログ 渡辺隆広のサーチエンジン情報館

私たちは情報を識別する時に視覚的要素や過去の経験や知識を用いて自動的に情報の意味を判断することがあります。例えば新聞の1面を開いた時、どの範囲がひとかたまりの記事であるとか、どれが広告でどれが新聞名であるとか、文字を読まなくても判断できます。それが日本語で書かれていなくても、例えば英語やベトナム語であっても、「文字読めないけどこれがヘッドライン」などと推定を立てることができるわけです。

しかしながら視覚情報や知識や経験といったものに頼れない検索エンジンはそうはいかないのです。あるページを開いたとき、人間であれば明らかに「これは主トピックではない」といった情報も検索エンジンにはあたかもそれが重要な言葉のように捉えてしまい、検索クエリに対してまとはずれな答え(ページ)を表示してしまうことは多々あります。

Googleニュース検索で「アイレップ」と検索した結果。3番目に株式会社ファンコミュニケーションズのホワイトペーパーへのリンクが掲載される

例えばGoogleニュース検索で「アイレップ」と検索すると3番目(2007年5月6日18時45分時点)に「日本最大級のアフィリエイトネットワーク!A8.net」というタイトルのページがヒットします。でもクリックするとファンコミュニケーションズさんのホワイトペーパーライブラリーのページ。全然「アイレップ」とは関係ないのですが、何故検索にヒットするかというと主コンテンツとは関係ないエリアにアイレップという文字列があり、Googleがそれをこのページと関連づけてしまっているからです。

これはCNET Japanのソースコードの書き方が悪いとも言えるし、Googleのアルゴリズムの処理の仕方にも問題があるとも言えるのですが、どっちが悪いにせよユーザの検索要求に適切に答えているとはいえないことは確かです。

結局のところ、検索エンジンはページ上の情報において、どれが重要でどれが重要でないのか、完璧に把握する技術を持っていないからこうした問題が起こります。この課題に対して検索エンジンもチャレンジをしています。例えばマイクロソフトは「VIPS: a Vision-based Page Segmentation Algorithm」(論文)という論文を発表しているのですが、これはページの情報をセグメントに区切り、ページ上の主トピックを特定しようという技術的アプローチです(少なくとも日本語環境において上手くいっているとは思えないけれども)。フッターやヘッダーくらいならパターンマッチングである程度スコアリングのさじ加減はできるでしょうが、それ以上の情報を取り扱おうとすると難しいわけです。

前置きが相当に長くなりましたが、米Yahoo!が5月2日に発表したRobots-Nocontent属性(タグ)はこうした問題を解決するためのサイト運営者側で対応する方法の1つです(Yahoo!ガイドライン:How do I mark web page content that is extraneous to the main unique content on the page?。要は、検索エンジンにインデックスさせなくていい(無視していい)情報エリアを"Robots-Nocontent"でマークアップしてあげると、Yahoo!はそれを検索対象から除外してくれます。

通常Webページは主コンテンツ以外にもヘッダーやフッター、ナビゲーションリンク、広告エリア、サブコンテンツ、キャンペーン告知などなどページの主トピック以外の情報を数多く持っているものです。先日の記事「ヤフーにとってマイクロソフトは魅力的か?」のページを見ても、右側には他のCNETブログ皆様の最新エントリー一覧や、ニュースリリースのリンク、レビューなど、ヤフーとマイクロソフトの交渉とは全く関係ない情報はたくさんあります。こうした情報をRobots-Nocontentで囲ってあげることで、これらは重要でない情報であることをYahoo!に伝えられると同時に、どれが主コンテンツ(検索対象にしてほしいコンテンツ)であるかも明示できるようになるのです。

Yahoo!も色々とフィードバックを得ながら検討した結果リリースしたようですが、これは確かに面白そうです。しかしながら、果たしてサイト運営者は今後Webページを作っていく上でこれを導入していくか?となると未知数です。

きっと今これにすぐ取り組むことでメリットを享受できるサイト運営者は、ものすごく膨大なコンテンツを持っているけれどもHTMLソースコードがものすごく汚くてSEO対策も不十分なためにページと全く関係ないキーワードでよく検索にヒットさせてしまっているようなケースなのでしょうが、そういう人ってなかなかいないと思います。Google、Yahoo!、Microsoftが共同歩調をとったけれども微妙な存在の rel=nofollow(リンクを無視させるための属性)とは違って別の問題を引き起こすような性質はないものの、導入しなければいけない必然性が欠けています。

GoogleやMicrosoftもサポートを開始すると話は変わってくるのでしょうが、現状はYahoo!オリジナルのものですから様子見といったところでしょうか。最もこうしたことは試してみないとわからないことが多々ありますから、サーチマーケティングに関心ある方は試しに取り組んでみたらいかがでしょう。CMSでテンプレートを操作できるなら導入は簡単だと思います。

(執筆:株式会社アイレップ SEM総合研究所 渡辺隆広)

ページTOPへ戻る

ヤフーが新たにサポートした「Robots-Nocontent」って何だ?を読んだ方におすすめの記事

ページTOPへ戻る