コンテンツ自動生成スパム

はてなブックマークに追加する

2008年12月15日 

コンテンツ自動生成スパム

システムで文章を自動的に作成し、それをすべて検索エンジンに登録して集客しようとするスパム。

webサイトが検索エンジンから評価される点として、「情報が充実していてページ数が多い」という要素がある。ページ数が多ければ、サイト内リンクもそれだけ多く張り巡らされ、より多くのキーワードで検索にヒットすると考えられる。このような特性を逆手に取って、システムで意味不明な文章を大量に生成し、まったく価値のない情報をあたかも情報が充実しているかのように検索エンジンに見せかけているため、スパムとなる。

このようなソフトウェアは、ネット上にあるブログやSNSなど他人の文章を勝手に利用して文章を生成する。ただ、文章をそのまま転載すると著作権侵害になるリスクや、「重複コンテンツ」と認識されて検索結果に表示されないリスクがある。そのため、複数のページにある別々の文章を1つに混ぜて、新しい文章を作成している。

このような文章はソフトウェアが自動的に生成するので、まったく意味不明な文章ができる。一見、文法的に正しいように見えるが、単語をでたらめに並べただけで意味が通らない文章になっている。こうしてできた文章は、サラダの中に様々な野菜が散りばめられている様子になぞらえ、「ワードサラダ(word salad)」と呼ばれる。検索エンジンは、単語レベルの正しさは判定できても、文レベルの正しさは判定できないため、インデックスしてしまう。しかし、キーワードがよほど稀なものでない限り、このような意味不明なページが検索でヒットすることはない。

また、コンテンツ自動生成スパムによるブログのことを、特に「スプログ(splog)」という。

ページTOPへ戻る

ページTOPへ戻る