形態素解析

はてなブックマークに追加する

2009年08月11日 

形態素解析とは、各検索エンジンが持つ辞書に基づいて文章を基となる単語単位に切り分けて分解し、文章を認識するアルゴリズムの事を言う。

日本語は、英語のように単語の区切りがスペースではない。その為、検索エンジンには、文章の"どこからどこまで"が単語なのかを理解する事ができない。

例えば、英語の「Search Engine Marketing」を日本語にすると「検索エンジンマーケティング」となる。英語では、「Search」「Engine」「Marketing」と分解する事ができるが、日本語では区切りが無いことにより一単語となってしまう。ここで形態素解析の出番である。各検索エンジンが持つ辞書に基づき解析すると「検索」「エンジン」「マーケティング」と分解され、文章をより高度に認識する事が出来るようになる。

尚、各検索エンジンは独自の辞書を参照する事により形態素解析を行っているほか、日本語は、主語・述語・接続語などあらゆる構成要素で文章が成り立っている為、同じ文章構成でも各検索エンジンにより解析に違いが生じる。その為、このアルゴリズムのみで順位が決定されている訳ではないが、特定のキーワードの検索結果において、GoogleとYahoo!の検索結果が異なるなどの差が発生する一つの要因となっている。

ページTOPへ戻る

ページTOPへ戻る