わかっていたことではあるが、不作為でもこのようなことが起こる。ITMediaのニュース「「厚労省」Google検索結果修正 「アルゴリズムを見直した」」によれば、
Googleで「厚労省」「厚生労働省」を検索すると、検索結果の最上位に海外の別のサイトが表示される現象が起きていた件で、Googleは12月27日までに、検索アルゴリズムを修正し、適切な結果が表示されるようにした。
ということで、検索アルゴリズムの不具合により、検索結果が適切でなかったことが明らかになり、それを適切な結果が表示されるようにした、ということである。だが、適切な結果とは、いったいどのような結果を指し示すものだろうか。
もちろん、このニュースでは期待するところは厚生労働省のWebページ(さらに言えばそのトップページ)を検索結果のトップにもってくるというものだろう。だが、それが「正しい検索アルゴリズム」と言えるものなのだろうか?
仮に、「正しい検索アルゴリズム」というものがあるとして、それには何を求めるのだろう。アクセス数の多い順だろうか、検索ワードの入力(多い)順だろうか、それとも検索ワードにふさわしいWebページを示すことだろうか、あるいは……。
つまり、ユーザサイドで期待する内容は異なる。一方、検索サイトではどのようなアルゴリズムかは一般的に公開されていないが、どういう基準で検索結果を表示している(ランクづけている)かは公開されている(例えば、Googleでは「Googleの人気の秘密」というページに概略が書かれている)。
だが、このような基準を示していても、厚生労働省の検索結果が求める結果ではなかったという。これは、上のニュースでもあるように『コピーサイトとオリジナルサイトを取り違って検索最上位に表示していたことを確認した。検索アルゴリズムを修正し、より適切な結果が出るようにした』というアナウンスを信じるなら、検索アルゴリズムとそのデータを修正し、対応したのだろうが、おそらくこれは汎用的な(数学的にいうなら一般化した)修正ではないと予想される。なぜなら、これが検索アルゴリズムの本質的修正を必要とするなら、他の多くの検索にも与える影響が甚大だからだ。おそらく、アナウンスにもあるように単に検索エンジンに与える内部データを変更(修正)したというレベルだろう。適切な検索結果となるように。
検索サイトでは、ありとあらゆる攻撃にも耐えるように、様々な工夫もされているが、それが通常の検索行為なのか、攻撃行為なのかを区別するアルゴリズムも重要である。メールソフトでも、スパムメールか否かを判定する機能を持ったものがあるが、適切なメールを誤ってスパムメールと判定してしまう事故もそれなりにあるのは、そのあたりの区別がつきにくいこと(正しいパターンマッチングを行うには情報の蓄積しかないため)が大きい。検索エンジンも同様に、検索アルゴリズムと内部データによって「適切な」検索結果を導出しているが、これは様々な攻撃等を考慮に入れたフィルタのかかった結果であるというわけである。
特定サイトに誘導はしていない、というのはおそらく正しいのではないかと思うが、結果的に不具合によって誘導してしまうことはあるだろう。意図的にせよ、そうでないにせよ、検索サイトの結果だけを鵜呑みしてしまうのは危険である。このことを改めて示してくれたニュースとして記憶しておきたい。
コメント