今さら聞けないITワード「検索エンジン」

 

今さら聞けないITワード「検索エンジン」

分かっているようで、実はよく分からないものが多いITワードを岩戸あつしさんが分かりやすく解説してくれる。

 

なぜエンジンなのか

 今やインターネットに欠かすことができないグーグルやヤフーなどの検索ウェブサイト。この検索を可能にしたのが、検索エンジンと呼ばれるものです。検索という言葉は一般的に使われるものですが、検索エンジンというと車のエンジンのようなものを連想してしまい、具体的なもののイメージが浮かんでこないのではないでしょうか。検索エンジンは、ハードウエア、ソフトウエアに分けて説明することができます。

検索エンジンのハードウエア


まるでSF映画に出てきそうな、アメリカ・アイオワ州にあるグーグル・データ・センター(http://www.google.com/about/datacenters/gallery/#/tech/1

ハードウエアでいえば、サーバー機ということになります。例えばグーグル社のサーバーは、普通の会社で使っているような19インチ・ラック(コンピュータ・ルームにある棚)に並んでいる一般的なサーバー機を使っているようですが、その台数は半端ではなく、一説には世界中で100万台とも200万台とも言われています。

ウェブで調べると、中には1,000万台以上という情報もありますが、これはグーグル社がサーバーの数を正式に発表していないためで、ウェブに載っている数字は各専門家が推測した値です。数字がひとケタも違うのは、物理的なサーバーの形で数えるのか、ソフト的なサーバー機能で数えるのかという点で異なるからです。あるサーバー機を1台と見るか数台と見るか、基準によって分かれるわけです。

また、当然ですがすべてのサーバー機が1カ所に固まっているわけではなく、データ・センターと呼ばれるサーバー専用の大きな建物が世界各地にあります。例えばグーグルはアメリカ合衆国各地に6カ所、南アメリカに1カ所、ヨーロッパに3カ所、アジアに3カ所(シンガポール、香港、台湾にあり、日本にはありません。地震のせいでしょうか?)持っており、それらの巨大なデータ・センター以外にも小規模なものを各国に分散して持っているようです。

検索エンジンのソフトウエア

ソフトウエアの役割として、以下の3つの機能が必要になります。(1)情報を集める、(2)情報を整理する、(3)情報を提供する。それぞれ順に見ていきましょう。

情報を集める

1994年にヤフーが初めて検索エンジンを作った時は、ほとんどインターネット版データベース・エンジンと読んでもいいようなものでした。広告主は無料、もしくは有料でヤフーのデータベース・エンジンに必要項目を登録し、ユーザーはその登録された情報から自分の欲しい情報を探し出すというものでした。

その後、2000年にグーグルの検索エンジンがヤフーに採用されました。グーグルはそれまで登録制であった検索エンジンに対し、クローラというソフトを使って、世界中のウェブ情報を周期的にスキャニングして集めるという方法を取りました。それまでは広告してほしい人たちが登録した情報しか検索できなかったのですが、グーグルによってウェブにあるすべての情報が検索できるようになったのです。

情報を整理する

クローラによって集められた情報は、もちろんそのままでは検索できません。例えば図書館にあるすべての本の内容をまるごとコンピュータに入れたとします。「クローラ」という検索ワードを入れると、ただ「クローラ」という文字のところに飛んでいくだけで、自分が欲しい内容かどうかを探すには、その前後をいちいち自分の目で調べる必要があります。しかも「クローラ」という文字が書かれているところすべてにジャンプしますので、場合によっては何百、何千回もジャンプすることになります。「クローラの歴史」とすると、もっと絞ることができますが、ほしい内容を前後の文章から探さなければいけないという意味では同じです。では、「グーグルにおけるクローラの歴史を知りたい」と文章で書くとどうなるかということですが、この文章と全く同じ文字が書かれていればジャンプしますが、少しでも文字が異なると見つけることができません。

そこで、集めた情報を図書館のように分類して、インデックスを作る必要があります。図書館で本を探す時は「本のタイトル」「著者名」、文学や社会科学などの「分類項目」をキーワードに探しますが、インターネットの世界ではありとあらゆる言葉が検索の対象になりますので、図書館よりももっと多岐に渡り、あらゆる項目が検索の対象になるような整理の仕方をする必要があります。

この整理の仕方が検索エンジンの最も重要なノウハウといったところでしょうか。

情報を提供する

上でも述べたように、コンピュータは単語を探すのは得意で瞬時にできますが、文章を理解するのは不得意です。検索エンジンもずいぶんと発達し、自然言語、つまり我々が日々使っている言葉で検索してもある程度満足する結果が返ってきます。また最近の検索エンジンは中途半端な情報、うろ覚えの情報、時には間違った言葉を入れてもそれを正して検索できるようになっています。ユーザーも経験によって検索エンジンの癖を理解し、どのような検索ワードを入れたら自分の欲しい結果が出るのか学習しているようです。つまり、検索エンジン側とユーザー側と双方が学習しながら発展していっているのです。

 

 

岩戸あつし <著者プロフィル>
大学院卒業後、貿易会社を経て、コンピュータ・エンジニアとして活躍。日経CG などへの執筆、PCショーの講師を勤める。1992年、オーストラリアに移住。1994年シドニーにジャパン・コンピュータ・ネットを設立、主にシドニー在住の日本人、日本企業にコンピュータ・サービスを開始する。現在同代表取締役社長。

新着記事

新着記事をもっと見る

NICHIGO CHANNEL

新着イベント情報

新着イベントをもっと見る