WEB用語集

今さら聞けない「WEB用語集」【検索ロボット】

「検索ロボット」とは、
全文検索型サーチエンジンの検索データベースを作成するために、
世界中のありとあらゆるウェブページを回収するプログラムです。
（参照：IT用語辞典）

「Yahoo!JAPAN」や「Google」などの検索サイトには、
インターネット上のあらゆるページが登録されていて、簡単に検索することができます。

検索エンジンは情報収集にこの「検索ロボット」を使用しています。

検索ロボットは、年中無休で動き続け、
リンクを次々とたどりながらインターネット上を徘徊して
膨大なページのURLを収集、保存します。

インターネットに存在するページを片っ端からすべて拾い集めるのは、
人の手では不可能ですが、このロボットに任せておけば
次々と情報が取り込まれていくのです。

最近では「リンクがたくさん貼られているページ＝優秀なページ」と判断し、
そういうページを検索結果の上の方に表示します。

また「どういう言葉でリンクが貼られているか」や、
「リンクを貼っているページは優秀なページかどうか」
なども細かくチェックするようです。

検索ロボットがページを探し出す手段や、検索の対象とするファイルの種類はさまざまで、
検索ロボットによってはテキストファイルやPDFファイル、
ExcelやWordなどで作成した文書ファイルも回収します。

このため過去には、適切なアクセス権の設定等を怠った企業の機密文書が
検索可能になってしまったという事故もありました。

このような流出を防ぐために、
HTMLファイル内に検索を拒否することを明記したMETAタグを記入したりする手法がありますが、
実際には検索ロボットによってはこのような指定を無視してファイルを回収していくため、
機密性の高いファイルはアクセス権を制限するなどの手段で守る必要があります。