クローリングとは?仕組みや対策方法について解説①~クローリングの基礎知識
ホームページを運営されている方であれば、SEO対策でクローリング(クローラー)という言葉を聞いたことがあるのではないでしょうか。
本記事では、Googleなどの検索エンジンがサイトの情報収集に利用しているクローリングの種類や、その重要性を解説し、対策についてもあわせてご紹介していきます。

1.クローリングとは「プログラムがインターネットを巡回、情報を収集すること」
Googleなどの検索エンジンは、インターネット内の情報を収集するためのプログラムを有しています。
それらがウェブサイトの中を回遊するイメージから、水泳の泳法の1つ「クロール」が由来で「クローリング」と呼ばれています。
また、ページ内のリンクを辿りながら巡回するイメージから、情報収集を行うプログラムは「クローラー」と呼ばれるようになりました。
ウェブ(蜘蛛の巣)を巡回するという意味で「スパイダー」と呼ばれることもあります。
常に新しい情報が追加され、爆発的に情報が肥大化している現代のインターネット。
利用者に最新の検索結果を表示するために、クローラー(スパイダー)によるクローリング作業は必要不可欠になっています。

1-1.クローラーとクローラビリティとは
ウェブサイトの情報収集を行う「クローラー」は、複数のプログラムで構成されています。
スマホアプリのように利用者がタップして起動するアプリとは異なります。
クローラーは、決められたルールに沿って自律的に、インターネットで稼働しているウェブサイト内のページを読み取り、その内容をデータベースに保存し続けます。
そのためボット(ロボット)と呼ばれることがあります。
検索エンジンは、クローラーが蓄えたデータベースを元にして、目録(インデックス)を作成します。
そしてそれらを元に、素早く検索結果が表示されるよう日々更新を行っています。
「クローラビリティ」は、クローラーが情報を収集しやすいウェブサイトの環境を整える手法です。
クローラーが活動しやすいサイトを構築して、検索結果を優位にするために使われます。
参考:Google検索結果の仕組みとは?表示の決まり方やポイントを解説①~検索エンジンとは?~
1-2.クローリング対象のファイルの種類について
クローラーは、ウェブサイト内の様々なファイルを読み込んで情報収集を行います。
クローリングの対象になるファイルとしては、次のような形式が挙げられます。
- HTMLファイル
- PHPファイル
- PDFファイル
- JavaScriptファイル
- CSSファイル
- 画像(PNG、JPGなど)ファイル
- 動画(MP4など)ファイル
非常に多くの形式が対象になりますが、クローラーによってHTMLファイルだけを対象にする場合や、画像や動画のリンク情報のみに限定するなど、特徴があります。
対象ファイルの中でも、HTMLやPHPなどテキストで構成されているファイルは特に重要です。
検索エンジンに対するSEO対策のためにも、クローラビリティを高めておく必要があります。

2.クローリングの重要性とは

ウェブサイトにとって、多くの利用者に閲覧されることは重要な目的の1つです。
商用サイトであれば、自社商品やサービスを1人でも多くの人に知ってもらえることになります。
個人のブログでも、ページビュー(PV)が上がるということは、サイトを続けていくモチベーションを上げる要素になります。
実際には、サイトの集客力を上げるために重要になるのがクローリングです。
現代のインターネットでは、検索結果(それも上位)に挙がらなければ、利用者がサイトの存在を知る機会はなかなかありません。
そのため、検索結果に表示させるために、1秒でも早くウェブサイトをクローリングさせようと考えます。
そして、可能であれば優先的に読み込ませたいページをクローラーに伝えることが、サイトの集客力を上げる重要な作業になります。
3.クローラーの種類

実際にウェブサイトのクローリングを行うのは、クローラーと呼ばれるプログラムです。
私たちがスマートフォンやパソコンの画面で操作するアプリケーションとは異なり、取り決められたルールに沿ってロボットのように休みなく、様々なウェブサイトから膨大な情報を収集しています。
クローラーは、検索エンジンやサービスを運営する会社が独自に開発していますが、日本ではGoogleとYahoo! JAPANの2社で、ほとんどのシェアを占めています。
また、Yahoo! JAPANは検索エンジンとしてGoogleを利用しているため、Googlebotとそれ以外という形で紹介します。
3-1.Googlebot(グーグルボット)
検索エンジンの最大手「Google」が利用しているクローラーです。
収集されたウェブサイトの情報は、Googleはもちろん、Yahoo JAPANの検索結果として活用されます。
Googlebotは画像検索用の「Googlebot-Image」や、動画検索用の「Googlebot-Video」、ニュース検索用の「Googlebot-News」など目的別に複数のクローラーがウェブサイトを巡回しています。
最近では、スマートフォン専用のクローラーなど、新しいGooglebotも準備されています。
詳しいクローラーの一覧は「Google クローラの概要」から確認できます。
日本では、検索エンジンのシェアがGoogleとYahoo! JAPANで90%(2024年 StatCounter調べ)を超えています。
そのため、Googlebotを意識したウェブサイトのクローラビリティが重要になります。
3-2.その他
マイクロソフトの検索エンジンBingが利用する「Bingbot」や、AppleのSiriやSpotlight検索に利用している「Applebot」などのクローラーも存在します。
また、検索エンジン以外にも、求人情報サービスを提供する「Indeed」や、旅行比較サイトを提供している「トラベルコ」が、クローラーを稼働させてウェブサイトから情報提供を受けています。
求人情報や旅行サービスなど、ウェブサイトを特定のサービスに対応する場合には、Googlebot以外にもクローラビリティを意識した作業が必要になる場合があります。
本記事では、クローラーについての基礎知識を解説してまいりました。
次記事ではさらに具体的にクローリングの仕組み、クローリング対策についてご紹介します。
次記事:クローリングとは?仕組みや対策方法について解説②~クローリングの仕組みと対策