皆さん、こんにちは。
皆さん、突然ですが『クローラー』という言葉を聞いた事があるでしょうか?
SEO対策をする上で、とても大切な要素の一つなのですが、一般的には馴染みが薄いかもしれません。
皆さんが作成したネット上のコンテンツはどうやって発見されるのか…?
実はその仕組みにクローラーは欠かせない存在となっています。
そこで、今回はネット上で日々活動している謎のシステム『クローラーが存在する意味』について、
徹底的に解説していきたいと思います。
クローラーとはそもそも何なのか?
クローラーとは、英語で『Crawler』と書き、元々は『這う者』や『這う動物』を意味する言葉でした。
ちなみに、水泳で有名な『クロール』は、動詞形の『crawl』が語源となっています。
しかし、IT界で使われるクローラーは『インターネット上の情報を収集するプログラム』の事を指しています。
また、実際に収集していく事を『クロール』もしくは、『クローリング』と言います。
クローラーは、自動的にウェブページ間のリンクを辿っていく事で、世界中のありとあらゆるウェブサイトの情報へアクセスしています。
また、常に活動し続ける事で、追加更新されていくサイトやページを次々と認識し、インターネットの最新情報を把握しています。
『リンクを辿っていく』という様子から『クローラー』は、『スパイダー』と呼ばれる場合もあります。
その他、検索ロボット、サーチボットなどとも呼ばれています。
クローラーって何のために情報を収集しているの?
ウェブサイトや、ブログの情報を収集しているクローラーですが、一体何のために活動しているのでしょうか?
このクローラーの使われ方として、一番代表的なものが『検索エンジンの元データ作り』なのです。
クローラーが情報を集め、ランキングの元となるデータベースを作る
検索エンジンが機能するためには、『クローラー』が必要不可欠なのですが、
その説明を始める前に検索エンジンがどのようにインデックスに登録し、ランキング付けしているのか?の理解が必要不可欠です。
検索エンジンは、あらかじめインターネット上から大量の情報を集めておき、膨大な自作データベースを構築しています。
検索する際には、そのデータベースから必要な情報を調べ、ユーザーに適切なページを提示しているのです。
そのため、「検索エンジン」というシステムは、インターネットの情報を集めるプログラム、情報の優先度を順位付けするプログラムなど、いくつかのプログラムが組み込まれる事で成り立っています。
その仕組みは、主に3つに分類されます。
- クローラー … ウェブページを巡回し、ページやコンテンツを解析し、情報を集める。
- インデクサー … クローラーが収集したデータをコピーし、データベースとして蓄積していく。
- サーチャー … データベース内から、検索キーワードに関係した情報を抽出し、優先度順にランキング付けをする。
これらの用語、詳しくはこちらにまとめましたので参考にしてみてください。
▶検索エンジンとは?検索の仕組みを徹底解説!
クローラーの種類について
ここまでクローラーの基本情報を解説していきましたが、クローラーにもたくさんの種類があります。
実は世の中にクローラーが作られてから現在に至る過程の中で、様々な検索エンジンが生まれ、淘汰されてきました。
検索エンジンには大きく4つのシステムがパターン化され、現在では主に『メタ・ハイブリッド型』が使われています。
また、現在クローラーは『検索エンジン用クローラー』が最も一般的ですが、用途に応じて4つの種類に分類出来ます。
- 検索エンジン用クローラー
- キーワードマーケティング用クローラー
- サイトの定点観測用クローラー
- 自己サイトのSEO点検用クローラー
このように用途別にさまざまなクローラーがあることで、私たちが検索によって情報を探しやすくなっているのです。
クローラーの種類を詳しく知りたい方はこちらの記事をどうぞ。
▶検索エンジンの種類をどこよりも詳しく説明してみた
そのメタ・ハイブリッド型の中でも、最も一般的なクローラーが、Googleの『Google bot』です。
検索エンジンの世界シェアはGoogleが最大手ですし、日本でも『Google bot』は圧倒的な存在感を示しています。
Yahoo!の検索エンジンはどうなの?
日本の検索エンジンは、Yahoo!とGoogleが2強を占めています。
本来ならば、Yahoo!のクローラー対策も必要なのですが、Yahoo!JAPANでは、2010年11月からGoogleの検索技術を利用しています。
つまり、現状では『Google bot』の対策をする事で、国内のクローラー対策は完了するのです。
そこで、『Google bot』の特徴について、簡単に触れておきます。
①独自のアルゴリズム
『Google bot』は、200を超える独自のアルゴリズムに基づいて、クローリングを進めています。
アルゴリズムがどのような点を重視しているかは、主に以下の4つがあります。
- クローリングするサイトの構成
- クローリングの頻度
- クローリングの優先度
- サイトごとの取得ページ数
その項目や運用実態は、多くが企業秘密となっていますが、大体の目安をうかがう事が出来ます。
クローラーの動きを私たちが制御することはできません。
すべてのページを巡回はしてくれませんし、公開したページをすぐに発見し、適切な評価を与えてくれるとは限りません。
また、逆にクローラーに評価されたくないページは「評価しないでくれ!」と教えてあげないといけません。
そうしないと例えば文字数が少ないページが評価の対象となり、評価の高いコンテンツの足を引っ張って順位を下げてしまう可能性も大いにあります。
その場合は以下のような対策が取られます。
- コンテンツにNoindexのメタ情報を付与する
- robots.txtなどでクローラーの動きをある程度コントロールする
- 同じコンテンツなのに複数のURLが出てしまう場合、どのURLをインデックスするか正規化する
ちなみにクローラーによって発見されたページの適切な評価までに約3ヶ月程度かかります。つまり公開してすぐに1位になるというのはほぼありえません。
このように検索エンジンのクローラーの動きをよく知ることは、SEO対策とも密接なつながりがあり、
SEOを実施する上で、クローラーができるだけウェブサイトのページを効率よく巡回し、発見し、適切な評価を与えてくれるように工夫する必要があるのです。
このクローラーがウェブサイト内を巡回しやすいように対策することを『クローラビリティ』と言います。
コンテンツの量が少ない内は問題ないですが、コンテンツの量が増え、サイトの規模感が増せば増すほど、クローラビリティを如何に高めるかが重要になります。
Google Search Consoleはクローラビリティを高めるためにも非常に重要なツールの一つとなっているので、「登録をしていない」というウェブ担当者や、ブロガーの方は絶対に登録しておきましょう。
また、このアルゴリズムは、幾度となく更新されているようで、それに伴ってクローリングの傾向は少しずつ変化しています。
②クロールの対象
『Google bot』は、インターネット上全ての情報をクローリング出来るわけではありません。基本的には、テキスト(HTMLファイル)の解析が専門です。
PHPファイル、JavaScriptによるリンク、PDF、Word・PowerPointによるファイル、一部の画像など、ある程度のコンテンツはクローリング可能のようですが、多くの画像や動画などはクローリング出来ません。
そのため、『Google bot』に認識してもらうために、alt属性として、説明を入れるといったひと手間が必要となります。
ちなみに、Googleでは『Google bot』以外にもクローラーを開発しており、画像専門クローラーや動画専門クローラー、ニュース専門クローラーや広告専門クローラー、スマホ専門クローラーなど、いくつかのクローラーを活用する事で、インターネットの情報把握に努めています。
クロールとSEO対策を考えるならクローラビリティを高める
さて、クローラリビティを高めていくためには、いくつかの方法があります。
代表的な方法をいくつか挙げてみましょう。
- サイトを更新する
- サイトマップ
- Fetch as Google
- リンクを増やす
- サイト構造をシンプル化
- パンくずリスト
これらが主にやっておかなければいけないことです。
クローラビリティを高めるにはさまざまな方法があります。その施策を一つ一つ丁寧に行うことで、クローラーはウェブサイト・ブログの理解が早まり、適切な評価を迅速にくだしてくれるようになるのです。
複数の検索エンジンが存在する意味とは?
さて、ここまで読んでみて「Googleの検索エンジン対策に特化すれば良いんだな!」というのが理解していただけたと思います。
しかし、それはあくまでもブログを運営する管理者側の話です。
僕たちのようなユーザーは「じゃあGoogleを使えばいいのか!」という話にはなりません。
それは検索エンジンごとに特色が分かれているからです。
クローラーの動きも、その特色に合わせてプログラムされています。
そこで、大きなシェアを持っている検索エンジン4つの特徴をまとめてみました。
- Google
⇒ノウハウなど知識的な情報が出てきやすくなっています。 - Yahoo!
⇒商品や、価格など商取引の情報が出てきやすい上に、ポータルサイトとして機能しているので、ニュースが探しやすい側面があります。 - Bing
⇒他の検索エンジンに比べて、リンクによる点数加算の割合が低く設定されています。そのためGoogle、Yahoo!では出てこないような珍しいコンテンツを探しやすいです。 - 百度 Baidu(バイドゥ)
⇒中国の検索エンジン。実はGoogleに続いて2位のシェアがあります。日本向けの情報はほとんど出てきませんが、中国が出処の怪しいメディアコンテンツを探す時に利用している人が多いです。
このように検索エンジンは目的によって使い分けると効果的に活用できます。
自分はどこに当てはまるのか実際に試してみると良いでしょう。
まとめ
今回は、『検索エンジンを使う意味』について解説していきました。
ひとくちに『検索エンジン』といっても、中のプログラムの動きは少しずつ違いますし、その用途は様々です。
現在は、『検索エンジン用クローラー』としての意味合いが強く、『SEO対策』との関係性も密接なものとなっています。
本記事によって、「SEO対策ってどうやるの?」という最初の第一歩になると、幸いです。
他にも検索エンジン、クローラーについてや、SEO対策の情報をまとめているので、ぜひご覧ください。