目次
【SEO】「クロールバジェット」とは?
「クロールバジェット」についての解説・資料です。
「クロールバジェット」とは?
「クロールバジェット」という用語をSEOの世界ではしばしば耳にする。「グーグルのクローラーであるGooglebotがそのサイトを一定期間にどれぐらいクロールするかの割り当て枠」という意味合いで使われている言葉だ。
業界では「クロールバジェットの無駄遣い」「クロールバジェットが足りなくなる」といった表現で言及されることが多い。
([Web担当者Forum]より)
2017年1月17日火曜日
昨今、「クロール バジェット(クロールの割り当て)」についてさまざまな定義を耳にします。しかし、外部的に「クロール バジェット」と言われているものを一言で説明できるような言葉はGoogle内部にはありません。そこで、この記事では、Googlebot での「クロール バジェット」の実状や意味を明らかにします。まず重要なのは、以下で述べるように、クロール バジェットとは、ほとんどのウェブマスターの方々にとって気にすべきものではない、ということです。 新しいページが公開された当日にクロールされることが多い場合、ウェブマスターの方がクロール バジェットを重視する必要はありません。同様に、数千以下の URL 数しか持たないサイトにおいては、ほとんどの場合、クロールは効率的に行われるでしょう。
一方で、例えば、大規模なサイトや、 URL パラメータを使用してページを自動生成するサイトにおいては、クロールの対象やタイミング、サイトをホストしているサーバーでクロールに割り当て可能なリソースの量に関しても優先順位を付けることが重要となります。
クロール速度の制限
Googlebot は、ウェブ上の善良な市民であるよう設計されています。その主要な優先事項は、そのサイトにアクセスするユーザーにとっての利便性を損なわないよう配慮しつつクロールを行うことです。こうした仕組みを「クロールレート(クロール速度)」と呼びます。これにより、サイトに対する取得速度の最大値が制限されます。単純化を恐れず言えば、クロールレートは、Googlebot でサイトのクロール時に使用する同時並行接続の数、および次回のフェッチまでに必要な待ち時間を表します。クロールレートは、次のような要因によって変動することがあります。
クロールの状態: しばらくの間サイトが迅速に応答している場合、クロール速度の上限が上がり、クロール時に使用可能な接続の数が増えます。サイトの応答が遅くなった場合やサーバーエラーが返される場合、クロール速度の上限が下がり、Googlebot によるクロールが減ります。
Search Console で設定された制限: ウェブサイトの所有者は、自身のサイトについて Googlebot によるクロールを減らすことができます。ただし、クロール速度の上限を高く設定しても、自動的にクロールが増えるわけではありません。
クロールの必要性
クロール速度が上限に達していない場合でも、インデックス登録における必要性がなければ、Googlebot によるクロールは少なくなります。クロールが必要かどうか決める上で大きな役割を担うのが、次の 2 つの要素です。人気度: インターネット上で人気の高い URL ほど、Google のインデックスで情報の新しさが保たれるよう頻繁にクロールされる傾向があります。
鮮度: Google のシステムでは、インデックス内の URL の鮮度が落ちないようにしています。
また、サイトの移転など、サイト全体に関わる事象が発生した場合、新しい URL のコンテンツをインデックスに再登録するために、クロールの必要性が高まることがあります。こうしたクロール速度とクロールの必要性の両方を考慮したうえで、Google ではクロールの割り当てを「クロールの必要性があり、かつ Googlebot がクロール可能な URL の数」と定義しています。
クロール バジェットに影響を及ぼす要素
Google の分析によると、付加価値の低い URL がサイトに多数ある場合、そのサイトのクロールやインデックス登録に悪影響が及ぶ可能性があります。価値の低い URL は、重要度順に次のようなカテゴリに分けられます。ファセット ナビゲーションとセッション ID
サイト内の重複コンテンツ
ソフトエラー ページ
ハッキングされたページ
無限のスペースとプロキシ
質の低いコンテンツやスパム コンテンツ
このようなページでサーバーのリソースが浪費されると、実際に価値のあるページのクロールの妨げとなるため、サイト上の優れたコンテンツの発見に大幅な遅れを引き起こしかねません。
(Google ウェブマスター向け公式ブログ より)
「クロールバジェット」よくある質問
クロールは、サイトが Google の検索結果に表示されるために欠かせないものです。ウェブサイトのクロールが効率的に行われると、Google 検索のインデックスに登録されやすくなります。
Q: サイトの表示速度はクロール バジェットに影響しますか?エラーについてはどうですか?
A: サイトの表示速度を上げると、ユーザーの利便性が向上するだけでなく、クロール速度も上がります。Googlebotは、速度に優れたサイトはサーバーが健全な状態であることを表すものと見なすので、同じ接続の数でより多くのコンテンツの取得が可能になります。一方、5xx エラーや接続タイムアウトが多い場合はサーバーの状態に問題があると見なされ、クロールが遅くなります。このため、Search Console のクロールエラー レポートを利用して、サーバーエラーを少なく抑えるようにすることをおすすめします。
Q: クロールはランキング要素ですか?
A: クロール速度が上がっても、必ずしも検索結果での掲載順位が高くなるとは限りません。Google では何百もの要素を使って検索結果のランキングを決定しています。クロールはサイトが検索結果に表示されるために必要なものではありますが、ランキング要素ではありません。Q: 代替 URL や埋め込みコンテンツはクロール バジェットにカウントされますか?
A: 通常、Googlebot によりクロールされる URL はいずれも、サイトのクロール バジェットにカウントされます。AMP や hreflang のような代替 URL、CSS や JavaScript といった埋め込みコンテンツについてもクロールが必要となる可能性があり、その場合にはサイトのクロール バジェットが使われることになります。同様に、長いリダイレクト チェーンはクロールに悪影響を及ぼすことがあります。Q: 「crawl-delay」ディレクティブを使って Googlebot を制限することはできますか?
A:「crawl-delay」robots.txt ディレクティブは、Googlebot では処理されません。Q: nofollow はクロール バジェットに影響しますか?
A: 場合によります。 クロールされる URL はすべてクロール バジェットに影響します。したがって、ページ内で URL を nofollow として指定しても、サイト内の別のページやウェブ上のページでリンクが nofollow と指定されていない場合はクロールされる可能性があります。
(Google ウェブマスター向け公式ブログ より)
「クロールバジェット」の資料
Googlebotがページをどのようにクロールするかは、次の2つの要素によって主に決まるそうだ。
クロール速度の制限
クロールの必要性
こうしたクロール速度とクロールの必要性の両方を考慮したうえで、Google ではクロールの割り当てを「クロールの必要性があり、かつ Googlebot がクロール可能な URL の数」と定義しています。つまり、これが世間で言う「クロールバジェット」に近いグーグル内部での判断基準だ。
([Web担当者Forum]より)
クロールバジェット最適化について知っておくべき、たった1つのこと
クロールバジェットに関して、グーグルのジョン・ミューラー氏は次のようなコメントを残した。
私の考えでは、クロールバジェットは過大に評価されている。ほとんどのサイトはクロールバジェットをまったく気にする必要はない。
クロールバジェットはたしかに興味深いトピックではある。もし(プログラムで)ウェブをクロールしていたり数十億ページもあるサイトを複数運用していたりするなら、クロールバジェットは重要だ。
しかし、一般的なサイトではそこまで重要ではない。IMO crawl-budget is over-rated. Most sites never need to worry about this. It's an interesting topic, and if you're crawling the web or running a multi-billion-URL site, it's important, but for the average site owner less so.
— John ☆.o(≧▽≦)o.☆ (@JohnMu) 2018年5月30日
SEOコンサルタントの感想
・「クロールバジェット」とはクロールの割り当てのような意味。
・元々「クロールバジェット」はGoogleの用語ではなかった。
・基本的に多くのWEB管理者は気にする必要はない。