GooglebotはHTMLの先頭2MBしか読まない。長大ページのサイトは要注意?
GooglebotはHTMLの先頭2MBしか読まない。長大ページのサイトは要注意?【SEOまとめ】[Web担当者Forum]
********************
検索用のGooglebotは、HTMLの先頭から2MBしか読まない。
*********************
グーグルの公式ドキュメントではずっと「先頭の15MBまで読み込む」と記載されてきたのだが、ドキュメントの記述が「HTMLなどのテキスト系コンテンツは2MBまで」と変更された。最新版のGooglebot関連ドキュメント(2026年2月3日更新)
そのドキュメントの過去のバージョン
一般的なクローラーではなくGooglebotが15MB読み込むことを明示する公式ブログ記事(2022年)
実際に巨大サイズのURLをインデックスさせて2MB制限があることを確認したブログ記事も公開されている。ただし、「新たに制限が厳しくなって2MBに絞られた」というわけではない。グーグルの中の人に確認したところ、「昔からずっと15MB制限ではなく2MB制限だった」という説明があった。つまり、今回のドキュメント修正は「記述内容が間違っていたので修正した」というものだ。
どうやら、このあとで説明する「一般的なグーグルのクローラーの制限」と「Googlebot特有の制限」が、グーグルの公式ドキュメントに正しく反映されていなかったというのが正しい状況のようだ。
そうしたグーグルの内情はこのあとで説明するが、まず2MB制限をどう解釈して対応すべきかを解説しておこう。
「2MB制限」と言っても、世の中の大半のサイトでは影響がないと思われる。というのも、2MBは「ページ表示のために読み込んだリソースの合計」での制限ではなく、「HTMLやJavaScriptのファイルごと」のサイズ制限だからだ。HTML内で指定されて読み込まれるCSSやJavaScriptファイルには、個別の上限(2MB)がそれぞれに適用される。
2025年の調査では、平均サイズは次のとおりだった:
デスクトップ向け モバイル向け HTML 22KB 22KB CSS 82KB 77KB JavaScript 697KB 632KB ※Web Almanacによる2025年調査より、CSSとJavaScriptは、ページ表示のために読み込んだすべての合計サイズが対象
つまり、「平均の100倍ぐらいのコンテンツサイズがなければ、だいたいは問題なし」ということだ。
ただし、注意が必要な場合もある。次のようなサイトやページは、もしかしたら2MBを超えたサイズになってしまい、グーグルのインデックスに全文が反映されない状況が発生しているかもしれない:
・JavaScriptやCSSをインラインで大量に記述しているページ
・画像などの情報を、HTML内のimg要素やインラインCSSでURL参照するのではなく、data-uriで直接ドキュメント内に指定しているページ
・日本語で70万文字以上あるページ
・SPAでバンドル後のJavaScriptファイルサイズが大きい場合
・CMSのデバッグ出力が有効になっていて、HTMLコメントの形でデバッグ情報が大量に出力されてしまっている場合※単体URLでのCSSやJavaScriptに関しては、Google によるインデックス登録が可能なファイル形式に記載がない。そのため、2MB制限とは異なる可能性がある。前出の検証ブログでも、「おそらく2MBで切り捨てられるだろいう」としているのみだ。
不安な場合は、実際のページを表示しながらDevToolsで確認できる。Chromeで確認する場合の方法は次のとおりだ:
1:Chromeで調査したいページを開いておく。
2:[F12]キーを押して、DevToolsを開く。
3:DevToolsの[ネットワーク]タブに切り替え①、[キャッシュを無効化]がオンであることを確認し②、フィルタを[すべて]にしておく③。
4:さらにDevTools右上の歯車アイコン(2つあるので下のほう)をクリックして④上部設定バーを開き、[大きなリクエスト行]にチェックを入れる⑤。
5:Chromeでページをリロードする。
6:ページ表示のために発生したネットワークリクエストがDevToolsの[ネットワーク]タブに表示される。
7:DevToolsの[ネットワーク]タブで、表見出しの[Size]をクリックしてサイズの大きな順に並べ替え⑥、大きいものを確認していく⑦。サイズの情報は2つずつ表示されるが、確認するのは下の数値だ(上の数値はネットワーク転送サイズで、下の数値がコンテンツサイズ)。並べ替えはネットワーク転送サイズを基準にするので、ある程度はリストの下のほうまで確認していくといいだろう。
ここで2,048KBを超えるものがあった場合は、その内容のすべてをGooglebotが読み込むわけではないということだ(動画・画像・フォントなどの非テキスト系コンテンツは大きくても問題ない)。
背景を解説しよう。どうやら、「グーグルの運用しているクローラー全般の制限」と「そのなかでもGooglebot特有の制限」があり、ドキュメントに正しく反映されていなかったようだ。
グーグルが更新したのはクローラーとフェッチャーが取得するファイルサイズの上限に関するドキュメントと、Googlebotに関するドキュメントだ。
※筆者補足:「クローラー」はウェブコンテンツを取得するプログラム。ウェブページを取得するGooglebotや画像を取得するGooglebot-Imageなどが該当する。「フェッチャー」は、ユーザーのリクエストに基づいて特定のURLにアクセスするツールおよびサービスの機能の一部。Search Consoleでサイト確認する際にアクセスするGoogle-Site-Verificationや、ユーザーの指示を受けてNotebookLMがURLにアクセスする際のGoogle-NotebookLMなどが該当する。
Google のクローラーとフェッチャー(ユーザー エージェント)の概要を説明するドキュメントでは、次のセクションが新たに追加された:
ファイルサイズの上限
******************************************
Google のクローラーとフェッチャーは、デフォルトでは、ファイルの最初の 15 MB のみをクロールします。この上限を超えるコンテンツは無視されます。プロジェクトごとに、クローラーとフェッチャー、およびさまざまなファイルタイプに対して異なる上限を設定できます。たとえば、Googlebot のようなクローラーに対して、HTML よりも PDF のファイルサイズの上限を大きくすることができます。
******************************************Googlebotを解説するドキュメントの「Googlebot がサイトにアクセスする方法」セクションのクロールするファイルの上限に関する段落は、次のように更新された。
******************************************
Google 検索のクロールでは、Googlebot はサポートされているファイル形式の最初の 2 MB と、PDF ファイルの最初の 64 MB をクロールします。レンダリングの観点から見ると、HTML で参照される各リソース(CSS、JavaScript など)は個別に取得され、各リソースの取得には、他のファイル(PDF ファイルを除く)に適用されるのと同じファイルサイズの制限が適用されます。
上限に達すると、Googlebot はフェッチを停止し、すでにダウンロードされたファイルの一部のみをインデックス登録の対象として送信します。ファイルサイズの上限は、非圧縮データに適用されます。Google の他のクローラー(動画用 Googlebot、画像用 Googlebot など)では、異なる上限が存在する場合があります。
******************************************少しわかりづらいが、結論としてはこういうことのようだ:
・グーグルはさまざまなクローラーとフェッチャーを運用している:
・全般的に、上限15MBを基本とする
・ウェブ検索用のGooglebotでは、それに加えて独自の上限がある:・テキスト系コンテンツでは2MBが上限
・PDFでは64MBが上限
・それ以外は一般的な15MBが上限(またはさらに大きい可能性もあり)