SEOコンサルタントの運営するSEO最新情報・SEOのサイトです。SEO最新情報、SEO業者の紹介など。運営者はSEOコンサルタント・白石竜次(「世界一わかりやすいSEO対策 最初に読む本(技術評論社)」他)です。お気軽にお問合せください。

SEOコンサルタント.com

GoogleのゲイリーイリーズがGoogleのカフェインインデックスを説明

投稿日:

グーグルのゲイリーイリーズはカフェインが何をするかを説明します

【Google翻訳】
Googleは次のSearchOff the Recordポッドキャストをリリースしました。これは実際には少なくとも2か月前に録音されたもので、GoogleのGary Illyesは、Googleのカフェインインデックスとシステムが実際に行っていることを分析しました。

あなたが覚えているなら、カフェインの問題は少し前にグーグル検索で何かが壊れた理由の1つでした。

これが録音ですが、会話のこの部分は約9分で始まります。

■Google JohnMueller(ジョン・ミューラー)氏(@JohnMu)

ゲイリーが言ったことは次のとおりです。

カフェインがあります。それが私たちのインデックスシステムです。外部的にのみそれはカフェインと呼ばれています。内部的には、他の名前が付いています。しかし、それは実際には問題ではありません。そしてそれは多くのことをします。そして、それが多くのことをするということは、外部的にはあまり明確ではないと思います。人々にとって、それは私たちがグーグルボットであるクローラーを持っているのと同じです、そしてそれはグーグルの魔法の何かに行きます。まあ、人々はそれがレンダリングされることを知っています、そしてそれから何かグーグルの魔法、そして私たちはインデックスを持っています。
私たちは実際にそのグーグルの魔法を分解することはできません、そして人々は一般にグーグルの魔法を知っているか、彼らが望むならそれを理解することができます、しかしそのグーグルの魔法は本質的にカフェインがしていることです。基本的に、プロトコルバッファであるGooglebotによって生成されたものをすべて取り込み、取得します。お気に入りの検索エンジンでプロトコルバッファを検索できます。そして、そのプロトコルバッファがカフェインによって取得され、シグナル、何とか、何とか、何とかを収集し、カフェインが生成した情報をインデックスに追加します。

カフェインの中で何が起こっているのですか?さて、最初のステップは、プロトコルバッファの取り込みです。基本的には、プロトコルバッファを取得して処理を開始します。摂取後の最初のステップは変換です。

次に、マーティンはゲイリーを止めて、変換部分の意味を説明します。 ゲイリーは続けて説明します。 プロトコルバッファを別の形式に変換しますが、HTMLを正規化する必要もあります。

しかし、私たちはまだそれを理解しようとしています。あなたが本当にHTMLを壊したのなら、それはちょっと難しいです。したがって、すべてのHTMLをHTMLレクサーを介してプッシュします。もう一度、名前を検索します。あなたはそれが何であるかを理解することができます。ただし、基本的にはHTMLを正規化します。そして、それを処理する方がはるかに簡単です。そして、ホットステッパーが来ます:h1、h2、h3、h4。
知っている。これらのヘッダータグもすべて、レンダリングによって正規化されます。 hタグに適用されたスタイリングを理解しようとするので、hタグの相対的な重要性を相互に比較して判断できます。見てみましょう、そこで他に何をしますか?

PDFのようなものも変換しますか…ああ、そうです。 Google検索では、テキストHTMLだけでなく、PDFのインデックス作成、スプレッドシートのインデックス作成、Wordドキュメントファイルのインデックス作成、インデックス作成など、さまざまな形式のインデックスを作成できます。何らかの理由でロータスファイル。

待つ。 PDFに戻ります。 PDFはバイナリ形式です。処理はそれほど簡単ではありません。そのため、私が覚えている限り、基本的にPDFをHTMLに変換するために使用するAdobeからデコーダーのライセンスを取得しています。そして、それ以降は、HTMLを使用するだけです。これは、Web検索でインデックスを作成できる他のすべてのバイナリ形式で発生します。もちろん、それらも正規化されています。したがって、HTMLは、最終的には非常に整形式になります。

次に、私たちが深く関心を持っているメタタグがいくつかあるので、メタタグを調べ始めます。たとえば、メタ名= “robots”です。

それらが発生したとき、それらが現れたとき、私たちの処理パイプラインに。そして、それがこのエラー処理ページの機能です。基本的に、エラーページの非常に大きなコーパス、実際にはコーパスがあり、テキストをそれらと照合しようとします。

これは非常に面白いバグにつながる可能性もあります。たとえば、エラーページ全般に関する記事を書いていて、それをインデックスに登録することはできません。また、エラーページ処理システムが、使用するキーワードに基づいて記事をソフトエラーページとして誤検出することがあります。そして、基本的に、それはカフェインにそれらのページの処理を停止するように促します。

そしてもちろん、エラーページの処理は、404だけでなく、他の種類のエラーページでも機能します。たとえば、サーバーが「I’moverloaded」メッセージのHTMLページを送信したが、ステータスコードが200の場合、それを理解できる可能性があります。それほど明白ではないリダイレクトがあり、それらも検出できます。ほかに何か?

また、ここでログインページを検出しようとします。なぜそれが役立つのかはわかりませんが、ログインページについては知っています。

ご覧のとおり、それは本当に多くのことを行います。

それは間違いなく聞く価値があります。 セクション全体が約10分間続きます。

ああ、ゲイリーは彼のLife of a Queryトークのためにある種の録音をするかもしれませんが、内部使用のためだけではなく、むしろ一般のために。

  • B!