GoogleがWebページのコンテンツを分析して重み付けする方法
【Google翻訳】
GoogleのMartinSplittは、センターピースアノテーションの概念と、ウェブページのさまざまな部分を分析して重み付けする方法を紹介しています。
DudaウェビナーのMartinSplittは、GoogleがWebページのコンテンツを分析する方法を説明するCenterpieceAnnotationと呼ばれる概念について説明しました。トピックから少し外れていて長いので、質問を再現しません。
しかし、マーティンが論じているのは、グーグルがどのようにウェブページの定型文を分離し、テキストコンテンツ構造からウェブページが何であるかを要約する方法です。
彼は、センターピースアノテーションと呼ばれるものについて言及しています。
マーティンスプリットは説明しました:
「それは私たちがコンテンツを分析しているだけで、これについて公に何を言っているのかわかりませんが、ポッドキャストのエピソードの1つで取り上げたと思います。
たとえば、センターピースアノテーションと呼ばれるものがあると言えます。セマンティックコンテンツや、場合によってはレイアウトツリーを確認するために、他にもいくつかのアノテーションがあります。
しかし、基本的には、HTMLのコンテンツ構造からそれをすでに読み取って、「ああ! これは、ここで取得したこのテキストコンテンツ全体に対して行ったすべての自然言語処理から、主にトピックA、ドッグフードに関するもののようです。」
センターピースアノテーションについて議論しているMartinSplittのスクリーンショット
次に、マーティンは、ページ分析がWebページをコンポーネントパーツに分離する方法について説明します。コンポーネントパーツの一部は、センターピースとは関係ありません。
ページの各部分の重みは異なると彼は説明します。 均等化は、ページ要素の重要性への参照です。 したがって、セクションが軽い加重スコアを受け取った場合、高いスコアで加重されることはそれほど重要ではありません。
マーティンは続けた:「そして、ここには他にも関連製品へのリンクのように見えますが、実際には目玉の一部ではありません。 ここでは実際にはメインコンテンツではありません。 これは追加のもののようです。
そして、ボイラープレートの束のようなものがあります。「ねえ、メニューはこれらすべてのページとリストでほとんど同じに見えることがわかりました。 これは、たとえば、このドメインの他のすべてのページにあるメニューとほとんど同じように見えます」、またはこれは以前に見たことがあります。 ドメインごとに行ったり、「ああ、これはメニューのようだ」と言ったりすることすらありません。
ボイラープレートのように見えるものを理解すると、重みも異なります。」
あまり考慮されていないトピック外のコンテンツ
マーティンは次に、グーグルがウェブページが何であるかを確立した後、セクションがトピックから外れている場合、おそらくランキングの目的で、そのトピックから外れたセクションはそれほど考慮されていないことに言及します。
マーティンは説明します:「そのため、他のコンテンツのメイントピックに関連しないコンテンツがページにある場合、私たちはあなたが思うほど多くの考慮を払わないかもしれません。
リンクの検出とサイト構造の把握などに、引き続きその情報を使用します。
しかし、ページにドッグフードについて10,000語が含まれ、次にバイクについて3000、2000、または1000語が含まれている場合、これはバイクにとって適切なコンテンツではない可能性があります。」
これは、Googleがページの内容を決定するときに、トピック外のコンテンツがランク付けされる機会がないか、Martinが言うように、「それほど考慮されていない」ことを示しているように見えるため、非常に興味深いものです。
ジェイソンバーナードは尋ねました:「つまり、セマンティックHTML5を推測しているように聞こえます。 セマンティックHTML5eはあなたに何か助けを与えますか、それともあなたは気にしませんか? 意味がないの?」
Jasonが参照していたのは、ヘッダー、ナビゲーション、フッターなど、Webページのさまざまなセクションを定義するHTML5マークアップでした。
マーティンの議論の初めに、彼はコンテンツ構造と実際のテキストの分析に言及していました。 だから今、トピックはここで少しHTML5セマンティック構造に流れ込んでいます。マーティンは答えました:
「それは私たちを助けますが、私たちが探しているのはそれだけではありません。 はい。”
センターピースアノテーション
注釈は何かを説明するメモです。 センターピースは、注目の的となることを目的としたものです。
目玉の注釈は、メインコンテンツのトピックの要約のようです。
マーティンは、グーグルがどのようにページを異なるセクションに分割し、センターピースアノテーションの外側の部分に異なる重みを付けるかを説明します。
彼はまた、メイントピックとは異なるページの部分があまり考慮されていないことにも言及しています。これは、ランク付けできるコンテンツではない可能性があることを意味しているようです。