重複コンテンツについてのGoogleのお話です。
グーグルは重複検出と正規化に深く取り組む
【Google翻訳】
今朝、Googleの友達であるJohn Mueller、Martin Splitt、Gary Illyes、そしてLizzi Harvey(Googleのテクニカルライター)が新しいポッドキャストを投稿しました。 聞くのは明らかに楽しかったですが、その中で、Gary Illyesは、Googleが重複コンテンツの検出、つまり重複検出とその後の正規化をどのように処理するかについて非常に深く掘り下げました。 それらは同じものではありません。短いバージョンでは、Googleがページごとにチェックサムを作成します。これは基本的に、ページ上の単語に基づいたドキュメントの一意の指紋のようなものです。 したがって、同じチェックサムを持つ2つのページがある場合、基本的には、Googleがどのページが互いに重複しているかを判断する方法です。 チェックサムは、送信または保存中に発生した可能性のあるエラーを検出する目的で、デジタルデータのブロックから派生した小さなサイズのデータです。 チェックサム自体は、データの整合性を検証するためによく使用されますが、データの信頼性を検証するために依存することはありません。
重複の検出と正規化は同じものではありません。 ゲイリー氏は、「最初に重複を検出し、基本的にそれらをクラスター化して、これらのページはすべて互いに重複していると言い、次に基本的にすべてのリーダーページを見つける必要がある」と述べた。 「そしてそれは正規化です。つまり、全体の用語である重複がありますが、その中には、重複クラスター構築のようなクラスター構築と正規化があります」と彼は付け加えました。
重複検出はどのように機能しますか? ゲイリー氏は、「重複検出では、重複を検出しようとします。それを行う方法は、おそらく他の検索エンジンのほとんどの人が行う方法です。つまり、基本的に、コンテンツをハッシュまたはチェックサムに減らし、 次に、チェックサムを比較します。これは、検索エンジンで上位にランク付けするための最小値である3,000語を比較するよりもはるかに簡単だからです。」
彼らは少しの間、ページ上の3,000語について冗談を言った。
ゲイリーは続けて、「コンテンツをチェックサムに減らしています。テキスト全体をスキャンしたくないので、本質的に意味がないので、そうします。より多くのリソースが必要になり、結果はほぼ同じです。そこで、ページのテキストコンテンツに関する複数の種類のチェックサムを計算してから、チェックサムを比較します。」
それは正確な複製であるだけでなく、ほぼ複製であるとゲイリーは説明しました。彼は「両方を捕まえることができる」と彼は言った。 「たとえば、ページからボイラープレートを検出して削除しようとするアルゴリズムがいくつかあります。たとえば、チェックサム計算からナビゲーションを除外し、フッターも削除すると、何が残ります。ページの中心的なコンテンツであるセンターピースと呼んでいます」と彼は付け加えました。
それから彼らは肉のジョークと菜食主義のジョークについて話しました、それらの多くは菜食主義者です。ゲイリーとリズ、そして多くの人が上司のサンダーピチャイからのメールを除外しているようです。 🙂
ゲイリーは、この重複検出についてさらに深く掘り下げます。
ええ。そして、基本的に、番号が変更された場合、クラスターに新しい番号があるため、2つのクラスターの内容が異なるため、重複クラスターも異なります。つまり、それは別のクラスター、本質的にはその番号に関連するクラスターに入るだけです。
次に、これらのチェックサムを計算し、重複クラスターを作成したら、検索結果に表示するドキュメントを1つ選択する必要があります。なぜそうするのですか?これは、通常、同じコンテンツが多くの検索結果で繰り返されると、ユーザーが気に入らないためです。また、インデックス内のストーリースペースが無限ではないためにもそうします。基本的に、ユーザーがとにかく気に入らないのに、なぜ重複をインデックスに保存したいのでしょうか。したがって、基本的には、インデックスサイズを小さくするだけで済みます。
しかし、どのページが正規であり、どのページがクラスターをリードするかを計算することは、実際にはそれほど簡単ではありません。人間でさえ、どのページが検索結果に含まれるべきかを判断するのが非常に難しいシナリオがあるためです。
ですから、私たちは20以上の信号を採用していると思います。 20を超えるシグナルを使用して、重複クラスターから正規として選択するページを決定します。
そして、あなたのほとんどはおそらくこれらの信号が何であるかを推測することができます。一つのように、明らかに、コンテンツです。しかし、たとえば、どのページのページランクが高いかなど、ページランクのようなものである可能性もあります。これは、これらすべての年月を経てもページランクを使用しているためです。
特に同じサイトでは、どのページがHTTPS URLにあり、どのページがサイトマップに含まれている可能性があります。または、一方のページがもう一方のページにリダイレクトされている場合、それはもう一方のページが正規になる必要があることを示す非常に明確なシグナルです。
rel = canonical属性、それも-それは属性ですか?鬼ごっこ。タグではありません。
したがって、重複検出後、Googleは正規化の部分を実行します。 Googleが重複するURLをすべて取得し、検索に表示するURLを決定する場所。 Googleはどのように表示するかを決定しますか? その部分は約20の異なる信号で構成されているとゲイリー氏は語った。 信号は次のとおりです。
コンテンツ
PageRank
HTTPS
サイトマップファイルのページですか
サーバーリダイレクト信号
rel canonicalこれらの信号に手動で重みを割り当てるのではなく、機械学習を使用してこれを行います。 手動で重みを割り当てないのはなぜですか。手動で重みを割り当てるだけでは問題が発生する可能性があります。 ただし、リダイレクトと正規タグは、機械学習によってより高く重み付けされます。
ゲイリーは、機械学習を使用する理由を説明しました。
ですから、それは非常に良い質問です。そして数年前、信号としてGIFリンクを計算に導入しようとしていたため、正規化に取り組みました。手動で重みを微調整するのは悪夢でした。
重みを0.1の数字で変更しても(メジャーはないと思いますが)、他の数字を捨てて、突然、たとえばURLが短いページが表示されたり、検索結果に表示される可能性が高くなりますが、これはちょっとばかげています。URLの長さを気にする人のように、なぜそれを見るのでしょうか。したがって、たとえば新しい信号を導入するときに適切な重みを見つけることは、絶対的な悪夢でした。そして、バグも見ることができます。たとえば、ジョンは、基本的に、Twitterやフォーラムなどで拾ったものに基づいて、重複のインデックスを作成するためにかなりエスカレートしていることを知っています。そして、時々、彼は、デュープのチームが言う実際のバグをエスカレートします...なぜあなたは笑っているのですか、ジョン?笑ってはいけません。これはあなたについてです。私はあなたをその場に置いています、あなたはこれに感謝するべきです。とにかく。
それで、彼は潜在的なバグをエスカレートし、それがバグであり、重みに関連していることが確認されました。わからないが、サイトマップ信号を使用しているとしましょう。または、サイトマップ信号の重みが高すぎます。
そして、デュープのチームが「さて、その信号を少し減らしましょう」と言ったとしましょう。 しかし、その信号を少し減らすと、他の信号がより強力になります。 しかし、実際には20個の信号があるため、どの信号を制御することはできません。そして、突然より強力または重くなった他の信号を微調整すると、さらに別の信号がスローされます。 そして、それを微調整すると、基本的に、それは終わりのないゲームです。
だから、それはモグラたたきです。 したがって、これらすべての信号を機械学習アルゴリズムに加えてすべての望ましい結果に供給する場合は、これらの重みを設定するようにトレーニングしてから、機械学習アルゴリズムによって計算または提案された重みを使用できます。
もちろん、ジョンはSEOが何を考えているかを知っているので、ジョンはソフトボールの質問としてゲイリーに尋ねました。「これらの重みもランキング要素のようなものですか? サイトマップファイルの場合、ランクが高くなります。」または、正規化はランク付けとは無関係ですか?」
ゲイリーは、「したがって、正規化はランキングとは完全に独立しています。しかし、正規として選択したページは、検索結果ページに表示され、ランク付けされますが、これらのシグナルに基づくものではありません」と回答しました。
これがポッドキャストオーディオです。6:05頃にポッドキャストに始まります。
SEOコンサルタントのまとめ
●コンテンツ
●PageRank
●HTTPS
●サイトマップファイルのページですか
●サーバーリダイレクト信号
●rel canonical