SEOコンサルタント白石竜次の新作本

【SEOマニュアル】『初心者でも無料で検索上位表示できる技』【2020版】
【価格：500円】
SEOコンサルタント白石竜次の新作本。全くのSEO初心者向けの本です！「SEOってなに？」という方にお勧めします。2010年発売の著書をベースに大幅リライトで2020年版にしました。有料で申し訳ありませんが本1冊分の分量でかつ最低限のものにコンパクトにまとめました。

Googleは重複コンテンツ検出と正規化に深く取り組む

投稿日：2020年11月5日

重複コンテンツについてのGoogleのお話です。

グーグルは重複検出と正規化に深く取り組む

Google Goes Deep On Dupe Detection & Canonicalization[Search Engine Roundtable]

【Google翻訳】
今朝、Googleの友達であるJohn Mueller、Martin Splitt、Gary Illyes、そしてLizzi Harvey（Googleのテクニカルライター）が新しいポッドキャストを投稿しました。聞くのは明らかに楽しかったですが、その中で、Gary Illyesは、Googleが重複コンテンツの検出、つまり重複検出とその後の正規化をどのように処理するかについて非常に深く掘り下げました。それらは同じものではありません。

短いバージョンでは、Googleがページごとにチェックサムを作成します。これは基本的に、ページ上の単語に基づいたドキュメントの一意の指紋のようなものです。したがって、同じチェックサムを持つ2つのページがある場合、基本的には、Googleがどのページが互いに重複しているかを判断する方法です。チェックサムは、送信または保存中に発生した可能性のあるエラーを検出する目的で、デジタルデータのブロックから派生した小さなサイズのデータです。チェックサム自体は、データの整合性を検証するためによく使用されますが、データの信頼性を検証するために依存することはありません。

重複の検出と正規化は同じものではありません。ゲイリー氏は、「最初に重複を検出し、基本的にそれらをクラスター化して、これらのページはすべて互いに重複していると言い、次に基本的にすべてのリーダーページを見つける必要がある」と述べた。「そしてそれは正規化です。つまり、全体の用語である重複がありますが、その中には、重複クラスター構築のようなクラスター構築と正規化があります」と彼は付け加えました。

重複検出はどのように機能しますか？ゲイリー氏は、「重複検出では、重複を検出しようとします。それを行う方法は、おそらく他の検索エンジンのほとんどの人が行う方法です。つまり、基本的に、コンテンツをハッシュまたはチェックサムに減らし、次に、チェックサムを比較します。これは、検索エンジンで上位にランク付けするための最小値である3,000語を比較するよりもはるかに簡単だからです。」

彼らは少しの間、ページ上の3,000語について冗談を言った。

ゲイリーは続けて、「コンテンツをチェックサムに減らしています。テキスト全体をスキャンしたくないので、本質的に意味がないので、そうします。より多くのリソースが必要になり、結果はほぼ同じです。そこで、ページのテキストコンテンツに関する複数の種類のチェックサムを計算してから、チェックサムを比較します。」

それは正確な複製であるだけでなく、ほぼ複製であるとゲイリーは説明しました。彼は「両方を捕まえることができる」と彼は言った。「たとえば、ページからボイラープレートを検出して削除しようとするアルゴリズムがいくつかあります。たとえば、チェックサム計算からナビゲーションを除外し、フッターも削除すると、何が残ります。ページの中心的なコンテンツであるセンターピースと呼んでいます」と彼は付け加えました。

それから彼らは肉のジョークと菜食主義のジョークについて話しました、それらの多くは菜食主義者です。ゲイリーとリズ、そして多くの人が上司のサンダーピチャイからのメールを除外しているようです。 🙂

ゲイリーは、この重複検出についてさらに深く掘り下げます。

ええ。そして、基本的に、番号が変更された場合、クラスターに新しい番号があるため、2つのクラスターの内容が異なるため、重複クラスターも異なります。つまり、それは別のクラスター、本質的にはその番号に関連するクラスターに入るだけです。
次に、これらのチェックサムを計算し、重複クラスターを作成したら、検索結果に表示するドキュメントを1つ選択する必要があります。なぜそうするのですか？これは、通常、同じコンテンツが多くの検索結果で繰り返されると、ユーザーが気に入らないためです。また、インデックス内のストーリースペースが無限ではないためにもそうします。

基本的に、ユーザーがとにかく気に入らないのに、なぜ重複をインデックスに保存したいのでしょうか。したがって、基本的には、インデックスサイズを小さくするだけで済みます。

しかし、どのページが正規であり、どのページがクラスターをリードするかを計算することは、実際にはそれほど簡単ではありません。人間でさえ、どのページが検索結果に含まれるべきかを判断するのが非常に難しいシナリオがあるためです。

ですから、私たちは20以上の信号を採用していると思います。 20を超えるシグナルを使用して、重複クラスターから正規として選択するページを決定します。

そして、あなたのほとんどはおそらくこれらの信号が何であるかを推測することができます。一つのように、明らかに、コンテンツです。しかし、たとえば、どのページのページランクが高いかなど、ページランクのようなものである可能性もあります。これは、これらすべての年月を経てもページランクを使用しているためです。

特に同じサイトでは、どのページがHTTPS URLにあり、どのページがサイトマップに含まれている可能性があります。または、一方のページがもう一方のページにリダイレクトされている場合、それはもう一方のページが正規になる必要があることを示す非常に明確なシグナルです。

rel = canonical属性、それも-それは属性ですか？鬼ごっこ。タグではありません。

したがって、重複検出後、Googleは正規化の部分を実行します。 Googleが重複するURLをすべて取得し、検索に表示するURLを決定する場所。 Googleはどのように表示するかを決定しますか？その部分は約20の異なる信号で構成されているとゲイリー氏は語った。信号は次のとおりです。

コンテンツ
PageRank
HTTPS
サイトマップファイルのページですか
サーバーリダイレクト信号
rel canonical

これらの信号に手動で重みを割り当てるのではなく、機械学習を使用してこれを行います。手動で重みを割り当てないのはなぜですか。手動で重みを割り当てるだけでは問題が発生する可能性があります。ただし、リダイレクトと正規タグは、機械学習によってより高く重み付けされます。

ゲイリーは、機械学習を使用する理由を説明しました。

ですから、それは非常に良い質問です。そして数年前、信号としてGIFリンクを計算に導入しようとしていたため、正規化に取り組みました。手動で重みを微調整するのは悪夢でした。
重みを0.1の数字で変更しても（メジャーはないと思いますが）、他の数字を捨てて、突然、たとえばURLが短いページが表示されたり、検索結果に表示される可能性が高くなりますが、これはちょっとばかげています。URLの長さを気にする人のように、なぜそれを見るのでしょうか。したがって、たとえば新しい信号を導入するときに適切な重みを見つけることは、絶対的な悪夢でした。そして、バグも見ることができます。たとえば、ジョンは、基本的に、Twitterやフォーラムなどで拾ったものに基づいて、重複のインデックスを作成するためにかなりエスカレートしていることを知っています。

そして、時々、彼は、デュープのチームが言う実際のバグをエスカレートします...なぜあなたは笑っているのですか、ジョン？笑ってはいけません。これはあなたについてです。私はあなたをその場に置いています、あなたはこれに感謝するべきです。とにかく。

それで、彼は潜在的なバグをエスカレートし、それがバグであり、重みに関連していることが確認されました。わからないが、サイトマップ信号を使用しているとしましょう。または、サイトマップ信号の重みが高すぎます。
そして、デュープのチームが「さて、その信号を少し減らしましょう」と言ったとしましょう。しかし、その信号を少し減らすと、他の信号がより強力になります。しかし、実際には20個の信号があるため、どの信号を制御することはできません。

そして、突然より強力または重くなった他の信号を微調整すると、さらに別の信号がスローされます。そして、それを微調整すると、基本的に、それは終わりのないゲームです。

だから、それはモグラたたきです。したがって、これらすべての信号を機械学習アルゴリズムに加えてすべての望ましい結果に供給する場合は、これらの重みを設定するようにトレーニングしてから、機械学習アルゴリズムによって計算または提案された重みを使用できます。

もちろん、ジョンはSEOが何を考えているかを知っているので、ジョンはソフトボールの質問としてゲイリーに尋ねました。「これらの重みもランキング要素のようなものですか？サイトマップファイルの場合、ランクが高くなります。」または、正規化はランク付けとは無関係ですか？」

ゲイリーは、「したがって、正規化はランキングとは完全に独立しています。しかし、正規として選択したページは、検索結果ページに表示され、ランク付けされますが、これらのシグナルに基づくものではありません」と回答しました。

これがポッドキャストオーディオです。6：05頃にポッドキャストに始まります。

SEOコンサルタントのまとめ

■重複コンテンツのシグナル（約20ある中の主なもの）
●コンテンツ
●PageRank
●HTTPS
●サイトマップファイルのページですか
●サーバーリダイレクト信号
●rel canonical

[広告]おすすめ記事

[PR]【賢威】【文賢】

大ロングセラーSEOテンプレート【賢威】

【文賢】は上場企業、中小企業、個人事業主、教育機関、アーティストの方まで、さまざまな方にお使いいただいている文章作成アドバイスツールです

記事執筆/サイト管理者

記事執筆/サイト運営者

名前:白石竜次　Shiraishi Ryuji
肩書：SEOコンサルタント
高校卒業後、調理師を経て数々の職業を経験し、その後IT企業でHTMLおよびSEO対策を学ぶ。
その経験を知識を生かしながら各企業でSEO担当者となりインハウスSEOを行う。
現在ではフリーで様々な企業のSEOコンサルティングを行っている。
2011年11月　「SEO対策＜検索上位にヒットする＞コレだけ！技（技術評論社）」を出版。
2014年1月「世界一わかりやすいSEO対策最初に読む本（技術評論社）」を出版。
2014年1月「たった30分でできるSEO検索エンジン最適化（秀和システム）」を出版。
2017年　書籍「DeNAと万引きメディアの大罪（宝島社）」に寄稿。