SEOコンサルタントの運営するSEO最新情報・SEOのサイトです。SEO最新情報、SEO業者の紹介など。運営者はSEOコンサルタント・白石竜次(「世界一わかりやすいSEO対策 最初に読む本(技術評論社)」他)です。お気軽にお問合せください。

SEOコンサルタント.com

ウェブの重複について(Google Webmaster Conference)

投稿日:

ウェブの重複について(Google Webmaster Conference)

「海外SEO情報ブログ」の記事を抜粋します。

ウェブの重複とは?――Google Webmaster Conferenceのライトニングトークより #GWCPS

米 Google 本社があるマウンテンビューで 11 月 4 日に開催された Webmaster Conference Mountain View では、検索チームの Google 社員によるライトニングトークが 8 セッションありました。

重複処理

1:同じに見える、重複したウェブページの集まりを特定する
2:代表となる URL を選び、ユニークなページだけをインデックスする
3:代表の URL にシグナルを転送する

なぜ重複処理するのか?

●同じページが検索結果に繰り返し出てくるのを検索ユーザーは望んでいない
●はっきりとした差異があるコンテンツをインデックスするための余裕を確保する
●サイトをリニューアルしたときにシグナルを保っておく
●別の名前(同義語?)を発見できる

重複の処理

1:Clustering(クラスタリング)
2:Localization(ローカリゼーション)
3:Canonicalization (カノニカリゼーション)

Clustering(クラスタリング)

クラスタリングとは重複するページを統合すること。

重複のクラスタリングに利用するシグナル:

リダイレクト――ほぼ完璧に重複コンテンツを示すため、主としてリダレクトを Google は信頼する。こうした理由もあり、サイトの移転とリニューアルのときにはリダイレクトを利用することを推奨している。
コンテンツ――コンテンツのチェックサムも使う。ボイラープレート(テンプレート部分)を無視するようにしている。ソフトエラー(例: 5xx エラーやソフト 404)を認識する。そのため、HTTP ステータスコードでのエラーを取得することを Google は好む。
rel=”canonical”――クラスタリングには、rel=”canonical” のアノテーションも利用する。rel=”canonical” はより多くの確認処理を必要とする。ユーザーが間違いを犯しやすいのでしきい値を意図的に緩くしている(例: 全ページの rel=”canonical” をトップページに向けてしまう)
クラスタリングにはこれら以外のシグナルも利用する。

Localization(ローカリゼーション)

同じ言語だが異なる国向けにコンテンツを配信しているサイト(ページ)に対する処理。
たとえば、ページは英語だが、米国向けページと英国向けページがそれぞれ存在するような場合(例: $ と £ で金額の単位だけが違う)。
コンテンツの内容が同じでも違う言語で配信している場合は重複にはならない(例: 英語と日本語の両方で同じ内容のページを公開している場合)

メインコンテンツが同じときにはページはクラスタリングされるが、これはボイラープレートだけがローカライズされているときにも当てはまる。
[※すずき補足: メインコンテンツは同じで、テンプレート部分、たとえばメニューだけが別の言語になるパターン]

IP に応じてリダイレクトする構成もクラスタリングされることが多い。
[※すずき補足: Googlebot は主に米国(マウンテンビュー)からクロールするので、米国向けページしか見られない]

ローカライズしたコンテンツには hreflang を Google は利用する。

Canonicalization(カノニカリゼーション)

代表にする URL の選択――正規化のこと。

重複処理するためには、代表を選ばなければならない。
代表 URL の候補は重視される基準に基づいて競い合う。
重視度は機械学習によってトレーニングされる。

正規化に際してはハイジャッキング(乗っ取り)が最大の懸念事項。
もし発見したらフォーラムで報告してほしい。

もう 1 つの懸念は、ユーザー体験に関係すること――セキュリティや meta refresh リダイレクトなど。
ウェブマスターからのシグナルが適切かどうかも気にしている――リダイレクトや rel=”canonical”、サイトマップ

重複に対する Google からの提案

●サイトリニューアルの手がかりを示すためにリダイレクトを使う
●適切な HTTP ステータスを送信する
●rel=”canonical” で指定するリンクを確認する
●ローカライズ(多言語・他地域対応)には hreflang を使う
●コンテンツ乗っ取りを発見したらフォーラムで報告する
●セキュアなページに対してはセキュアな構成を使う
●正規化のための明確なシグナルを送る

「Google Webmaster Conference製品サミット」ツイートまとめ

▼「Google Webmaster Conference」についてはこちらの記事にまとめています。

「Google Webmaster Conference製品サミット」ツイートまとめ

「Google Webmaster Conference Product Summit-GooglePlex」というカンファレンスのツイートまとめ記事です。

SEOコンサルタントのまとめ

「重複コンテンツ」に関しては多くの方が過剰に反応している状態です。
「ペナルティ」を考えた時にまずみなさんが考え心配するのが「重複コンテンツ」ですね。
しかし多くの方のサイトの場合は違う原因が多いという。。。

重複コンテンツと扱われやすいサイト…「重複コンテンツ」とは?

毎回のように重複コンテンツの質問を頂くのですが、恐らくこれまでご質問を頂いた中で本当に
「僕等の言う所の重複コンテンツ」で問題になっているケースはほとんど見た事が無いですね。
なので恐らくみなさんがなにか成果が出ない時に
「重複コンテンツのせいじゃないか」と思うのは仕方ないかな、という部分はあるんですけど基本的にはその事例は少ないかなと思います。
実際に「重複コンテンツ」がどういうものかご説明すると、「重複コンテンツ」はいろいろあるので、
例えばある「サイトをまるごとコピーして作ったサイト」も「重複コンテンツ」ですし、
例えば同じサイトの中で複数のURLでサーブされるようなページ。「/」「/index.html」「パラメータ」はそれぞれ別々のページですけど、それらも「重複コンテンツ」なんですけど、Googleはその中のカノニカルなページ、どれか一つのページをカノニカルだと。
3つのページが同一だと判断した時には1つのページをカノニカルで選んでそのページを中心にインデックスしています。
なので特に気にする事でもない。
ただたまにあるケースとしてはQ&Aサイトなどで色々なサイトに、ポータルなどにポスティング、シンジケートしているような場合に
「サービスA」と「サービスB」の全く同じコンテンツなんですけど、メインコンテンツは一緒なんですけどドメインもサービスも違うケースが重複コンテンツのように扱われる可能性は正直あると思います。
たいていの場合では重複コンテンツが問題になっている例というのはあまり見た事が無い思います。

  • B!