Google公式が公開する「検索アルゴリズム」…補足説明・感想
Google公式サイトで「検索の仕組み」というページがあります。そのなかに「検索アルゴリズム」という情報がありますので引用し、紹介します。
Google 検索の仕組み
検索アルゴリズムの仕組み
ウェブ上に存在する情報の量を考えると、何か情報の整理を助けてくれるものがなければ、必要な情報を見つけるのは不可能に近いでしょう。Google のランキング システムはそのために設計されています。検索インデックスに登録されている膨大な数のウェブページを分類し、最も関連性の高い有用な結果を瞬時に検索して、探している情報を見つけやすい形でユーザーに表示します。
このランキング システムは 1 つのアルゴリズムではなく、一連のアルゴリズムで構成されています。最も有用な情報を表示するため、検索アルゴリズムはさまざまな要因(検索クエリの単語、ページの関連性や有用性、ソースの専門性、ユーザーの位置情報や設定など)を検討します。各要因に適用される重み付けはクエリの性質によって異なります。たとえば、最新のニュース トピックに関するクエリに回答する場合は、言葉の定義に関するクエリに回答する場合よりも、コンテンツの鮮度がより大きな役割を果たします。
Google では、検索アルゴリズムが関連性や品質の高い基準を満たせるように、ライブテストや、世界各国にいる熟練した外部の検索品質評価者による評価など、厳正なプロセスを整備しています。品質評価者は、検索アルゴリズムに関する Google の目標が定義された厳しいガイドラインに準拠しています。このガイドラインは一般公開されており、誰でも見ることができます。
検索結果を決める主な要因について詳しくは、以下の項目をご覧ください。
【白石】
Googleは「検索結果を決める主な要因」として、この5つを挙げています。
●検索意図の把握
●ウェブページの関連性
●コンテンツの品質
●ユーザビリティ
●文脈の考慮
つまり、この5つが「検索アルゴリズム」に影響がある、という事です。
順番にも注目。「検索意図の把握」を一番に上げています。検索意図の把握がいかに重要なのかがわかります。
検索意図の把握
検索意図を把握する
最適な回答を返すためには、検索の意図を把握することが大切です。関連性の高い情報が含まれているページを見つけるために最初に行うのは、検索クエリに含まれる単語の意味の分析です。Google では、どの単語をインデックスで検索する必要があるのか解釈するための言語モデルを構築しています。ここでは、スペルミスを解釈するのと同じくらい単純に見える手順を行います。さらに、自然言語理解に関する最新の調査結果の一部を適用することで、入力されたクエリのタイプを理解しようと試みるのです。たとえば、1 つの単語に複数の定義がある場合でも検索がユーザーの意図を理解できるのは Google の類義語システムのおかげです。このシステムは開発に 5 年以上かかりましたが、さまざまな言語の検索の 30% 以上で大きな成果を上げています。
<図>
入れ替え
「電球の変え方」交換
「郵便局で両替ができるか」調整
「パソコン画面の明るさの調整するには」Google では、ユーザーがどのような種類の情報を探しているのかについても理解しようとします。特定のことに関する検索か、幅広い検索か。「口コミ」、「画像」、「開店時間」など、具体的な情報が必要なことを示す検索キーワードはあるか。その日に公開されたコンテンツを探していることを示す、急上昇ワードの検索をしているか。付近のお店や現在地の情報を検索しているか。こうしたことも、アルゴリズムで分析します。
この情報カテゴリに関して特に重要なのが、ユーザーが鮮度の高い情報を求めているかどうかの分析です。急上昇中のキーワードを検索すると、フレッシュネス アルゴリズムによって最新の情報が求められていると解釈され、より鮮度の高いページが古いページより上位に表示されます。たとえば「J リーグの試合結果」、「M-1 グランプリの優勝者」、「トヨタの決算発表」などが検索されたときは、できるだけ新しい情報を表示するようにしています。
【白石】
Googleが一番に挙げたのは「検索意図の把握」です。検索クエリに含まれる単語の意味の分析していきます。
そして「ユーザーがどのような種類の情報を探しているのか」で具体的に挙げられたのは「口コミ」「画像」「開店時間」というワードです。特に「口コミ」については、非常に高く評価する事を実体験で感じています。口コミ情報をメインに掲載している場合は「口コミ」というワードを使うべきですね。
そして「フレッシュネス アルゴリズム」というワードが出てきました。
「フレッシュネス アルゴリズム」とは、下記の通り、最新の話題ということですね。
そこで例えに出されたのが
「J リーグの試合結果」「M-1 グランプリの優勝者」「トヨタの決算発表」
ですよ。まさかGoogleが「M-1グランプリ」を例えに出すとは!
やっぱりお笑い芸人の影響力って凄いんですね。。
(余談ですが私は過去M-1グランプリの予選に参加しておりました。。)
有名SEOコンサルタント「検索者の意図を満たすことが王様」/検索意図について説明
■SEOコンサルタントのBill Slawski(ビル・スロースキ)氏
検索者の意図を満たすことが王様だ。お昼に「ピザ」で誰かが検索したとしたら、それはピザの歴史を探しているのではなく、ピザを食べたがっているんだ。
たとえば、「エアコン掃除」で検索したユーザーの検索意図は何だろうか? 1つではない。大きく2つ考えられそうだ。
自分でエアコンを掃除する方法を知りたい
エアコンを掃除してくれる業者を見つけたい
このクエリのグーグルの検索結果を見ると、どちらかに関連するページが1ページ目に出ている(どちらかというと、自分で掃除する方法を解説したページが上位に多い)。
それでは「エアコンクリーニング」はどうだろうか? 「クリーニング」も「掃除」も似たような言葉だ。しかし「エアコンクリーニング 」の検索結果はクリーニング業者に関連したページばかりだ。自分でエアコン掃除したいユーザーは「クリーニング」という言葉はあまり使わないように思う。一方業者を探すときには「クリーニング」の方を使いそうだ。
こんなふうに、同じあるいは類似したクエリでも検索ユーザーの意図が異なることは珍しくない。
フレッシュネス アルゴリズム
Giving you fresher, more recent search results
【Google翻訳】
最新の検索結果を提供しますオーブンから取り出したばかりの暖かいクッキーや、暑い夏の日の涼しいさわやかなフルーツなどの検索結果は、新鮮なときに最適です。 検索で指定しない場合でも、関連性があり、最近の検索結果が必要になる可能性があります。
ウェブページの関連性
ウェブページの関連性
次に、クエリに一致する情報が含まれるウェブページを探します。ごく基本的な検索を行った場合、アルゴリズムはインデックス内で検索キーワードを探して適切なページを見つけます。そして、そのキーワードが登場する頻度やページ上の場所(タイトル、見出し、本文中など)について分析します。情報の関連性を評価するための最も基本的な要因は、検索クエリと同じキーワードがウェブページに含まれているかどうかです。キーワードがページに出現する(特に見出しや本文に含まれている)場合、そのページの情報は関連性が高い可能性があります。このようなキーワードの単純な一致に加え、匿名化して集計したインタラクション データに基づいて検索クエリと検索結果の関連性を評価することもしています。インタラクション データを関連性要因に変換して機械学習することで、関連性をより正しく推定できるようになります。
キーワードの照合に加えて、アルゴリズムでは、ユーザーが探している情報に十分合致する検索結果となるかどうかを評価するための手掛かりを見つけます。「犬」を検索する場合、必要なのは「犬」という単語が何百回も出現するページではありません。つまり、ただクエリの言葉を繰り返すだけでなく、クエリに対する答えが含まれているページかどうかを見極める必要があります。そこで検索アルゴリズムでは、犬の画像や動画、犬種のリストなど、関連するコンテンツがページに含まれているかどうか分析します。最後に、クエリと同じ言語で作成されたページかどうかを確認して、ユーザーが使用する言語のページを優先します。
なお、Google 検索アルゴリズムではこうした定量化可能な要因に基づいて関連性を評価していますが、ページのコンテンツの主観的概念(視点や政治的な偏向)を分析するようには設計されていません。
【白石】
「関連性」はかなり昔から言われてきている事です。
そこで今回改めて「検索クエリと同じキーワードがウェブページに含まれているかどうかです」とはっきりと書かれています。
皆さんされているとは思いますが、「ターゲットキーワードをタイトルタグや本文に入れる事」は重要なのです。
Googleが進化しても、これは昔から変わりません。
逆に「キーワードの詰め込みは不要」ともはっきり書かれています。
重要なのは「キーワードの量」ではなく「クエリでの回答」なのです。
言葉は出されていませんが「多様性」のあるコンテンツであることが重要、という意味に見えます。
Googleをまねてパンダで例えると「パンダの説明」「パンダの画像」「パンダの動画」「パンダの種類」「パンダのグッズ」「パンダの口コミ」…などのパンダに関連するコンテンツがあるかどうかをGoogleは分析しているのです。
コンテンツの品質
一般的な検索クエリの場合、関連がありそうな情報を掲載しているウェブページは、数千件どころか、場合によっては数百万件も存在します。検索クエリに対して最適なページを検索結果の上位に表示できるように、これらのウェブページの有用性を評価するためのアルゴリズムも作成しています。
これらのアルゴリズムでは、ウェブが提供できる最適な情報を特定するために、コンテンツの新しさ、検索キーワードが出現する回数、ページのユーザー エクスペリエンスの質など、さまざまな異なる要因を分析します。また、内容の信頼性や権威があるかどうかを評価するために、同様のクエリについて多数のユーザーに評価されているサイトを見つけます。
検索内容に関連する他の著名なウェブサイトがそのページにリンクしている場合は、情報の質が高いことの確かな証拠となります。ウェブ上には、キーワードを何度も繰り返す、PageRank を転送するリンクを購入するなどの手法を使って、何とか検索結果の上位に入ろうとするスパムサイトが多数存在します。こうしたサイトは、利用価値がほとんどないばかりか、Google のユーザーに害を及ぼしたり誤解を与えたりする恐れもあります。そこで Google では、スパムサイトを特定したり、Google のウェブマスター向けガイドライン(品質に関するガイドライン)に違反するサイトを検索結果から削除したりするためのアルゴリズムを開発しています。
ウェブをはじめ、あらゆる情報源のコンテンツは常に更新されています。Google では、システムの品質を継続的に測定、評価することで、情報の関連性と権威性のバランスを適正に保ち、検索結果の信頼性を高めていきたいと考えています。
【白石】
皆さんは様々なSEO専門家から「良いコンテンツを作りましょう」とさんざん言われてきたと思います。
しかしここにあるように「コンテンツの質」は本当に大事なのです。
今回Googleは分析の要因の例えに
●コンテンツの新しさ
●検索キーワードが出現する回数
●ページのユーザー エクスペリエンスの質
を挙げています。これらはチェックしておきましょう。
また「スパムサイト」にも言及しています。「スパムサイトは利用価値が無い」と言っています。
SEO会社が行っている「被リンクサービス」をGoogleは禁止しています。
この点についてはガイドライン参照です。
ユーザビリティ
検索結果を表示する前に、Google ではすべての関連情報に整合性があるかどうかを評価します。たとえば、検索結果に共通する話題は 1 つだけか、それとも複数あるのか、多数のページが限定的な 1 つの解釈に集中していないか、といったことです。Google は、検索のタイプに応じて最も利便性の高い形式でさまざまな情報を表示することに努めています。また、ウェブの発展に合わせて Google のランキング システムも進化させ、より多くのクエリに対して質の高い検索結果を提供できるようにしています。
ユーザビリティを評価する際の要因としては、サイトを異なるブラウザで正しく表示できるか、パソコン、タブレット、スマートフォンなどタイプやサイズが異なるすべてのデバイスに最適化されているか、インターネットの接続速度が遅いユーザーでもページをスムーズに読み込めるかなど、すべての Google ユーザーが検索結果をストレスなく表示できるかどうかが重要となります。
サイトのユーザビリティはサイト所有者が改善できるものであるため、対応が可能な重要な変更を検索アルゴリズムに加える場合は前もって周知するよう努めています。たとえば 2018 年 1 月には、検索アルゴリズムでサイトの Page Speed を考慮することを決定し、変更を実施する 6 か月前に発表しました。また、サイト所有者が適切に対応できるように、PageSpeed Insights や Webpagetest.org のような詳しいガイドやツールを提供し、サイトをよりモバイル フレンドリーにするには何を変更すべきかがわかるようにしました。
サイト所有者向けのツールや参考情報について詳しくはこちらをご覧ください。
【白石】
「ユーザビリティ」については以前は「アルゴリズム、検索順位には関係ないけどやったほうが良い」という姿勢でした。
しかしとうとう2021年から「ウェブコアバイタル」として順位決定要因にユーザビリティが関係してきます。
「SEOに関係ないから」、今まで無視してきた方は要注意です!
文脈の考慮
現在地、過去の検索履歴、検索設定などの情報はすべて、検索の時点で最も有用で関連性が高い情報を検索結果として提供するのに役立っています。
Google では、ユーザーの国などの位置情報を使用して、お住まいの地域に関連するコンテンツを提供します。たとえば、シカゴに住んでいるユーザーが「football」で検索すると、ほとんどの場合、アメリカン フットボールやシカゴベアーズに関する検索結果が上位に表示されます。一方、ロンドンにいるユーザーが「football」で検索した場合は、サッカーやプレミアリーグに関係のある検索結果が上位に表示されます。自分にとって役立ちそうな検索結果が表示されるようにするには、検索の設定も重要です。検索の設定では、使用する言語を指定したり、セーフサーチ(露骨な表現を含む検索結果を除外できるツール)を有効にしたりすることができます。
場合によっては、ユーザーの最近の検索行動に関する情報に基づいて検索結果をカスタマイズすることもあります。たとえば、「バルセロナ」を検索しているユーザーが、その少し前に「バルセロナ対アーセナル」を検索していた場合、今検索しているのは都市ではなくサッカーチームについての情報だという重要な手掛かりになります。検索機能を向上させるために検索履歴を使用するかどうか(Google アカウントにどのデータを保存するかなど)は、ユーザー自身が myaccount.google.com で変更できます。
Google 検索は、Google アカウント内でのアクティビティに基づいて検索結果をカスタマイズする機能も備えています。たとえば「近くのイベント」を検索すると、ユーザーの興味や関心に合わせてカスタマイズされたおすすめのイベントが表示されることがあります。こうした機能は、ユーザーの興味や関心に合った情報を提供するために開発されたもので、ユーザーに関するセンシティブな情報(人種、宗教、支持政党など)を推測することを目的とはしていません。
検索結果を改善するために検索履歴を使用するかどうか(Google アカウントにどのデータを保存するかなど)は、ユーザー自身が myaccount.google.com で変更できます。アカウントでのアクティビティに基づく検索のカスタマイズを無効にするには、[ウェブとアプリのアクティビティ] をオフにします。
【白石】
「文脈の考慮」という言葉はSEO関連の中でもそれほど多用されていなかったように思えます。
Googleのサッカー例え(位置情報により地域に関連する情報を表示する)は、元サッカーファンの私には非常にわかりやすいですが、サッカー無縁の人にはわかりにくいと思うので補足。
まず、海外の多くの国では「サッカー(socer)」の事を「フットボール(football)」と言います。
しかしアメリカでは「フットボール(football)」と言えば「アメリカンフットボール」の事を指し、サッカーは「サッカー(socer)」と呼びます。日本はアメリカに影響されての事なんでしょうね。
「同じ言葉で違う意味」という事で言えば。少しGoogleのとは意味は違ってきますが「ワンピース」が挙げられます。
Googleが検索結果のスニペットを拡張…「ワンピースとは」の強調スニペット
「複数の意味に取れる質問」と聞いて思いついてのが「ワンピースとは」です。
以前も記事に書きましたが、「漫画・アニメ」と「洋服」どちらの意味も有名な言葉です。
「ユーザーの最近の検索行動に関する情報に基づいて検索結果をカスタマイズ」については、
ユーザーがサッカーファンで「FCバルセロナ」の情報を過去に観ていれば「バルセロナ」と検索した時に「FCバルセロナ」の情報が表示され、ユーザーが旅行ファンだったら「バルセロナ」と検索した時に「バルセロナ」の旅行関連の情報が表示される、ということです。Googleアドセンス広告と同じですね。