GaryIllyesがGoogle検索での情報検索について語る

Gary Illyes Talks On Information Retrieval At Google Search[Search Engine Roundtable]

【Google翻訳】
GoogleのGaryIllyesは、前回のSearch Off TheRecordポッドキャストで情報検索についてかなりの時間を費やしました。このトピックについて詳しく読んでいない場合は、ゲイリーの話を聞くことを強くお勧めします。

これはゲイリーからの非常に便利な復習であり、グーグルが関連性や多段階のランキングシステムを処理する方法など、グーグルが情報検索を処理する方法についてさらに掘り下げています。彼はランキングにもう少し入り、同義語についてもう少し掘り下げます。具体的には、同義語の売買です。はい、購入と販売は同義語ですが、Googleは同義語の重み付けも異なります。この場合、購入と販売は、購入する同義語としての購入よりも重み付けが少なくなります。彼らは、購入ページと販売ページのコンテンツページを作成する方法、または私にページを採用する方法をさらに深く掘り下げます。かなりかっこいいです。

これはすべてポッドキャストの25:23マークから始まるので、下の[再生]をクリックするとそこから始まります。
Google I/O 2021, information retrieval, and more!

見たくなくて読みたくない場合は、以下にトランスクリプトを示します。

以前のエピソードの1つで、クエリの解析と理解について話し、同義語について簡単に触れたと思います。たとえば、「車を購入する」などを検索すると、「車を購入する」、「自動車を購入する」、「車を購入する」などに展開されます。
そして、インデックスでそれらすべての単語を検索しますよね？一部の人にとっては役立つかもしれないからです。さて、インデックスを検索すると、これらの単語を検索するときに実際にはインデックス全体を調べないため、過負荷の用語になります。以前に取り上げたもの、つまり投稿リストと呼ばれるものがあります。それは本質的に、それらの単語を含むページまたはドキュメントへの用語のマップです。
たとえば、「車」という用語がドキュメントA、B、C、D、E、F、Gに表示されていることを簡単に識別できます。次に、「購入」が-わからない-B、C、 D、E、F、G。技術的には、最も単純な形式で、2つのグループの共通部分を返すことを実行します。基本的に、B、C、D、E、F、Gは両方の単語を含むドキュメントであるため、これらを返します。

実際には、それはそれほど単純ではありません。両方またはすべてのドキュメントをサービングシステムに返し、クエリなどに十分に関連性のないドキュメントを処理します。

さて、関連性は複数のものによって決定されるため、興味深い概念です。 1つは、クエリ自体に根ざしている部分が1つあります。ここでは、元の用語は「車を購入」または「車を購入」でした。クエリとは無関係であるため、「a」を削除します。つまり、「車を買う」ということです。そして、それらは私たちが最も興味を持っている用語です。これらは、結果セットに本当に必要な用語です。

これらの用語は、ランク付けプロセス中、ソートプロセス中に最も重みが高いと言えます。たとえば、「自動購入」など、クエリを拡張したものはすべて、ユーザーが検索したものではないため、元の用語よりも重みが低くなります。これは、ユーザーが検索したものに関連する用語であり、役に立ちますが、それはユーザーが検索したものではありません。

これらの用語も検索しますが、元の用語の関連性よりも関連性が低いと見なします。そして最初の段階では、可能な限りすべてのドキュメントを取得します。基本的に、「車を買う」という用語を含む10億のドキュメントがある場合、最初の段階では、それらの10億のドキュメントすべてを1つのグロブに収集します。

次に、基本的にはランキングシステムである並べ替えメカニズムが起動し、これらの10億のドキュメントすべての逆並べ替えリストが作成され、約1,000に削減されます。そして、それらの1,000のドキュメントは、提供時に押し上げられます-誰もそれを見ることができないので、なぜ私がここで手でジェスチャーをしているのかわかりません-しかし、基本的に、それらの1,000のドキュメントはユーザーに向かって押し戻されます。

ここで、ランキングについて少し触れましたが、それ自体が次のエピソードのトピックだと思います。そこには行きません。しかし、1,000のドキュメントができたら、基本的には、基本的にそれらのドキュメントの提供を開始できます。そして、彼らはランキングを終えていません。基本的に、私たちは持っているシグナルのいくつかに基づいてソートされたリストを作成しましたが、それらの1,000のドキュメントのランク付けを完了するにはさらに多くのシグナルが必要です。基本的に、ユーザーにとって問題ないと思われる順序で並べ替えます。

そして、それはランキングの別の段階で起こります。しかし、この時点で、これらの結果をユーザーに提供することができ、ほとんどの場合、ユーザーはすでに問題がない可能性があります。 [live for]クエリクラスでは、通常、これらの事前に並べ替えられたリストを表示しますが、通常は問題ないように見えます。もちろん、あなたは奇妙なものを検索することができます、そして私たち全員が知っているように、インターネット上には奇妙なものがあるので、時々あなたはそれらの事前に分類されたリストで非常に奇妙なものを見ることができます。そしてそれがさらなるランキングが重要である理由です。

たとえば、パイナップルピザの結果は必要ありません。少なくとも私の場合は、非常に積極的に降格されます。ただし、事前に並べ替えられたリストでは、ランキングがまだ終了していないため、引き続き表示されます。

次に、JohnMuellerが展開します。

ジョン・ミューラー：わかりました。それで、これは基本的に私たちが持っているさまざまな種類のインデックス全体で起こりますか？
ゲイリー・イリーズ：そうです。

ジョン・ミューラー：それとも、それはほとんど別のトピックですか？

Gary Illyes：このエピソードのコンテキストでは、Webインデックスについてのみ話し、画像インデックスやビデオインデックスなどについては話していません。これは、動作が少し異なり、作業したことがないため、正式に話すことができないためです。、私は推測する。

ジョン・ミューラー：わかりました。

Gary Illyes：Webインデックスでは、実際に作業を行ったので、他のどのインデックスよりも多くのことを知っています。

ゲイリー・イリーシュがGoogle検索での情報検索について語る

GaryIllyesがGoogle検索での情報検索について語る