GoogleのパッセージインデックスはBERTを活用できますか?
【Google翻訳】
GoogleがBERTをどのように活用するかは、「パッセージインデックス」という用語の使用によって異なります(ただし、ランキングの更新として識別されます)。Googleが本番検索でBERTと呼ばれる新しいアップデートを発表してから12か月が経ちましたが、最近のSearch Onイベントは、本番BERTの1歳の誕生日のほぼ前夜に行われ、AIと 過去1年間のBERT。
BERTとは何かの要約
要約すると、Google BERT 2019年10月の更新は、Googleがクエリとコンテンツをよりよく理解し、「単語の意味」(コンテキスト)をより深く理解することで多義語のニュアンスを明確にするのに役立つとされる機械学習の更新です。 最初の更新は、英語のクエリのわずか10%に影響を与えただけでなく、それらが表示された地域の注目のスニペットにも影響を与えました。
重要なのは、その最初のBERT検索の更新は、主に明確化のためであり、テキストの抽出と特徴的なスニペットでの要約のためでした。 明確化の側面は、主に文やフレーズに適用されます。
BERTの本番検索の発表から約1か月以内に、すべての地域のクエリの10%にしか影響を与えていませんが、さらに多くの国で展開が開始されました。
当初、2019年10月の発表は、SEOの世界で大きな反響を呼びました。特に、Googleによると、BERTを発表したとき、この更新は「過去5年間で最大の飛躍であり、歴史上最大の飛躍の1つでした。 検索の。」
これは明らかにRankBrain以来の最も重要な発表であり、誇張ではなく、Web検索の世界だけではありません。 自然言語理解の分野(半世紀前の研究分野)の過去12か月間のBERTに関連する進展は、間違いなく、前の50を合わせたよりも1年で学習を前進させました。
この理由は別のBERTでした。Googleの研究者であるDevlinらによる2018年の学術論文「BERT:言語理解のためのディープ双方向トランスフォーマーの事前トレーニング」です。 ここでは、いくつかの学術論文を参照することに注意してください。 この記事の最後にソースとリソースのリストがあります。
その後、BERT(論文)は、機械学習コミュニティの他の人々が構築できるようにオープンソース化され、世界の劇的な計算言語学の理解の進歩に間違いなく多大な貢献をしました。
BERTの基本的な考え方は、トランスフォーマーの「注意」メカニズムを使用して、大規模なテキストコレクション(En WikipediaおよびBookCorpus)からの単語のコンテキストウィンドウで双方向の事前トレーニングを使用して、左側および左側のすべての単語を表示することです。 より大きなコンテキストのために、スライドコンテキストウィンドウで同時にターゲットの右側。
トレーニングが完了すると、BERTを基盤として使用し、他のより詳細なタスクを微調整して、下流の自然言語の理解と質問および回答に多くの研究を集中させることができます。
「単語の意味」の「コンテキストウィンドウ」を明確にするための例
コンテキストウィンドウのスコープは重要な概念であるため、説明のために例を示しました。
コンテキストウィンドウの長さが10ワードで、ターゲットワードが10ワードのスライド式「コンテキストウィンドウ」の位置6にある場合、BERTは左側のワード1〜5だけでなく、右側のワード7〜10も見ることができます。同時に、注意の「単語ペア」を二次的に使用します。
これは大きな進歩です。以前のモデルは単方向でした。つまり、左側に1〜5の単語しか表示されませんでしたが、スライディングウィンドウでそれらの単語に到達するまで7〜10の単語は表示されませんでした。この双方向の性質と同時注意を使用すると、特定の単語の完全なコンテキストが提供されます(もちろんウィンドウの長さの制約内で)。
たとえば、コンテキストウィンドウ内の他の単語にも「川」または「お金」が含まれている場合、「銀行」という単語の理解は異なります。コンテキストウィンドウで共起する単語は意味を追加し、突然「銀行」は「金融銀行」または「川岸」であると理解されます。
2019年10月のGoogleBERTアップデートの発表に戻る
2019年10月25日の制作検索の発表は、言語研究コミュニティでBERTに焦点を当てた熱狂的な年に続きました。
2018年から2019年の間に、BERTタイプのモデルという名前のセサミストリートのキャラクターのすべての方法が、BaiduからERNIEを含めて登場しました。 FacebookとMicrosoftも、BERTのようなモデルを構築し、各ターンでBERTを改善することに忙しかった。 Facebookは、ROBERTAモデルは単にBERTのより堅牢にトレーニングされたバージョンであると主張しました。 (Microsoftによると、2019年4月からBingでBERTを使用しています)
ビッグテックAIチームは、さまざまな機械学習言語タスクリーダーボードで互いに飛躍しました。その中で最も人気のあるのは、SQuAD(スタンフォードの質疑応答データセット)、GLUE(一般的な言語理解評価)、およびRACE(評価からの読解)です。 彼らが行ったように人間の言語理解のベンチマークを破った。
しかし、2020年はどうでしょうか。
SEOの世界は最近(今月まで)BERTのトピックについて静かになっていますが、BERTを取り巻く深層学習と自然言語処理の世界への熱意は、2020年に衰えるのではなく、加速しています。
2019/2020年のAIと自然言語理解の発展により、SEOはBERTストーキングゲームを再び強化するはずです。 特に今週の進展に照らして、特にGoogleのオンライン検索イベントからの発表に続いて。
BERTは必ずしも「BERT」を意味するわけではありません
続行する前の重要な注意事項:
「BERTのような」—「言語」でラベルのない大きなテキストモデルを事前トレーニングし、トランステクノロジーを介した転移学習を使用して、さまざまなより詳細なタスクを利用してモデルを微調整するための説明用語。
2019年のGoogleアップデートはBERTと呼ばれていましたが、BERT以降、単一のアルゴリズムアップデートではなく、検索の一部と機械学習言語フィールド全体で現在使用されている方法論への参照である可能性が高く、2019年でもBERTのようでした 機械学習言語の世界では、ほとんど形容詞として知られるようになりました。
SEOコンサルタントのまとめ
非常に長いので途中までです。。。