いいえ、GoogleSMITHアルゴリズムはライブではありません
【Google翻訳】
特定のSEOグループやフォーラムでは、GoogleがBERTやRankBrainよりも優れたSMITHという名前の新しいアルゴリズムを立ち上げたという憶測があります。 SMITHは、Siamese Multi-depth Transformer-based Hierarchical(SMITH)Encoderの略です。 これはライブではありません。現在、Googleの研究論文にすぎません。 グーグルのダニー・サリバンはツイッターでこれを確認し、「いいえ。私たちはしませんでした」とSMITHを本番環境で立ち上げました。これらのツイートは次のとおりです。
■Google Danny Sullivan(ダニーサリバン)氏(@dannysullivan)
@dannysullivan GoogleがBERTの代わりにSMITHアルゴリズムを検索するために立ち上げたという憶測や噂が業界にありますが、SMITHは生きていますか?
↓
検索で使用されていないものについての論文をたくさん公開しています。 時間がかかり、より重要であるため、誰かが推測する可能性のあるものを1つずつ確認する習慣はありません。私たちはすでにこのことについて積極的に話す傾向があります。 そうは言った。 いいえ、しませんでした。We publish a lot of papers about things not used in Search. I won't be making a habit of confirming each one someone might speculate about because it's time consuming & more important, we have tended to proactively talk about this stuff already. That said. No. We did not.
— Danny Sullivan (@dannysullivan) January 13, 2021
推測は、研究論文について書いたロジャーモンティから来ていません。 彼は最近発表された研究論文を取り上げたばかりですが、それが本番環境で使用されているとは言いませんでした。 実際、ロジャーは「それが使用されているかどうかを言うことは純粋に推測的である」と書いた。 この論文は最初に2020年4月26日に提出され、次にバージョン2が2020年10月13日に公開されました。
推測は、ランキングの変更を見て、それがSMITHに関係していると主張しているBlack HatWorldフォーラムのスレッドから来ていると思います。 グーグルはまだ本番検索でSMITHを立ち上げたと言ったことはない。
SMITHとは何ですか? 以下に要約を示しますが、SMITHはBERTを改善し、BERTが優れている「長い形式のドキュメントマッチング」と「数文または1段落のような短いテキスト」で言語をより理解できるようです。
多くの自然言語処理と情報検索の問題は、セマンティックマッチングのタスクとして形式化できます。この分野での既存の作業は、主に短いテキスト間のマッチング(例:質問応答)、または短いテキストと長いテキスト間のマッチング(例:アドホック検索)に焦点を合わせてきました。ニュースの推奨、関連記事の推奨、ドキュメントのクラスタリングなど、多くの重要なアプリケーションがある長い形式のドキュメント間のセマンティックマッチングは、比較的調査が少なく、より多くの研究努力が必要です。近年、トランスフォーマーやBERTのような自己注意ベースのモデルは、テキストマッチングのタスクで最先端のパフォーマンスを達成しています。ただし、これらのモデルは、入力テキストの長さに関する自己注意の2次計算の複雑さのために、数文または1段落のような短いテキストに制限されています。このホワイトペーパーでは、長い形式のドキュメントマッチング用にSiamese Multi-depth Transformer-based Hierarchical(SMITH)エンコーダーを提案することでこの問題に対処します。私たちのモデルには、より長いテキスト入力のために自己注意モデルを適応させるためのいくつかの革新が含まれています。ドキュメント構造情報をキャプチャするために、トランスベースの階層型エンコーダを提案します。ドキュメント内の文レベルの意味関係をより適切にキャプチャするために、BERTで使用されるマスクされた単語の言語モデリングタスクに加えて、新しいマスクされた文のブロック言語モデリングタスクを使用してモデルを事前トレーニングします。長い形式のドキュメントマッチングのいくつかのベンチマークデータセットに関する実験結果は、提案されたSMITHモデルが、階層的注意、マルチ深度注意ベースの階層型リカレントニューラルネットワーク、BERTなどの以前の最先端モデルよりも優れていることを示しています。 BERTベースのベースラインと比較すると、モデルは最大入力テキスト長を512から2048に増やすことができます。ウィキペディアベースのベンチマークデータセット、コード、および事前にトレーニングされたチェックポイントをオープンソースにして、長い形式のドキュメントマッチングに関する将来の研究を加速します。ロジャーは彼がそれが何であると思うかについての記事を書いた。ロジャー氏は、「SMITHは、ドキュメント全体を理解しようとする新しいモデルです。BERTなどのモデルは、文のコンテキスト内の単語を理解するようにトレーニングされています。非常に簡単な説明では、SMITHモデルは、ドキュメント全体のコンテキスト内のパッセージを理解するようにトレーニングされています。資料。”実際、Googleの研究者によると、SMITHは入力テキストの最大長を512から2048に増やしています。
フォーラムの人々は、彼らのサイトでのランキングの変更について話しているとき、「昨日までにバート・スミスの更新がなくなった」と言っています。別の人は、「Googleの新しいSMITHアルゴリズムは、BERTよりも長い形式のコンテンツをよく理解している。おそらくこれは一部のサイトに影響を及ぼしている」と述べた。
つまり、GoogleがSMITHを本番環境で立ち上げたという証拠はありません。そしてグーグルはそれが検索でSMITHを起動しなかったことを確認した。
そして、古いリマインダーは、グーグルが特許や研究論文を持っているという理由だけで、彼らがそれを持っている、持っている、またはこれから使うという意味ではありません。
はい、GoogleのDannySullivanは2021年にそれを言いました。
@dannysullivan GoogleがBERTの代わりにSMITHアルゴリズムを検索するために立ち上げたという憶測や噂が業界にありますが、SMITHは生きていますか?
↓
検索で使用されていないものについての論文をたくさん公開しています。 時間がかかり、より重要であるため、誰かが推測する可能性のあるものを1つずつ確認する習慣はありません。私たちはすでにこのことについて積極的に話す傾向があります。 そうは言った。 いいえ、しませんでした。We publish a lot of papers about things not used in Search. I won't be making a habit of confirming each one someone might speculate about because it's time consuming & more important, we have tended to proactively talk about this stuff already. That said. No. We did not.
— Danny Sullivan (@dannysullivan) January 13, 2021