BERTでコンテンツの品質を評価する方法
BERTでコンテンツの品質を評価する方法
【Google翻訳】
BERTでコンテンツの品質を評価する方法
コードフリーのディープラーニングツールキットモデルを使用して投稿の文法をレビューし、コンテンツ品質のいくつかのプロキシの1つとして使用できます。マリー・ヘインズは最近、ジョン・ミュラーとの非常に洞察に満ちたポッドキャストインタビューを行いました。
特に、BERTとそのコンテンツ品質評価の可能性についての会話を楽しみました。
「M 26:40 ? .. Googleは今、BERTを使用して、コンテンツが良いかどうかをよりよく理解していますか?」
「J 27:00 ?…コンテンツの品質を理解することはそれほど重要ではありませんが、このコンテンツが何であるか、この文は何であるか、このクエリは何であるかを理解することが重要です...」
Googleは、自然言語をよりよく理解するのに役立つと繰り返し言っています。人間が行うようなコンテンツの品質評価は、マシンが行うには依然としてかなり複雑です。
「M 28:54 ?…Googleはそれを否定的に扱うことができます。「ああ、このページはSEOで編集されたように見えます。これらのキーワードはGoogleのためにあり、実際にページに悪影響を及ぼします。」
「J 29:41 ?…同じキーワードの何千ものパターンをページに追加しているだけで、キーワードスタッフィングアルゴリズムが作動し、これが実際にはキーワードスタッフィングのように見え、その後、キーワードスタッフィングアルゴリズムが作動する可能性があります。 …」
一方、キーワードの詰め込みは、マシンが見つけやすいものです。これを確認する1つの方法は、テキストが無意味な方法で記述されているかどうかを確認することです。
「J 29:41 ?…しかし、BERTに関しては、これらのアルゴリズムの多くがオープンソースであり、それらの周りに多くのドキュメントと参照資料があるため、実行できることの1つは、実際に試すことです。 そして、このSEOテキストの一部を取り、それをこれらのアルゴリズムの1つに投入し、プライマリコンテンツが引き出されることを確認します。エンティティは適切に認識でき、それは1対1ではありません。 私たちのアルゴリズムは同様のアイデアに基づいていると思いますが、おそらく別の方法で調整されていますが、システムが実際に混乱しすぎて、システムが何について書いているのかを理解することができないという洞察が得られます。 」
これが私をワクワクさせた部分です。 これを試すことは素晴らしいアイデアであり、この記事で正確に行うことです。
MozのBritney Mullerは、非常に優れたアイデアとPythonノートブックをテストするためのコードと共有しました。
@JohnMuによるもう1つのヒント:BERTはコンテンツの「品質」を決定しませんが、コンテンツが意味をなさないかどうか、つまりページがキーワードスタッフィングを使用しているかどうかを示すために使用できます。
次に、「キーワードスタッフィングアルゴリズム」が起動し、ページの品質に関するフラグが立てられます。
↓
うーん、でもある意味で「品質」の測定ではないですか?
BERTについて私たちがどのように話すかについて明確にする必要があります(それ自体で、または限定された微調整なしで)
しかし、(CoLA)のような他のライブラリでは、BERTは文が文法的に正しいかどうかにラベルを付けることができます。Hmm, but isn't that measuring 'quality' in a way?
There should be clarity around how we speak about BERT(on its own or w/o fine tuning it's limited)
BUT with other libraries like (CoLA), BERT can label whether or not a sentence is grammatically correct: https://t.co/txUud2be3H
— Britney Muller (@BritneyMuller) June 4, 2020
単一文の分類には、言語的受容性(CoLA)データセットで微調整されたBERTを使用できます。
このモデルは、文法的に正しい文と正しくない文を判断するのに役立ちます。 コンテンツ品質のいくつかのプロキシの1つとして使用できます。
それは間違いなく絶対的ではありませんが、私たちを正しい方向に導くことができます。
SEOコンサルタントのまとめ
一部を抜粋しました。