SEOコンサルタントの運営するSEO最新情報・SEOのサイトです。SEO最新情報、SEO業者の紹介など。運営者はSEOコンサルタント・白石竜次(「世界一わかりやすいSEO対策 最初に読む本(技術評論社)」他)です。お気軽にお問合せください。

SEOコンサルタント.com

BERTでコンテンツの品質を評価する方法

投稿日:

BERTでコンテンツの品質を評価する方法

BERTでコンテンツの品質を評価する方法

【Google翻訳】
BERTでコンテンツの品質を評価する方法
コードフリーのディープラーニングツールキットモデルを使用して投稿の文法をレビューし、コンテンツ品質のいくつかのプロキシの1つとして使用できます。

マリー・ヘインズは最近、ジョン・ミュラーとの非常に洞察に満ちたポッドキャストインタビューを行いました。

特に、BERTとそのコンテンツ品質評価の可能性についての会話を楽しみました。

「M 26:40 ? .. Googleは今、BERTを使用して、コンテンツが良いかどうかをよりよく理解していますか?」

「J 27:00 ?…コンテンツの品質を理解することはそれほど重要ではありませんが、このコンテンツが何であるか、この文は何であるか、このクエリは何であるかを理解することが重要です…」

Googleは、自然言語をよりよく理解するのに役立つと繰り返し言っています。人間が行うようなコンテンツの品質評価は、マシンが行うには依然としてかなり複雑です。

「M 28:54 ?…Googleはそれを否定的に扱うことができます。「ああ、このページはSEOで編集されたように見えます。これらのキーワードはGoogleのためにあり、実際にページに悪影響を及ぼします。」

「J 29:41 ?…同じキーワードの何千ものパターンをページに追加しているだけで、キーワードスタッフィングアルゴリズムが作動し、これが実際にはキーワードスタッフィングのように見え、その後、キーワードスタッフィングアルゴリズムが作動する可能性があります。 …」

一方、キーワードの詰め込みは、マシンが見つけやすいものです。これを確認する1つの方法は、テキストが無意味な方法で記述されているかどうかを確認することです。

「J 29:41 ?…しかし、BERTに関しては、これらのアルゴリズムの多くがオープンソースであり、それらの周りに多くのドキュメントと参照資料があるため、実行できることの1つは、実際に試すことです。 そして、このSEOテキストの一部を取り、それをこれらのアルゴリズムの1つに投入し、プライマリコンテンツが引き出されることを確認します。エンティティは適切に認識でき、それは1対1ではありません。 私たちのアルゴリズムは同様のアイデアに基づいていると思いますが、おそらく別の方法で調整されていますが、システムが実際に混乱しすぎて、システムが何について書いているのかを理解することができないという洞察が得られます。 」

これが私をワクワクさせた部分です。 これを試すことは素晴らしいアイデアであり、この記事で正確に行うことです。

MozのBritney Mullerは、非常に優れたアイデアとPythonノートブックをテストするためのコードと共有しました。

@JohnMuによるもう1つのヒント:BERTはコンテンツの「品質」を決定しませんが、コンテンツが意味をなさないかどうか、つまりページがキーワードスタッフィングを使用しているかどうかを示すために使用できます。
次に、「キーワードスタッフィングアルゴリズム」が起動し、ページの品質に関するフラグが立てられます。

うーん、でもある意味で「品質」の測定ではないですか?
BERTについて私たちがどのように話すかについて明確にする必要があります(それ自体で、または限定された微調整なしで)
しかし、(CoLA)のような他のライブラリでは、BERTは文が文法的に正しいかどうかにラベルを付けることができます。

単一文の分類には、言語的受容性(CoLA)データセットで微調整されたBERTを使用できます。

このモデルは、文法的に正しい文と正しくない文を判断するのに役立ちます。 コンテンツ品質のいくつかのプロキシの1つとして使用できます。

それは間違いなく絶対的ではありませんが、私たちを正しい方向に導くことができます。

SEOコンサルタントのまとめ

一部を抜粋しました。

  • B!