AIに引用されやすい文章パターンとは？ 120万件の検索結果と1万8千件の引用で判明したAIの“クセ”

AIに引用されやすい文章パターンとは？ 120万件の検索結果と1万8千件の引用で判明したAIの“クセ”【SEOまとめ】[Web担当者Forum]

****************************
AIがコンテンツを引用する際の明確なパターンが見えてきた。ChatGPTはページの先頭30%にある情報を特に多く引用しており、その分布は「スキーのジャンプ台」のような形を描いていた。
******************************

ChatGPTの回答120万件と、実際に引用された18,012件のデータをケルビン・インディグ氏が分析したデータを紹介しよう。

引用されやすいコンテンツには共通点がある。それは、ニュース記事のようにわかりやすく、結論が冒頭にあり、具体的な情報が詰まっているという点だ。

引用される確率を大きく高める特徴は5つある：

●はっきりした断言
●「質問と回答」の形式
●具体的な固有名詞の多さ
●バランスの取れた文体
●ビジネス文書のような読みやすさ

これらの結果が示すのは、AIに取り上げてもらいたいコンテンツは、「物語を語るスタイル」で書くのではなく、「要点を整理した報告書」のように書くべきだということである。このスタイルを取り入れることで、AIが生成する回答に自分のコンテンツが引用される可能性が高まると思われる。

分析の詳細は次のとおりだ。

■「スキーのジャンプ台」パターン
▼引用全体の44.2%は、コンテンツの冒頭30%から来ている。

▼31.1%はコンテンツの中間部分（30%〜70%）から。

▼24.7%はコンテンツの末尾30%から。フッター直前の「まとめ」や「結論」セクションでは引用が増えるが、ページの一番下（90%〜100%）では急減する。

▼特に引用されやすいのは、ページ冒頭から20%以内にある段落。

▼このパターンはデータとして統計的に明確に証明されている（P値0.0）。

AIは、大量のニュース記事や学術論文を学習している。これらは「結論を最初に書く」スタイルが基本なので、AIも自然と冒頭の内容を重視するようになっていると考えられる。伝えたい重要なことは冒頭に書き、大事な情報を記事の後半に隠さないようにする。

※Web担編注　勘違いしてほしくないのは、「冒頭に書いた内容が多く引用される」わけではない点だ。AIが好む文章構造が「冒頭や末尾に結論やポイントが整理して配置されている」ものだと解釈してほしい。

■段落の中でどこが引用されるか
▼引用の53%は段落の「中間の文」から来ている。

▼段落の最初の文からはわずか24.5%。

▼段落の最後の文からは22.5%。

AIは段落全体をしっかり読んだうえで、「一番情報量が多い文」を選んで引用する。文の位置よりも、内容の充実度が重要である。

※Web担編注　こちらも「段落のなかで中間におけば引用されやすくなる」と解釈するべきではないだろう。「段落の冒頭や末尾には、ツカミやつなぎの文が来ることが多いため、AIが引用するのは本題である中間の文であることが多い」と解釈するのがよさそうだ。

■引用されやすいコンテンツの5つの特徴
1. はっきりした断言
▼「〜とは〇〇のことだ」「〜を指す」といった明確な定義を含む文は、そうでない文に比べて約2倍引用されやすいとデータが示した（36.2%対20.2%）。

▼「誰が・何を・どうする」が一文で明確にわかる文章は、AIが一発で答えを見つけやすいため、引用されやすくなる。

▼まず明確な定義や直接的な結論から書き始める。

2. 「質問と回答」の形式
▼質問文を含むコンテンツは、含まないものより約2倍引用されやすい傾向がある（18.5%対9.5%）。

▼質問形式の引用のうち78.4%は見出しに由来している。

▼AIは「見出しの質問＝ユーザーの問い」「直後の段落＝その答え」として認識する。

▼回答の冒頭に見出しと同じキーワードを繰り返すと、さらに効果的だ。

▼見出しを質問形式にして、その直後に答えを書く構成にする。

3. 固有名詞や具体的な情報の多さ
▼AIによく引用されるテキストでは、固有名詞などの具体的な情報の割合が20.6%にのぼる（一般的なテキストでは約5%〜8%）。

▼ブランド名・ツール名・人名などの具体的な言葉は、AIが内容を正確に理解するための「道しるべ」になる。

▼「あるツール」「一般的な企業」といったぼかした表現を避け、具体的な名前を積極的に使おう。競合他社の名前を出すことも効果的。

4. バランスの取れた文体
▼主観性のスコア（0.0が完全に客観的、1.0が完全に主観的）でいうと、約0.47が最も引用されていた。

▼事実だけを淡々と並べた文章も、個人の意見ばかりの文章も、どちらも引用されにくい傾向がある。

▼AIは、事実に基づきながらも、それを読み解く視点や解説を加えた「専門家の分析」のような文体を好む。

▼事実の説明に加えて、その背景や意味を解説する文章を組み合わせる。

5. ビジネス文書のような読みやすさ
▼引用されやすいコンテンツの読みやすさの平均は、大学生レベルに相当するスコアだった。

▼引用されにくいコンテンツは、それより読み解く力が必要で、研究論文や博士論文レベルのスコアだった。

▼難しい言葉や長すぎる文章は引用されにくくなる。ただし、これは「簡単に書けばいい」という意味ではない。プロが読んでも納得できる、明確でわかりやすい文体が理想だ。

▼複雑さよりも明瞭さを優先する。

インディグ氏が分析から導き出した、AIに引用される確率を高めるための施策を簡潔にまとめる。

▼AIに評価されやすいコンテンツは、物語より「整理された報告書」に近い構成。

▼冒頭に重要な情報を置くスタイルは、AIだけでなく、忙しい読者にとっても読みやすい。

▼「徐々に盛り上がる」スタイルの文章はAIとの相性が悪く、「自信がない文章」だと判断されることがある。

▼AIが評価するのは、難易度を下げることではなく、「わかりやすい構造と正確な情報」。

重要な注意点がある。インディグ氏の分析は相関関係の調査によるものだ。相関関係と因果関係は異なる。「インディグ氏の推奨に従えばAI引用率が向上する」ものではない。

とはいえ、ここで挙げられている文章構造は、いわゆる「パラグラフ・ライティング」相当のものでもある。論理だてられていて、構造化されていて、具体的な記述を含む文章は、人間が理解しやすい文章の作り方だ。

この推奨に従うことは、AI引用とは無関係におすすめしたい。

今回の分析方法の概要は次のとおりだ：

▼データセット： 120万件の検索結果、18,012件の位置的引用、11,022件の言語的（「言語的DNA」）分析
▼データソース： Gauge（ChatGPTによる約300万件のAI回答と対応する引用、回答時点でスクレイピングされたウェブコンテンツ）
▼引用マッチングは文エンベディング（all-MiniLM-L6-v2）によって行われ、テキストを384次元ベクトルに変換
▼弱いマッチとハルシネーションを除外するための厳格な類似度閾値（コサイン類似度0.55）を設定
▼位置的深度と言語的特性（定義率、エンティティ密度、主観性スコア）を測定