LLMにリバースエンジニアリングは意味がない

AI向けライティングの超重要ポイントを渡辺隆広氏が紹介、これは押さえなきゃ損だ【SEO情報まとめ】[Web担当者Forum]

AIに精通しているSEO専門家のブリトニー・ミュラー氏がリンクトインにあげた投稿を紹介する：

※「リバースエンジニアリング」とは、ここでは「LLMの出力や反応を調査することで、そのアルゴリズムやデータを調べる」ことを意味している。

SEO担当者の皆さんへ：

皆さんはLLMを検索エンジンのように捉えがちですが、それは参照できる枠組みが他にないからです。しかし、ニューラルネットワークに「アルゴリズムをリバースエンジニアリングする」という考え方は通用しません。まったく異なるテクノロジーなのです（そうしようとするのは滑稽に映ります）。

PageRankをリバースエンジニアリングしたのと同じ方法で、ニューラルネットをリバースエンジニアリングすることはできません。システムに意図的なランダム性が組み込まれている場合、「パターンを見つけ出し、それを攻略する」という考え方そのものが通用しなくなるのです。

たとえ自社のニッチな分野で最も完璧にマッピングされたベクトル埋め込みを手に入れたとしても、temperature設定によって毎回異なるアウトプットが生成されてしまいます。

たとえば、モデルは「iPhone」が「プレミアム」「エコシステム」「カメラ」といった言葉と関連していることを一貫して「知っている」かもしれませんが、特定の回答でそれらの関連性を実際に表現するかどうかは、部分的にランダムなのです。

でも、皆さんの検索スキルは決して無駄にはなりません。むしろ、これまで以上に重要になっていると言えるでしょう！ AI検索は実際の検索結果に大きく依存しているのです。効果的な施策は継続し、1つのアルゴリズム（Google）への最適化に終始するのではなく、LLMが学習する他の関連サイトでブランドの権威性を築くことに注力しましょう。たとえば次のような場所です：

▼Redditのディスカッション
▼GitHubのリポジトリ
▼業界フォーラム
▼ポッドキャストの書き起こし
▼学術論文
▼など
要するに、「検索される場所」だけでなく、「会話が生まれる場所」に存在することが重要なのです。トレーニングデータのエコシステム全体に自社の情報が組み込まれてしまえば、何もリバースエンジニアリングする必要はなくなります。

ミュラー氏の主張を簡潔にまとめるとこうなる：

▼LLMをリバースエンジニアリングしようとするのは意味がない

▼ランダム性が組み込まれたニューラルネットワークは、リバースエンジニアリングが通用しない

▼するべきことは、Redditやフォーラム、GitHubなど、LLMが学習するサイト全体でブランドの権威性を構築することに注力すること

▼「会話のエコシステム」に自社の情報が存在するように意識していく

たしかに、SEOに携わる人は検索エンジンをリバースエンジニアリングし続けてきた。検索エンジンは仕様を正確には公開していないため、そうするしかなかったからだ。そして、ちゃんとやればリバースエンジニアリングで正解を見つけられていた。

しかしそれは、検索エンジンが出力に「あいまいさ」「ランダム性」をもたせず、常にアルゴリズムに沿った一律の結果をだしていたからだ。

生成AIでは、入力に対して出力をつくりだす際に、「常に同一の結果」ではなく、ぶれがある。そのため、リバースエンジニアリングしても効果が低いというのだ。

SEOコンサルタントのまとめ

■ブリトニー・ミュラー氏
▼LLMをリバースエンジニアリングしようとするのは意味がない
▼ランダム性が組み込まれたニューラルネットワークは、リバースエンジニアリングが通用しない
▼するべきことは、Redditやフォーラム、GitHubなど、LLMが学習するサイト全体でブランドの権威性を構築することに注力すること
▼「会話のエコシステム」に自社の情報が存在するように意識していく