目次
Googleの「BERT」により偏見も学習してしまうという指摘
Googleの自然言語処理モデル「BERT」はインターネット上から偏見を吸収してしまうという指摘
Googleが「Bidirectional Encoder Representations from Transformers(BERT)」と呼ばれる自然言語処理モデルを2018年10月に発表しました。BERTはGoogleの検索エンジンでも使用されており、Wikipediaのエントリやニュース記事、古書などのデジタル化された情報から学習を行います。しかし、このBERTの学習スタイルは、ネット上の情報源に眠る偏見や差別も一緒に学習してしまうという問題が指摘されています。
We Teach A.I. Systems Everything, Including Our Biases - The New York Times
従来のニューラルネットワークを用いた自然言語処理モデルは、文章解釈や感情の分析など、特定のタスクのみに対応しています。インターネット技術が発達したことで、膨大なテキストデータを簡単に入手可能となりましたが、特定のタスクのためにラベル付けされたデータセットを用意するのにはかなりの労力とコストがかかります。
それに対してBERTは、インターネット上にある大量のラベル付けされていないデータから事前学習を行うことができます。また、既に学習済みのモデルを使って新たなモデルを生成する転移学習が可能。これによって、少ないデータやモデルでさまざまなタスクに特化することができるのがBERTの利点です。
しかし、インターネット上のテキストデータで事前学習を行うことによって、AIがジェンダーバイアスも一緒に学習してしまうと指摘されています。実際にコンピューター科学者のロバート・マンロー氏が「お金」「馬」「家」「行動」といった一般的な単語100個をBERTに入力したところ、99個が男性に関連付けられ、唯一「ママ」という単語だけが女性に関連付けられていたとのこと。また、カーネギーメロン大学の研究者が2019年6月に発表した(PDFファイル)論文でも、例えば「プログラマー」という言葉が女性よりも男性に関連付けられる可能性が高いと報告しています。
「この偏見は私たちが今まで目にしてきた不平等と同じものです。BERTのようなものがあれば、この偏見は社会に残り続ける可能性があります」とマンロー氏はコメントしています。
さらに、マンロー氏はGoogleやAWSのクラウドコンピューティングサービスで動いている主要なAIシステムが、「his(彼のもの)」という代名詞は正しく認識したのに対して、「hers(彼女のもの)」は認識できなかったことをブログで報告しています。
ニューヨークタイムズの取材に対して、Googleの広報担当者は「私たちはこの問題を認識していて、問題に対処して解決するために必要な措置を講じています」とコメント。また、Amazonは「システムから偏見をなくすことは、AIの原則の1つであり、最優先事項です。厳密なベンチマーク、テスト、投資、非常に正確な技術と多様なトレーニングデータが必要です」と述べました。
しかし、ワシントン大学で計算言語学を研究するエミリー・ベンダー教授は「BERTをはじめとする最先端の自然言語処理モデルはあまりにもシステムが複雑で、『最終的に何をするか』を予想することは難しいものがあります。BERTなどのシステムを構築している開発者でさえ、その動作を理解していません」とコメントし、AIが偏見を学習してしまうことを予想したり、既に学習してしまった偏見を取り除くのは至難の業だと主張しています。
SEOコンサルタントのまとめ
たしかにAIの進化により、現在人間が持っている偏見などをAIが正しいと認識してしまう心配はありますね。
そのあたりどうしていくのか…?
Q:「BERT向けに最適化するにはどうすればよいですか?」
A:ランキングに関するGoogleのアドバイスは、常にユーザーを念頭に置き、検索意図を満たすコンテンツを作成することでした。