人工知能に起こり得るバイアス、データが偏るとAIも偏見を持つ

Matou

8年前

面接で人を採用するかしないか、少額融資希望者に融資するかしないか、犯罪者の量刑をどの程度に定めるか――。

こうした判断を人間ではなくAIに判断させようという動きが広まっています。

決定いかんで人生を左右しかねないこれらの判断。そこにAIを持ち込もうという試みの背景にあるのは、AIであれば人種や性別による偏見(バイアス)なく、公平な判断を下せるだろうという期待があります。

しかし、万一AIにもバイアスが発生するならば、どうやって公平性を保てばよいのでしょう?

AIによる意思決定が実用化されている分野

この問いはけして机上の空論ではなく、現実的な問題として浮上しつつあるものです。
本記事では意思決定を行うアルゴリズムの現状と、そのバイアスがもたらしうる影響について見ていきましょう。

AIやアルゴリズムを使って人間を介さず意思決定を行うことは、ADM(Automated Decision Making、自動意思決定)と呼ばれています。現在、ADMは金融や刑事司法といった分野ですでに実用化されており、今後もさらなる普及が予想されています。

金融分野では、ZestFinanceという会社がBaidu社と提携して成果を上げています。

ZestFinanceは機械学習を活用したローン査定用のプラットフォームやコンサルティングサービスを行う会社です。ZestFinance自体が誰かにお金を貸すわけではありません。ZestFinanceのプラットフォームは、お金を借りたい人のことを調査して貸したお金を返す能力があるかどうか分析し、貸し手側にその情報を提供するためのサービスなのです。

お金を貸す際に問題になるのは返済能力、つまり貸したお金を期日までに返せるかどうか、という点です。従来の金融機関は過去に借金を返済したかどうかという返済履歴をもとに判断する場合が多かったのですが、このシステムでは初めてお金を借りる人は判断基準がないままローン審査に望むことになり、不利になってしまいます。ZestFinanceは機械学習を導入し、ローン希望者本人のさまざまな情報をAIに分析させることで基づいて、返済履歴によらないローン審査を行うというサービスを提供しています。

中国企業のBaidu社は少額融資サービスを展開していますが、ZestFinanceのプラットフォームを活用した結果、驚くべき躍進を遂げました。貸し倒れ率が据え置きのまま、審査を通ってローンを借りた人数が2ヶ月で150%増加したのです。

アメリカでは刑事司法の現場でADMが幅広く活用されています。主要な分野としては、被告人が審理中に暴力行為や逃亡を行うかどうかのリスク算定、有罪となった人の量刑や仮釈放の決定、また少年犯罪の加害者の処置の判断などがあります。

これらのシステムには1980年頃から実用化され始めましたが、導入の目的は審理をより早く正確に行うことでした。個人の犯罪歴や現状を統計的に分析し、さまざまなリスクを推定するこれらのシステム。ゆくゆくは量刑判断や判決の合理性を増し、人間の判断にまぎれこむバイアスを排除して判断をより公平にする可能性があるとして、さらなる推進と活用が期待されています。

AIにもつきまとうバイアス

このようなADM導入で期待される効果の一つは、人間の判断の不合理性やバイアスを排除することです。
ところが近年、ADMの判断にさえ不公平性やバイアスが発生しうる可能性が指摘されています。

実際に論争を呼んだ例として、COMPASというシステムの事例を見ていきましょう。

COMPASは服役中の犯罪者の再犯リスクを評価するためのツールです。COMPASの判断は仮釈放を行うかどうかの判断基準の一つとして活用されるものですが、2016年、このシステムに人種差別的なバイアスがかかっているという調査結果が物議を醸しました。

アメリカのNPO「ProPublica」はCOMPASの出力結果を分析し、白人に比べ黒人の再犯リスクが2倍に見積もられているという調査結果を発表。司法の現場で実際に使われるシステムについてこのような調査結果が出たことで、刑事司法の専門家も巻き込んだ論争へと発展しました。

同じ2016年にはAIの訓練に使う学習用データのバイアスも発見され、問題視されました。ここで問題になったのは、チャットボットや機械翻訳など言語を処理するAIに関わる学習用データです。

AIはまず、膨大なデータを入力して学習をする必要があります。言語処理を行うAIの学習には、単語同士の関連性を数値化して表現したデータを使います。こうすることで、例えば「翼」という言葉は「魚」よりも「鳥」とより強く関連する、といったことをコンピューターが学習できるのです。

このような学習用データは既存のものが複数存在するのですが、2016年の研究で、データ中の単語の関連性に性別にまつわる偏りがあったことがわかったのです。例として挙げられたのは、プログラマという言葉は女性よりも男性に強く関連付けられ、専業家事従事者は男性よりも女性に強く関連付けられたという例です。

このような形のバイアスが最終的にどのような効果となって現れるのかは、まだまだわからないことが多いのが現状です。しかし、今後ADMが普及してくるにつれ、無視できない不安要素となるのは確実でしょう。

（次ページ：バイアスへの対処）

バイアスへの対処として考えられる方策

AIのバイアスについてはまだまだわからないことが多いのが現状です。

しかし、バイアスと公平性の問題はAIやADMの普及にあたっては避けられない課題です。こうしたバイアスを避けて公平性を保つためには、いくつか重要となるポイントがあります。ここではそれを見ていきましょう。

公平性の基準についてのコンセンサスを得る

公平な状態とは何がどうなっていることか、不公平な状態とは何がどうなっていることか、それを決めることは非常に重要です。当然のことのようにも思えますが、前述のCOMPASの例は、まさに公平性の基準が違ったことで意見がまっぷたつに分かれた例です。

実はCOMPASを糾弾したProPublica側とCOMPASの開発元であるNorthpointe社は、公平性の根拠としてそれぞれ微妙に異なる指標を使っていました。ややこしいことにそれぞれの指標は、一方が偏っていてももう一方は偏っていないということが起こりうるものなのです。結果、不公平だという主張と公平だという主張が矛盾なく両立してしまい、平行線をたどるということが起きてしまったのです。

詳しく見ていきましょう。
COMPASの予測には、「どんな予想をしたか」と「実際はどうなったか」という2つの要素が含まれています。

↓実際　予想→	再犯リスク高	再犯リスク低
再犯リスク高	①陽性	③偽陰性
再犯リスク低	②偽陽性	④陰性

予測の結果は上の表のように4通り存在します。

1)再犯リスクの高い人物を正確に予測する(陽性)
2)再犯リスクの低い人間を高いと予測する(偽陽性)
3)再犯リスクの高い人間を低いと予測する(偽陰性)
4)再犯リスクの低い人物を正確に予測する(陰性)

このうち、COMPASが不公平だと主張したProPublicaが重視したのは②偽陽性と③偽陰性でした。黒人と白人との間でこれらの割合を比較したところ、黒人の偽陽性が高く、白人の偽陰性が高くなっていたのです。つまり、黒人には不当に厳しい判断が、逆に白人には不当に甘い判断が下されていたというので、これがCOMPASの不公平性の根拠とされています。

一方、COMPASは公平だと主張するNorthpointe社が重視したのは陽性的中率(PPV)と呼ばれる数字です。これは平たく言えば陽性と判断した予想がどれだけ正確に的中したかを表す数字です。この数字に偏りがなかった、つまり再犯リスク予測の正確性が黒人と白人で同程度であったことがNorthpointe側の主張の根拠となっています。

しかし実は、偽陽性・偽陰性の割合が偏っていることと、陽性的中率が偏らないことは、同時に起こりうることなのです。

PPVは陽性の予想の的中率だけに注目した数字であり、偽陰性の割合がどれだけ高くても影響を受けません。極端な例ですが100人のうち1人だけを再犯リスクが高いと予想してそれが的中した場合、あとの99人を再犯リスクが低いと予想してしまえばPPVは100%となります。しかしこの場合、リスクの高い人間を正しく予想しない偽陰性の割合が極端に高くなってしまいます。

逆に100人全員を再犯リスクが高いと予想し、100人全員について的中した場合も陽性的中率は100%です。ただしこちらの場合、偽陰性の割合は0%となります。

このように陽性的中率の数字が同じであっても、偽陰性の割合が偏るということは起こりえます。このような場合、PPVと偽陽性/偽陰性のどちらを公平性の尺度として用いるかが決まっていなければ、議論はどこまでも平行線を辿ることでしょう。

ADMの判断の裏付けについて透明性を確保する

AMDがどのようなデータをどう評価し、どのように筋道立てた上で判断に至ったか、それをしっかりと公開することも重要になります。これの実現のためには、ADMのアルゴリズムやAIの学習に使ったデータの公開を行う必要が出てきます。加えて、AIが何を判断基準として意思決定に至ったかを説明できるようになるような技術の進歩も必要です。

現在では、AI判断の根拠を知ることはできません。透明性と説明責任が求められるADMでは、これを可能にする技術は非常に重要となります。

また、アルゴリズムの公開は知的財産権の保護という観点から困難となる場合も考えられます。事実COMPASが使われたある裁判で、企業秘密としてアルゴリズムが非公開になっている以上裁判官も被告もCOMPASの下した評価の根拠をチェックできないと異議が唱えられた例もあります。

こうした例を見るに判断の裏付けに関しては、法整備と技術革新の両面からのアプローチが必要になってくるでしょう。

良質なデータを取得し活用する

AIのバイアスは、基本的には偏りのあるデータで学習を行ったことが原因となります。

例えばデータの内容が現実を表していない(アンケートのサンプル数が少ない、データが不完全など)、またデータ取得のプロセスに構造的なエラーがある(オンライン上のアンケートでインターネット普及率について調べるなど)場合は、データに偏りが発生します。

AIのバイアスを排除するためには、AIが判断を下すもととなるデータのバイアスをまず排除することが求められます。AIの研究や活用に関してはさまざまなデータを多く保有するほど優位に立つことができますが、将来的にAIのバイアスが今よりも問題視されるようになってくれば、偏りの少ない学習用データを用意できるということも強みに含まれるようになるかもしれません。

意思決定をAIが自動化することは時間や労力の削減だけでなく、人間が判断する時に陥りがちな偏見や不合理性といった落とし穴を回避することにもつながります。一方ADMのこの強みを十分に活かすためには、AIにもバイアスが発生しうることを理解し、それが引き起こす問題を防ぐような対策が必須になってきます。

そしてそのためには技術革新だけでなく、法整備やコンセンサス形成など、社会的な変革も必要になってくるでしょう。