【書評】 AIには何ができないか ―― データジャーナリストが現場で考える

                                                                                                       兵庫正雄
 
 本書の著者は、メレディス・ブルサード(Meredith Broussard)。アメリカのデータジャーナリスト。現在、ニューヨーク大学アーサー・L・カーター・ジャーナリズム研究所准教授。原題は、Artificial Unintelligence:How Computers Misunderstand the World(『人工無知能:コンピュータは、如何に世界を誤解するか』)
訳者は北村京子氏 2019.8.10 初版第1刷発行(作品社)
  
 筆者は、多くの顔を持っている。コンピュータ・サイエンティスト、データジャーナリストであり、ニューヨーク大学准教授、そして子育て中の母親でもある。そのバイタリティーあふれる人物像は、本書の中で私小説風に生き生きと描きだされている。
 筆者は、1991年、インターネットがまだほとんど知られていなかった頃に、ハーヴァード大学でコンピュータ・サイエンスを学び始めた。子供のころからテクノロジーが大好きで、ロボット制作などに没頭していたと回想している。そして本書の中で紹介されているように、筆者はプログラマーとしてイノベーション・コンテストに参加し、優勝している。
 しかしそんな側面とは裏腹に、筆者は、「テクノロジ―に対する手放しの楽観主義と、新たなテクノロジーがどのように使われるかということに対する驚くほどの警戒心の欠如」(p.121)を特徴とする『技術至上主義』に対し、深刻な危機感を抱いている。さらに「私の目に見えているのは『現実』世界の不平等がデジタル世界にそのまま複製されるさまだ。」(p.15)として、ジェンダー・人種差別、経済的格差の問題が、デジタル社会の中にそのまま存在し続けていることを、データと自らの経験に基づいて告発している。ソフトウエアの専門家が、まさに新しいテクノロジーが生み出されるその現場に身を置き、そこから文字通りリアルな告発をする本書は、巷にあふれるAI関連書物の中でも異色の存在価値を持つものといえよう。
 「本書は、テクノロジーにできることの限界を理解するためのガイドブックだ。」(p.16)と、筆者は第1章で述べている。では、その限界はどこから来るのだろうか。その根本的な問題点を明らかにするために、筆者はコンピュータ・プログラミングの世界での種々の冒険を試みる。まず、その冒険に即して主要な論点をたどってみよう。

f:id:materialismus:20200415210048p:plain

  

 

 【1】テクノロジーにできることの限界

(1)『お金のない学校はなぜ標準テストで勝てないのか』(第5章)
 その一つ目の冒険が、ある地域内の教育事情を調査するためのAIソフトウエアの構築だった。きっかけは、小学生の息子からの質問だった。「“天然資源”とはどんなものか?」という問題に筆者は、「オイル、ガス、石炭」を挙げたのだが、息子は習った内容と違うという。筆者は教科書で確認しようとするが、教科書を家庭に持ち帰ることは禁止されているというのだ。そこで、自身が住んでいたペンシルヴァニア州フィラデルフィア学区を調査するためのAIソフトウエアを構築することを思い立つ。
 そこは国内で8番目に大きな学区で、地域の公立学校の生徒たちは極端に貧しい。筆者が考案した教科書冊数調査プログラムによれば、学区内の平均的な学校は、2012~13年度において学区で推奨されているカリキュラムの教科書を、必要な冊数の27%しかもっていなかった。少なくとも10校は、データ上教科書ゼロであった。教科書は学校予算で購入され、生徒所有ではなく、学校所有となっている。そして、生徒は、教科書を自宅に持ち帰ることができないという。
 米国では、主要な3企業(注1)が教科書を出版し、「標準テスト」を作り、テストの採点までしている。著者は、「標準テスト」が一般的な知識に基づくものではなく、これら3企業が作った教科書に載っている特定の知識に基づいていると指摘している。多くの学校に教科書を購入するお金がなく、必要な教科書が不足する状況では、「標準テスト」に良い成績を取れるはずがないのである。著者は、「標準テスト」なるものが試しているのは“特化型”の知性であり、“汎用型”ではないと指摘している。(p.95)
 しかし、筆者がこの第5章で言いたいことは、それだけではなかった。むしろ筆者は、コンピュータによる管理データと、現場の実態とが乖離していることを強調している。その例として、筆者がある学校を訪問した時、集中型コンピュータ・システムが打ち出したデータで0冊となっている教科書が、鍵付きの書庫内の段ボール箱から大量に見つかったという体験を語っている。「データやデータ収集システムは人間によってつくられたものである」(p.100)「学校にある教科書の数は、生身の人間がそれを確認したうえで、データベースに入力する必要がある。通常この作業を担当するのは、事務補助か教師の助手だ。しかしながら、過去数年間における深刻な州予算削減のために、学区の管理スタッフが減らされてしまった。」その結果、「フィラデルフィアの学用品の数値は当たり前のように帳尻が合わない。」のだという。つまり筆者は、データジャーナリストの立場から、データを普遍の真実だと考える傾向に警告を発しているのだ。
 (※1):CTB/マグロウヒル社、ヒュートン・ミフリン・ハーコート社、ピアソン社。(p.94)
 
(2)『機械学習』(第7章)
 筆者の2番目の冒険は、大学生向け教材としての『タイタニック号生存者予測モデル』の構築だ。筆者は本書の中で、記録に残っているタイタニック号の乗客のデータを教師データとして、モデルを訓練(機械学習)させ、乗客の誰が生き残ったかを推測する数理モデルを構築する。本書の中で、具体的にデータの一部と使用したソフトを紹介し、機械学習というものの内容を読者にもわかるように解説している。訓練データ項目は、①乗客ID, ②生存結果, ③乗客の等級, ④氏名, ⑤性別, ⑥年齢, ⑦同乗した配偶者・兄弟, ⑧同乗した親・子, ⑨チケット番号, ⑩乗船料金, ⑪船室番号, ⑫乗船した港の計12項目であった。筆者のプログラムはその中で、生死を決める最重要要因は“⑩乗船料金”だという結果を打ち出す(2番目は“⑤性別”だった)。高い乗船料金を支払った客ほど、生存率が高いという結果である。
 こういった統計モデルを使って、“価格最適化”が行われていると筆者は指摘する。そして、「価格最適化は、保険から旅行まで様々な業界で取り入れられており、そして多くの場合、価格差別を引き起こしている。」(p.201)と批判している。タイタニックの例でいうと高い料金を支払える相対的に裕福な人ほど生存率が高いので、より安い保険料を課すことになるというわけだ。「だれかが『意思決定に人工知能を使った』と言うとき、それはたいていの場合『機械学習を使った』ことを意味しており、その人たちはたいていの場合、私たちがたった今やったことと似たようなプロセスをたどっている。」(p.200)と述べている。
 さらに筆者は、“生死を分けた真の原因”について考え、コンピュータを使って人間ができることの根本的な限界を示そうとしている。タイタニックの事故については、事故の状況を詳細に描いたノンフィクションも存在しており、それらをもとに筆者は、生死を分けた他の要因、例えばどの救命ボートに乗ったか、あるいは、沈みゆく船体からの海中への飛び込みこみ方など、それらのほうが実際には生死を分けた可能性が高いことについて言及している。これらの要因は、今回の訓練データの中には含まれていなかったものだ。筆者は、「考慮に入れられるべき要因が、ひとつ残らず考慮されているわけではない。コンピュータは、自ら手を伸ばして、関連のありそうな追加の情報を見つけることはできない。人間にはできる。」(p.205)と、知性を持った人間との対比で、コンピュータの限界を示している。
 さらに以上の考察を経て「コンピュータとはつまり、根本的に誤解をするものなのだ。」(p.207)と断じている。もちろんこれは、「コンピュータが打ち出した結果を人間が誤解する」というべきであろう。本書はコンピュータを過大評価する“技術至上主義者”への批判を念頭に書かれており、意識的な反語表現であろう。これは、本書の原題である『人工無知能:いかにコンピュータは、世界を誤解するか』に通じている。
一般に、現代のあらゆる人工知能の土台を形成しているのは、オンライン上にある有名なデータセットであるという。それには、顔の表情や、ペット、You Tube動画、あるグループの会話、種々のアクセントで発音された言語、読みにくい手書き文字等々、が含まれる。数百万件のビッグデータであっても「すべてのデータは汚れて」(p.182)おり、何らかの偏りや、データ上の欠損がないわけではない。筆者は、世間でよく流布される『人工知能を用いた』と言われている事柄の舞台裏の実態を、自らの経験とスキルを駆使して読者に描いて見せている。筆者は、この章の最後を次のように締めくくっている。「世の中には機械が決して学ばないことが存在する」、「そして人間による判断、補強、解釈が、常に必要である」と。
 
(3)『車は自分で走らない』(第8章)
 「人工知能がどのような場合にうまく機能するのか、逆にどのような場合にまるで役に立たないのか、その両方について考えるうえで最適なケースと言えば、自動運転車だろう。」(p.212)と筆者は指摘する。デジタルテクノロジーの限界を示す3番目の冒険だ。
 筆者は、2007年の段階で自動運転車のテスト走行に乗り込み、命拾いしたという体験を語っている。そしてその年、国防高等研究計画局がスポンサーとなった自動運転車レースを紹介している。そこで、1,2位を占めたのは、地形と自分が進むべきルートが記された3Dマップがあらかじめロードされた特化型AI搭載車だった。筆者がテスト走行に乗り込み、命拾いをしたのは、人間と同じように障害物を“見る”ことを目指した汎用型AI搭載車だった。本来、自動運転車と言われているのはこのタイプであるが、レースには惨敗したのだ。
 筆者は言う。「問題の核にあるのは知覚力だ。」「障害物に対して人間と同じように反応することは、車には決してできない。コンピュータは、人から伝えられたことを“知っている”だけだ。『知覚力』、つまり未来について判断する認知能力がなければ、街灯を障害物だと判断したうえで適切な回避策をとるために必要な判断を瞬時に下すことはできない。」(p.225)と。そして「人間にとって代わるシステムではなく、人間を支援するシステムをつくることに、私たちはぜひとも集中すべきだ。」と主張している。
 
(4)イノベーション・コンテストで優勝を飾る(第10章)
 技術至上主義者たちは、競合相手を一掃し大きな利益を生み出す『破壊的イノベーション』が大好きである。筆者の4番目の冒険は、イノベーションのプロセスの一部始終をこの目で見たうえで、どれほどの可能性を実際に秘めたものなのかを確かめることだった。
 筆者は2015年に、「スタートアップ・バス」という名の、「ハッカソン(ハック+マラソンの造語)」(=コンピュータ・プログラミング・コンペティション)に参加する。“スタートアップ”と言えば、シリコンバレーで起業して短期日のうちに急成長した企業を連想されるが、この競技にはそのような夢を抱く若者たちが押し寄せる。赤の他人同士のグループがバスに乗り、不眠不休で目的地に向かう数日間に、バスの中で誰が最もすぐれたテック企業を作れるかを競い合うものだ。筆者は、パーティーでのピザ必要量を正確に計算するアプリを提案する。このアプリは、400億ドル規模の米国ピザ市場において、ニッチ市場の可能性があり仲間にも支持される。そして、筆者はネット上のソフトウエア・ツールを使い、このアプリを作り上げる。筆者の目論見は見事に当たり、このハッカソンで優勝する。しかし筆者は、このピザ・アプリ会社を売って儲けることは考えなかった。
 このピザ・アプリは、単に手計算を自動化したものにすぎず、大半が他人が作ったコードの寄せ集めから作られていた。すなわち、このテクノロジーは破壊的でも革新的でもなかった。今回のバスの中で生み出されたアプリは、どれも成功をおさめなかった。筆者は、ハッカソンのようなイベントに人々が抱く幻想に警鐘を鳴らす。有益で長持ちするテクノロジーを短期間で作り出すことはできない。ソフトウエア開発は、時代の花形というイメージとは裏腹に、本質的に“工芸”であり、熟達には長い時間を要する職人芸だと筆者はみなしている。
 
(5)コンピュータとの共存システムの模索(第11章)
 筆者が最後に紹介する5番目の冒険は、少しこれまでとは違っている。4番目の冒険まではAIに対してネガティブであった。筆者は言う。「ここからは、人間による最善の努力と、マシンによる最善の努力とを組み合わせて、一緒に前進していける道についてみていきたい。」筆者は、 想定外のことに対応できないテクノロジーの限界を踏まえたうえで、人間を包含する『人間参加型システム』の構築に挑戦する。
 米大統領中間選挙の年、2010年1月に、『シティズンズ・ユナイテッド判決』により米国では企業献金の上限がなくなった。ジャーナリズムが選挙資金に注目する中、筆者は「選挙資金に関わる不正を発見し、隠された事実を探る新しい人工知能エンジン」を開発する。それは、第5章の教科書プロジェクトで開発されたAIソフトウエアを応用したものであった。このツールは、対象が教科書という一つのネタではなく、選挙資金データの中から多種多様なネタを記者たちが探せるよう支援するものであった。このソフトは、AIに報道記事そのものを書かせるという発想ではなく、記事のネタを素早く効率的に提供してくれるというものである。
 筆者は小さなプロジェクトチームを立ち上げ、選挙資金の使い道が一目でわかるBailiwickというツールを開発する。そして、2016年大統領選でのドナルド・トランプの選挙資金の使途を可視化することで、実際に『ワシントン・ポスト』紙などへの記事のネタを提供することができた。しかし、第2弾として試みた「本当に記事のネタを吐き出すマシン」の構想は、目的達成前に資金と時間が底をついてしまう。しかも、この開発プロセスにおいて、筆者のコードでエラーが発生し、他のメンバーに迷惑をかけるという事態が発生した。これを筆者は、「よくあるバージョン管理問題だった」と述べ、こうした類の障害が、テクノロジーをニュース編集の現場に取り入れるのを難しくしているという。ここでは“コンピュテーショナル・ジャーナリズム”という『人間参加型システム』の一例を紹介し、現実の運用面での、技術的、あるいは運営資金面での困難さを指摘している。
 
 ここまでの5つの冒険 ―― ①教科書問題, ②タイタニック, ③自動運転, ④ハッカソン,⑤選挙資金 ―― を要約すれば、①,②コンピュータが打ち出すデータの信頼性に関する限界と、人間による判断、補強、解釈を抜きにすると誤解が生じること、③“想定外”には対応できないAIと、人間の持つ知覚力との決定的差異、④一攫千金を狙うコンピュータ・ソフト開発現場の実態、⑤『人間参加型システム』の模索、といったことになるだろう。「これらすべてのプロジェクトは、まるで鎖のように互いにつながり合いながら、技術至上主義への反対論を構築している。」(p.20)のである。
 
 
【2】デジタル技術と差別・倫理問題(第4,6,9章)
 本書の2つ目のテーマは、デジタルテクノロジーにおける差別と倫理問題である。筆者は、ジェンダーや人種差別、経済格差といった社会問題が、デジタルテクノロジーにそのまま反映されていることにも、鋭く批判の目を向けている。この観点は、ほぼ本書の全体を貫いており、随所に問題提起が見られる。
 筆者は、「“現実”世界の不平等がデジタル世界にそのまま複製される」事例として、「価格差別」を挙げている。(2)『機械学習』(第7章)でも一例を挙げたが、そのほかに、「裕福な郵便番号地域にいる消費者が、比較的貧困な郵便番号地域にいる消費者よりも安い価格を請求されていた」(p.82)といった不合理な実例も挙げている。
 そのほか、「裁判所の量刑判断に使用されているアルゴリズムには、アフリカ系アメリカ人に対して不利になるバイアスがかけられている」ことを指摘している。これは、COMPASというプログラムで、警察が逮捕者に137問の質問票への回答をさせ、その結果をインプットすると、再犯予測“スコア”をはじき出すというものだ。このスコアは、より“客観的”なデータに基づいた判断をするためという名目であったが、アフリカ系アメリカ人に対し、白人よりも長期の実刑判決を課すことになったという。(p.78)(p.272~274)
 そのほかプログラマーたちが抱える無意識のバイアスの例として、ヒューレット・パッカード社の顔追跡ウエブカムが、肌が黒い人の顔を認識しなかったり(2009年)、マイクロソフト社のゲーム用デバイスは、照明の暗い場所では肌が黒いユーザーを認識しにくかったり(2010年)、発売当初のApple Watchには、生理カレンダー(あらゆる女性にとって生理記録は重要)が搭載されていなかったりしたことを指摘している。
 筆者は言う。「コンピュータ・サイエンティストたちは、倫理について最低限の訓練しか受けていない。」(p.254)。「アルゴリズムを設計しているのは人間であり、人間は自らの無意識的なバイアスをアルゴリズムに組み込んでいる」「もし差別が組み込まれていることに気づいたなら、私たちはそこから、平等という概念に近づくシステムを設計していくことができる。」(p.263)
 一見公平・公正に見えるデジタル技術がなぜ倫理性に欠け、不平等を複製してしまうのか。そのことが、AIの歴史を振り返りつつ、第6章『人間の問題』で考察されている。筆者によれば、歴史的にコンピュータ・システムは、多様性を欠いた「たった一つの、ごく小さなエリート集団」から生み出されたのだという。言い換えると、テクノロジー分野では、白人男性への偏りという特定の歪みが受け継がれている、と指摘している。そして、デジタル技術における安全性や、社会的常識への配慮の欠如といったことが、AIの父といわれるマーヴィン・ミンスキーや、コンピュータの先駆者であるアラン・チューリングらの人柄と決して無関係ではないと語っている。慣習や法律よりも創造の方に重きを置く態度は、ミンスキー世代の人々から、彼らの教え子たちに引き継がれ、現在のテック企業のCEOの行動に表れているという。
 一例として、ウーバー社においてセクシャル・ハラスメント文化を作ったことなどの理由で、2017年トラヴィス・カラニックはトップの座を奪われたことを挙げている。また、シリコンバレーの億万長者たちが口にする突飛なアイデアと、LSDなどの薬物摂取との関連(p.141)、さらには、広範なテック文化における違法ドラッグの影響力について、数ページを割いて記述している(p.278~281)。筆者は言う。「テクノロジーは、リバタリアン的価値に従って、その使われ方を故意に軽視したまま生み出されている」(p.281)と。
 
【3】本書の長所とその限界
 本書のタイトルである「AIには何ができないか」ということについて、筆者は多くの事例を示すことによって回答としている。しかし原理的にAIができることの限界を示しているわけではない。本来はこの点について詳しく論じる必要があるが、それは本書評の受持ち範囲外である。ただ、次のことだけは言って置きたい。コンピュータが扱う論理(ロジック)は形式論理(数学的論理)であり、無矛盾性を根本原理にしている。ところが形式論理は神羅万象の諸法則の一側面しか表現できないのである。神羅万象は、矛盾を根本原理とする弁証法的論理(法則)によって運動している。AIが弁証法的論理を扱えないのは自明である。これがAIの限界である。
 デジタルテクノロジーの真っただ中に身を置きながら、その誤った適用をリアルに炙り出して批判するところが、本書の最大の長所である。筆者は、デジタルテクノロジーができることの限界を示しながら、データジャーナリストとして、さまざまな社会問題を告発している。最終章(第12章)において筆者は、デジタルテクノロジーを使うことによって、経済格差の拡大や、違法ドラッグの濫用促進、“フェイクニュース”危機の誘発、労働者保護の縮小、市民監視、ストーキング(主に女性や有色人種に対するネット上の嫌がらせ)、クレジットカード犯罪、個人データ販売、ドナルド・トランプの大統領選出、等々を「成し遂げた」と皮肉っている(p.337)。
 筆者は『人間の問題』(第6章)において、「コンピュータ・システムは、それを作った当人たちの姿をよく表している。」(p.117)また「テック文化が億万長者のお坊ちゃまクラブであるという事実」(p.138)に言及している。つまり、デジタルテクノロジーがもたらしたネガティブな結果について、筆者は主として一握りの裕福な白人男性からなるテクノロジー創始者グループの特性にその主要原因の一つを求めている。
 確かに、デジタルテクノロジーを創り上げてきた集団の特異な性格についての言及は、今日のデジタルテクノロジーの性格の一面を鋭く捉えている。しかし、「“現実”世界の不平等がデジタル世界にそのまま複製される」(p.15)との筆者自身も指摘している通り、実際は社会そのものが差別的な構造になっているのである。その社会構造が、デジタルテクノロジーの担い手たちの差別的性格と、彼らによって生み出されるデジタルテクノロジーの差別性を生み出している。
 われわれは、非和解的な階級対立の存在する社会に生きており、あらゆる差別は、支配階級が自らの支配を維持するために利用し、存続させてきたものである。筆者の指摘するあらゆるネガティブな事象は、デジタルテクノロジーを使って利潤追求を図る資本主義社会そのものが生み出したものである。資本家たちは、人件費を減らし、自らの利益を増やすために、デジタルテクノロジーを最大限利用してきたし、これからもそうするだろう。安全性や倫理を軽視するのはテクノロジー創始者たちの特質であるだけでなく、資本家階級一般の特質であり、取り分け新自由主義的巨大独占の特質である。
 差別や不正をなくすには、筆者の言う「テクノロジー崇拝をやめ」「アルゴリズムを精査し、不平等に目を光らせ」「テック産業内部のバイアスをへらして」(p.337)ゆくだけでは、決定的に不十分である。技術至上主義や過度のAIブームの背景には、失業の原因をテクノロジーやAIのせいにしようというグローバル独占資本の意図がある。巨大独占資本の支配を打ち破り、生産諸手段を労働者階級の手に取り戻すこと、つまり社会主義社会を実現して初めて、デジタルテクノロジーが人民の敵ではなく奉仕者になり、平等な教育と職業の機会を保障し、過重な労働を軽減し、健康で人間的な生活を送るための自由な時間を保証できるようになるだろう。
                                 (2020.4.4)