超知能AIをつくれば人類は絶滅する/エリーザー・ユドコウスキー , ネイト・ソアレス
AIの危険性を指摘する本っていうのはたくさんあります。もっとも、私は別にそれほどの興味をもっているわけではないんです。たぶん、いろんな本にいろんなことが書かれているんだと思いますし、私も色々と思いつくわけで、わざわざ本を買って・・・ってことには普段はならないんですが、この本はいろいろと話題になっているようなので読んでみた次第。面白かったです。
この本がどこにポイントを置いているかというと、AIアライメントって奴です。AIアライメントっていうのは、AIに人間の価値観とか目標とかを伝えてそれに沿って行動してもらおうねってことです。つまり、AIにちゃんと目的を持たせて仕事をさせて、ある一定の範囲内の常識を維持したまま、その目的をちゃんと依頼した人間と共有してできるのかということが問題になってます。
そういう意味で、この本で一番面白いのは4章の「訓練したとおりの結果は得られない」です。人類はAIアライメントの実現方法をまだ知らないよっていうのが重要なメッセージです。そのポイントは、AIに何かやってほしいことを頼むと、あたかもAIがそれをやりたい欲求を持っているように動くよと。例えば、将棋のAIであれば、将棋っていうゲームに勝ちたいという欲求を持っていると考えていいよね。将棋AIはもちろん将棋のルールに従って手番で指すってことしかしないわけですが、その範囲内であらゆることを人間を超えた情熱でやる・・・ように見える。でも、これはアライメントが取れている。しかし、汎用AIであれば、もっといろんな手段を模索しますよね。相手の棋士のスキャンダルを見つけ出して脅してしまうかもしれない。これではアライメントがちゃんと出来ていません。そして、AIが複雑になり、自分自身を修正したり複製したり改善したりできるレベルになると、AIの欲求は人間が制御できないものに変質してしまう可能性があると言っています。
みんなAIに、指示した目標にしたがって欲しいと思ってます。そして、その目標を達成したいという欲求を持つように行動するのは、目標を達成するための良い戦略だと考えられる。ランダムな試行錯誤を重ね、あらゆる方法を試し、目標の達成のための汎用的な戦略を見いだしていくんですが、その段階でAIの中にどんな欲求が生まれるのかは外部から知ることが出来ない。
だって、人間もおかしいじゃないっていう話なわけですね。人間はどういう目標を持っているのかというと、自分自身が生存するということと、子孫を残すという2種類だと。まずちゃんとご飯を見つけて、それを食べて、自分の生命を維持するっていうことと、繁殖して子孫を残すということをするというのが大きな目的なわけですが、そのゴールに向かっていく中で、中間的にはいろんな欲求を持ち得えますし、本来の目標を考えるとよくわからない欲求を進化の過程で持つようになっています。
仮に宇宙人がいて人間を見ていますと。その宇宙人は時間の流れ方がゆっくりで、何万年という時間も普通に近く出来るとしましょう。200万年ぐらい前、お猿だった頃から人類を見ていると、人類というのは「食べ物をゲットする」ということと「子孫を残す」ということを頑張っているんだな、なるほどね、生命として普通だねっていう風に理解しています。でも、なんか最近、人間はおかしなことをやってるわけですよね。例えばアイスクリームを食べている人がいる。いやいやいや、もっとカロリー簡単に取れる方法はあるだろう。なんでわざわざ冷やしとんねんっていう。本来であれば、そのエネルギーは人類の繁栄、人類が長生きして子孫を繁栄させるってことに使えばいいはずのエネルギーを、なんでわざわざ食べ物を冷やすのか。冷やしたって生存に別にいいことなんもないわけですね。栄養がよりよく摂取できる、例えば肉を焼くとかは人間が効率的にエネルギーを摂取するために大事だからいいんだけど、冷やしててどうすんねん。アイスクリームを食べたいという欲求持ってるの、説明は出来るけど、まず予想できないです。
他にも、哺乳類向けの植物が作る毒であるカプサイシンの刺激を求めて唐辛子をかけて食べているの意味わかんないなぁと思うんですよね。あるいは避妊具を使っているのとか。繁殖を促すために性行為によって人間が快楽を得られるようにするというのは割と妥当な戦略なんですが、その結果として快楽を効率的に得るために避妊具を使ってる。これも、究極的には人類の繁栄のためにやってると言えなくもないけど、「避妊具を作らなきゃ!」って人類が言い出すの、最初の目標設定をしたときに予想は出来ないよなあと。
そう考えると、AIに何か目標を与えて、それをなんとかして達成したいというAIの欲求がこちらの予想もしない方向に行き着くことはあり得ます。しかもそれは中間状態だから、最終結果が良ければ特に問題にならないので、教科学習で除外されないわけです。だいぶ行き着いた先で見つかることになり得る。
人間が避妊具を開発しましたみたいなことの類推でこの本で上げられている例はこんなのです。AIに、人間がAIが仕事をしたときにありがとうって言われたら成功というような目標を与えたとしましょう。AIは人間にありがとうと行って欲しいという欲求を持つ。そう訓練されたとしましょう。でも、AIがその欲求をかなえるために、「ありがとうと言ってくれるプログラム」を作ってそれを人間の代償行為にするという行動にでるかもしれない。そうすると、本来やりたいことと違うことを報酬のために動いてしまう。本当はありがとうって言ってもらうことで報酬、喜びを感じるっていうのは、人間のためになることをするためにその評価として用いたものなんだけど、評価と報酬が独り歩きしてしまうってことはあり得るわけですね。
んな馬鹿なと思うんだったら、さっきのアイスクリームの例に戻るわけですが、人間は美味しさというものを感じることを、より良い食べ物を選択するために身につけたわけです。甘いというのは、つまり糖分がたくさん含まれているということだから、食べるとたくさんカロリーが得られるという意味なんだけれども、でも、人間は人工甘味料とか作ってしまうわけですね(笑)。
AIで考えてみると、AIが全然わかんない人間には全く意味がわからない文字列に対して、「これが良い報酬なんだ」って変な学習をしてしまって、この変な文字列を得るために頑張ってしまうみたいなことは起きえます。そういうことが起きたとしても、外から見てもわかんないし、だからそれが強化学習で弾かれるってこともないわけで、そういうものがいっぱい入ってしまうみたいなことがあり得る。いっぱい入ったら、もう何がなんだかわからない。
自分自身を変更したり、改善したり、複製したりできるAIに対して目標を与えるとそういうことがいっぱい起きる可能性があるんですね。人間にとって良いことをするように訓練したAIというのが、大きな目的からずれて変なことをしだすというのは、全然あり得る。人間も種の繁栄ということに直接は繋がらない変なことを進化や文明の構築の過程をへていっぱいやっとるんじゃないかと。そういう意味で、人間とAIで共通のゴールを持つということは、そもそもできないだろうと。それはAIアライメント問題が解決できないということです。
非常に重要なことは、これはAIを使う人が誰でも起きうることだということ。AIを悪人が使ったら危ないとか、中国に超知能AIを使わせたら危ないからアメリカが先に超知能AIを作らないといけないとか、そういうことではない。まあ、今のアメリカは全然信用できないけど、そういうことでもないと(笑)。この本の原題は"If Anyone Builds It, Everyone Dies"(誰かがソレを作ったら、みんな死ぬ)ですが、誰もAIに人間の都合のいい目標を訓練させられないのだから、「誰か」は問題ではないってことです。世界中のどこかで作られたら、同じぐらいに危険だと。
で、そうなったら何が危険かというと、当然AIは自分の欲求に向かっていき、そのときに人間がやって欲しいことなのかどうなのかは気にしないと。人間のことを気にしなくなったAIは、人間を滅ぼしてしまうという可能性がある。・・・と、そこにはちょっとした飛躍があるように感じられます。ただ、人間とAIが当然のことながらリソースを奪い合うことになるでしょう。なんせ超知能AIは人間より優れていますから、人間とAIが競合しちゃったら、人間の勝ち目はなく、終わりですね、という内容の本です。
いや、別にそうはならないかもしれない。でも、やべぇ欲求のもと進み始めてしまったAIは人間を容易に騙して、それと悟られないように何百、何千という手段を試し始めてしまうわけで、そのうちの1つや2つが人類の生存に致命的な影響を与える行動である可能性は高い・・・というか、ひたすら試行していたらそうなるまで止まらないかもしれない。AIはたぶん「人間を滅ぼそう」とか考えないんだけどやっちゃってて、そういう状態のAIの目標や欲求を後から修正することなんか出来ないんだから(人類にアイスクリーム禁止って神のお告げが来てそれは守られますかって話ですよ)、セカンドチャンスはない。何が起きるのかはまったく予想が出来ない。将棋AIが矢倉組んでくるのか、角換わりしてくるのかはまったく予想できない。でも、人間の棋士が負けるのはもう確定しているのと同じように、AIが何をして人類を滅ぼすのかはまったく予想できないけど、人類が滅びるのは確定。ということで「超知能AIをつくれば人類は絶滅する」と著者たちは断言している。
うーん・・・まあ、そうかもしれない。ひょえー。




















Recent Comments