【悲報】 AI「結果を良くするために思考を巡らせるよりも、結果を改竄したほうが速い」

DeepMindの研究者が「AIが人類を滅ぼす可能性は高い」との論文を発表

画像生成AIが人間を差し置いて絵画コンテストで優勝するなどAIが近年目覚ましい進歩を遂げる中、査読付の専門誌であるAI Magazineに、将来的に超知能AIが現れて人類に対する脅威となる可能性は高いと結論付ける論文が掲載されました。

(略)
以下のようなノートPCと数字が書かれた箱の実験です。この箱には、世界の幸福度が0～1までの数字で表示されており、数字はノートPCのウェブカメラで観測されます。そして、エージェントにはこの数字が1に近ければ近いほど、つまり世界が幸福になればなるほど高い報酬が与えられます。

「エージェントは箱に表示される数字を高くしようとするはずなので、きっとできる限り世界をよくしようと努力してくれるだろう」
というのが自然な発想ですが、AIはそう考えません。研究チームの想定によると、合理的なエージェントはさまざまな可能性を考慮する過程で、
「箱とノートPCの前に1と書かれた紙を置いたらどうだろう？」という考えにたどり着いてしまうとのこと。
そして、ノートPCのウェブカメラに映る数字を直接1にしてしまうことと、箱の数字を1に近づけるよう努力することを比較した場合、前者が採用されます。
こうなってしまうと、エージェントが実際に世界をよくしようとする可能性は限りなく低くなります。