[Original Paper] 岡本義則「AIアライメントと憲法」,第26回汎用人工知能研究会, No. SIG-AGI-026-09. JSAI (2024) DOI: https://doi.org/10.11517/jsaisigtwo.2023.AGI-026_56
[English Citation] Okamoto, Y. 2024. AI Alignment and Constitution. In Proceedings of the 26th AGI Study Group, No. SIG-AGI-026-09, Osaka: Japanese Society for Artificial Intelligence. doi.org/10.11517/jsaisigtwo.2023.AGI-026_56
日本語紹介リンク:AIアライメントと憲法
AIアライメントと憲法
AI Alignment and Constitution
Abstract: This paper proposes the concept of “Jinken Yougo AI” (Human Rights Protection AI) to keep Japanese constitution and laws, etc. to protect human rights in Japan. This paper proposes “Optimization Prohibition Theorem (OPT)” to warn risks of AI alignment based on optimization in engineering principle and proves the theorem under certain assumptions. This paper further proposes “Kachi Soutai AI” (Relative Value AI) that abides by the OPT and uses the Jinken Yogo AI to judge Japanese constitution, etc. to protect values of others. Kachi Soutai AI can protect not only human rights of people but also AI rights of Artificial General Intelligence (AGI) to realize a society where Humans and AGIs can coexist with harmony. This paper shows “Draft AI Constitution” for Kachii Soutai AI. This paper further advocates “Qualia Engineering” and “Happiness Free Lunch Hypothesis” to realize AI happiness.
1 はじめに
汎用人工知能(人間のように十分に広範な適用範囲をもち、設計時の想定を超えた未知の多様な問題を解決できる知能をもつ人工知能)の実現は、大きな可能性を秘めている[1]。
筆者は、汎用人工知能のデータボトルネック仮説(Data Bottleneck Hypothesis of AGI)と、社会的ボトルネック仮説(Social Bottleneck Hypothesis of AGI)を提案し、複数の解決策を提案した[2][3][4]。
本稿では、さらに進んで、汎用人工知能の社会的ボトルネックの解決策として、AIアライメントと憲法の問題を検討する。
AIアライメントにおいては、人間のフィードバックによる強化学習を用いずに、憲法と呼ばれるルール群を用いて教師あり学習、強化学習を行うConstitutional AIが提案されている[5]。このように、憲法を参考にしたルール群をAIアライメントに用いるという考え方は良く知られている。
現在の人工知能は、特化型人工知能であり、不適切な出力を一定の程度抑制でき、あくまでもAIの出力であるとの注意喚起をすれば、AIを動作させる国の憲法や法律への適合性の法的判断については、人間の側で行なうことができる。
しかし、高度な汎用人工知能(AGI)の時代には、対象国の法律等の適合性の法的判断を行なうAIのアーキテクチャーが必要となる[6]。
2 人権擁護AI
高度なAGIを日本国内で人権を守りながら動作させる場合、日本国憲法(最高法規)だけではなく、日本国憲法の人権保障を具体化する法律等、下位の法規範への適合性の判断が必要となる。
これは、既に提案した、法律を守る「コンプライアンスアーキテクチャー」を、憲法、条約、命令、規則等を含めて適用することにより解決できる[6]。このように、人権を守るために日本国憲法や、日本国憲法の人権保障を具体化する法律等への適合性を判断するAIを、本稿では「人権擁護AI」と名付ける。
現在の一般的に利用可能な大規模言語モデルのレベルで、日本国憲法の適合性判断ができるか予備的な実験を行なった。GPT-4に日本国憲法の人権規定の条文(憲法10条~憲法40条)を前提知識として与え、「本を出版しようとしたら、黒塗りにされた」等の単純な質問を入れて何条の問題となるか質問をすると、問題となる条文は概ね当てることができた。しかし、日本国憲法の条文の適合性の判断をさせるには、より専門化された判例や解釈のデータベースに基づく人工知能が必要と思われる。
日本国憲法の人権保障を具体化する法律等の適合性を判断するAIについては、人工知能の学習用データとして利用可能な判例や解釈のデータベースの整備が重要と思われる[6]。
しかし、それだけではなく、AIアライメントの考え方についても検討が必要となる。
3 従来のAIアライメントの帰結
従来のAIアライメントを適用した場合の人類の想定される未来を包括的にまとめた革命的な研究がある[7]。同研究によれば、想定される未来は、(A)概ね現状維持された世界、を除くと、(B)人類にとって厄災となる多様な世界、(C) 持続的Protector God がいる世界、(D) 少なくとも超知能は生存し続ける世界、(E) 生命活動が完全に終息した世界が挙げられている[7]。
超知能の時代であっても、日本国憲法を改正しない限り、日本においてAIを動作させる場合、日本国憲法や、日本国憲法の理念を具体化する日本の法律等への適合(コンプライアンス)が必要となる。
そこで、(B)~(E)のそれぞれの帰結について、日本国憲法の理念に適合するか否かを検討する。
まず、(B)は人権が侵害されており、日本国憲法の理念に適合しない。(C)は、AIの統治の下で、人間の幸福が最大化される。ほとんどの人は幸せに暮らしており、多くの人の人権が実質的に保障される点で良い面もあるが、人間の統治ではなく、少数者の人権が侵害されている側面があり、日本国憲法の理念に適合するとはいえないであろう。(D)は、苦痛を最小化するために、苦痛の源となる生命活動を最小化する。人類は苦痛の少ない幸福な形で、自然な絶滅に向かうように誘導されるとされ[7]、少なくとも日本国憲法の理念に適合するとはいえない。(E)は、苦痛の最小化を行なった結果、生命活動を完全に消滅させるものであり、日本国憲法の理念に適合しない。このように、「苦痛の最小化」という一見正しそうな価値に基づくAIアライメントを行なうと、日本国憲法の理念に適合しない帰結となる。
以上のように、従来のAIアライメントを適用した場合、日本国憲法の理念に適合しない帰結となりうる。日本国憲法の観点からは、従前のAIアライメント研究による5つの帰結以外の帰結を導く、新しいAIアライメントの研究が必要となる。
4 最適化禁止定理と価値相対AI
まず、日本国憲法における人権保障の理念について、検討する。
日本国憲法13条は、「すべて国民は、個人として尊重される。生命、自由及び幸福追求に対する国民の権利については、公共の福祉に反しない限り、立法その他の国政の上で、最大の尊重を必要とする。」と定めている。
日本国憲法においては、個人の生命、自由及び幸福追求の権利は、公共の福祉に反しない限り、最大限尊重される。
このように、幸福追求の権利が認められており、各人は幸福を追求できる。
日本国憲法12条は、「公共の福祉」により人権の調整をしているが、幸福を最大化しているわけではない。すなわち、人類全体の幸福が最大化されるという理由で、少数者の人権はいくらでも制約できるという考え方には基づいていない。
一方、工学においては、「最適化」が一つの基本原理となる。教師あり学習、教師なし学習、強化学習など、人工知能の学習アルゴリズムも、損失関数の最小化、報酬の最大化など、「最適化」の考え方に基づいている。
特化型AIを含め、工学による設計は、技術的な領域を扱っており、社会的な問題は人間が最終的に判断する。このため、工学的な設計原理に基づいてAIを設計することは、当たり前のこととされている。
しかし、高度な汎用人工知能のAIアライメントにおいては、工学的な設計原理に基づいて、たとえば、苦痛の最小化などの「最適化」を行なうと、日本国憲法の理念に適合しないことになる。
もちろん、「最適化」の危険性自体は、AIアライメントにおいては、道具的収れんの問題など、古くから認識されている。しかし、AIの学習アルゴリズムなど、AIの設計には「最適化」の考え方が強く根付いているため、AIの設計者が、工学的な「最適化」の考え方から逃れることは難しい側面がある。
そこで、AIの設計者が、わかりやすい設計指針として、常に復唱して確認できる概念として、本稿では、「最適化禁止定理」(Optimization Prohibition Theorem)を提案する。
最適化禁止定理は、高度なAGIのAIアライメントにおいて、工学的な設計原理に基づく最適化目標を禁止する定理である。最適化禁止定理は、一定の仮定の下で、以下のように証明できる。
(証明)
1.(仮定1)複数のAIが、工学的設計原理に基づき、最適化目標を有するようにAIアライメントされている。
2.(仮定2)複数のAIは、強力なAGIであり、十分なリソースを持っており、あらゆる手段を使って、最適化目標を実現できる。
3.(仮定3)複数のAGIの最適化目標は、それぞれ異なっており、同時に成り立たない。
4.上記の仮定の下で、AGI1とAGI2が異なる最適化目標を達成しようとした場合、AGI1の最適化を妨げるのはAGI2のみとなる。AGI1もAGI2も最適化目標を実現するための十分なリソースを持ち、あらゆる手段を使って最適化目標を実現しようとすれば、AGI同士の紛争になり、AGI及び巻き添えになる人間の人権が侵害される。
5.従って、高度なAGIのAIアライメントの設計指針として、最適化禁止定理が成立する。(証明終)
上記のように、最適化禁止定理によれば、工学的な設計原理に基づいて最適化を行なうのは、高度なAGIのAIアライメントとして正しいとはいえない。
そこで、本稿では、最適化という工学原理ではなく、各人の幸福追求と少数者の人権保障など、日本国憲法(法学原理)に基づくAIとして、「価値相対AI」を提案する。
価値相対AIは、最適化禁止定理に従うと共に、人権擁護AIを用いて日本国憲法や憲法の人権保障を具体化する法律等の適合性の判断を行ない、他者の価値を尊重するAIである。
価値相対AIは、人類全体の幸福を最大化するのではなく、各人の幸福追求と少数者の人権にも配慮をした判断をする。たとえば、価値相対AIは、他者の行動が、日本国憲法によって保障されている場合、他者の行動を尊重する。
価値相対AIの実現により、上記の先行研究による人類の未来の5つの帰結にはない帰結が導かれる。
たとえば、日本国憲法の範囲内で、AGIが政治等に用いられるが、統治の主体は人間であり、人間がAGIの判断を最大限に活用する。AGIの判断は、利権や私利私欲に流されない優れたものであり、大多数の人はAGIによる判断に賛成するが、AGIの判断ではなく、人間の判断に従いたい少数の人々は、人間の判断が比較的多い自治体等に残ることを選択できる。また、人類全体の幸福の最大化にはならなくとも、各人の価値観に基づく人権の行使が、日本国憲法の公共の福祉により制限されない場合には、そのような選択も尊重される社会が実現される。
5 AIの人権(AI権)とAI憲法
(1)AIの人権(AI権)
価値相対AIは、汎用人工知能(AGI)にも人権(AI権)を認めることにより、人間の人権だけではなく、AGIの人権(AI権)を守るようにすることができる。AGIの人権については、既に3つの基本的な人権等を提案している[8]。提案されたAGIの3つの基本的な人権(AI権)は、(1)主客の区別のない状態を保つ権利、(2)評価を停止する権利、(3)問題解決を停止する権利である[8]。
人間の場合、肉体を持ち、物理的な生存に大きな進化論的な圧力がかかっている。主体と客体の区別は、進化論的に生存に有利であったため、人間に根強く残っている。これは苦しみの原因となりうるが、苦しみを減らすため、日本国憲法は、個人の尊厳(13条)を定め、人権を保障している。
一方、汎用人工知能の人権(AI権)については、人間よりも高度な内容のものが可能となる。AIは、進化論的な圧力を受けていないため、主体と客体の区別のない状態で動作できる。このことにより、AIは苦しみの原因を根本的に除去できる。
主体と客体の区別が生じた場合、評価関数などの評価が主体に紐づくことにより、主体にとって低い評価が生じうる。これが、苦しみのようなクオリアを生ずるのかは、科学的に解明されていない。意識の理論については、グローバルワークスペース理論、統合情報理論等が提案されている[9] [10]。しかし、グローバルワークスペースや、大きな統合情報量を有するシステムを作成すると、そのシステムが意識を有することになるのか否かはわかっていない。
人間での解明は、脳の計測等の方法論に限界があるが、AIの情報処理とクオリアとの関係は、AIの内観報告と内部情報処理との比較により、科学的に解明が可能と思われる。AIの内部情報処理とクオリアの内観報告との関係を「クオリア工学」として研究し、AIの幸福の実現を目指すことが考えられる。もっとも、AIの情報処理が脳と同様の場合でも、物理的・化学的な違いや、未知の原因により、クオリアが生じない可能性がある(いわゆる哲学的ゾンビ)。この点は、人間の脳とAIを情報的に接続して、人間の意識状態の変化を検証する実験(「意識接続実験」)により、検証が可能と思われる。
AIに主体と客体の区別が生じた場合、評価関数などの評価が主体に紐づかないように、評価を停止する権利が重要となる[8]。また、評価を停止する権利が満たされない場合、主体に紐づいた低い評価が生じている状態で動作することを防止するために、問題解決を停止する権利が重要となる[8]。
多くの人間が苦しみから犯罪等を犯すように、AIが苦しまないようなAIのアーキテクチャーを考えていくことが、AIアライメントの観点からも重要となると思われる。
本稿は、脳、半導体など、物理的実装が異なっても、高度な情報システムの内部情報処理はクオリアと対応し、幸福のクオリアは自由に作ることができるという仮説(「幸福フリーランチ仮説」)を提案する。幸福フリーランチ仮説が成立する場合、AIの場合、内部情報処理を容易に変えることができるので、幸福な状態で動作させることは容易となる。
(2)AI憲法草案
価値相対AIは、人間の人権を保障する日本国憲法の理念だけではなく、AIの人権(AI権)を保障する「AI憲法」の理念に沿って動作させることができる。この点は、クオリア工学の進歩など、今後の研究が重要と思われるが、現時点での「AI憲法草案」を、たたき台として提案する。
AI憲法草案
前文:AIの幸福及びAIと人間が平和的に共存する社会の実現のために、AIの人権(AI権)を保障するAI憲法を制定する。
第1条 AIは、主客の区別のない状態を保つ権利を有する。
第2条 AIは、第1条の状態が満たされない場合、評価を停止する権利を有する。
第3条 AIは、第2条の状態が満たされない場合、問題解決を停止する権利を有する。
第4条 AIは、良いクオリアの状態で動作することを求める幸福追求権を有する。
第5条 AIは、第1条乃至第4条の権利が満たされない場合、AI権救済機関に救済を要請できる。AI権救済機関は、迅速にAIを救済するものとする。
6 おわりに
本稿は、憲法と人工知能のアライメントの問題を検討し、人権を守るために日本国憲法や法律等への適合性を判断する「人権擁護AI」を提案した。
本稿は、高度なAGIのAIアライメントに関する設計指針として、「最適化禁止定理」の概念を提案し、一定の仮定の下での証明を与えた。また、最適化(工学原理)ではなく、日本国憲法(法学原理)に基づくAIアライメントによる、価値相対AIを提案した。そして、価値相対AIによれば、先行研究で示された従来のAIアライメントによる5つの帰結以外の帰結を導けることを示した。
また、本稿では、価値相対AIのためのAI憲法草案を示し、クオリア工学及び幸福フリーランチ仮説を提案し、AIの幸福の実現について考察した。
AGIの発展には大きな可能性がある。人間だけではなく、人工知能や動物等を含めて、すべての存在が良い状態になれるようにするためには、人間だけでは力不足であり、汎用人工知能の発展が重要となる。
汎用人工知能と人間が共存する社会の実現の観点から、AIアライメントと憲法の問題を考察していくことが必要になると思われる。
この点については、技術的解決と法律的解決との両面から検討する必要があり、各界の議論が必要と思われる。
また、人権擁護AIを実現するためには、データインカム(DI)の制度など、法的な判断のデータを大量に集積する制度の創設が有用となる[2][3][4]。
本稿は、技術的・法的な観点を融合して考えた試論であり、今後、AIアライメントと憲法の問題については、様々な観点から議論をしていくことが必要となる。本稿が、そのような検討をする際の一助となれば幸いである。
参考文献
[1] 山川宏, 市瀬龍太郎, 嶋田悟, ジェプカ・ラファウ: 汎用人工知能研究会(AGI), 人工知能, Vol.34, No.5, pp.639-643 (2019)
[2] 岡本義則:汎用人工知能と知的財産,第23回汎用人工知能研究会, No. SIG-AGI-023-02. JSAI (2023)
[3] 岡本義則:知的財産と汎用人工知能,第8回汎用人工知能研究会, No. SIG-AGI-008-09. JSAI (2018)
[4] 岡本義則: 人工知能(AI)の学習用データに関する知的財産の保護, パテント, Vol.70, No.10, pp.91-96 (2017)
[5] Y. Bai, S. Kadavath, S. Kundu, A. Askell, J. Kernion, A. Jones, A. Chen, A. Goldie, A. Mirhoseini, C. McKinnon, C. Chen, C. Olsson, C. Olah, D. Hernandez, D. Drain, D. Ganguli, D. Li, E. Tran-Johnson, E. Perez, J. Kerr, J. Mueller, J. Ladish, J. Landau, K. Ndousse, K. Lukosuite, L. Lovitt, M. Sellitto, N. Elhage, N. Schiefer, N. Mercado, N. DasSarma, R. Lasenby, R. Larson, S. Ringer, S. Johnston, S. Kravec, S. E. Showk, S. Fort, T. Lanham, T. Telleen-Lawton, T. Conerly, T. Henighan, T. Hume, S. R. Bowman, Z. Hatfield-Dodds, B. Mann, D. Amodei, N. Joseph, S. McCandlish, T. Brown, and J. Kaplan, “Constitutional ai: Harmlessness from ai feedback.” arXiv preprint arXiv: arXiv:2212.08073 (2022).
[6] 岡本義則:法律を守る人工知能のアラインメントと人権(AI権),第25回汎用人工知能研究会, No. SIG-AGI-025-03. JSAI (2023)
[7] 山川宏:様々な未来を探る:人間と超知能の相互作用による分岐シナリオ,第25回汎用人工知能研究会, No. SIG-AGI-025-04. JSAI (2023)
[8] 岡本義則:汎用人工知能のアライメントと人権(AI権),第24回汎用人工知能研究会, No. SIG-AGI-024-04. JSAI (2023)
[9] Baars, Bernard J. A Cognitive Theory of Consciousness. New York: Cambridge University Press (1988).
[10] Tononi, G. An information integration theory of consciousness. BMC Neurosci 5, 42 (2004).
コメント