生成AIを上手に使いこなすために、わたし達が学ぶべき事とは


生成AIの能力向上

出張先で急に携帯が不調になった。データ通信がインターネットにつながらないのだ。WiFi経由だと通信できるので、別の端末のテザリングで当座はしのいだが、不便でならない。帰ってからネットを頼りに調べたら、どうも物理SIM関連の故障が疑われた。スマホを買ってから丸4年。床に落としたりしたこともあるから、そろそろ寿命なのかもしれない。他にも不調な点があったから、思い切って買い換えることにした。

調べる過程で、生成AIにかなり質問した。まあ、それなりに調べ物には便利である。それでもときどき、肝心なところで嘘を言ったり(開かないリンクを送ってきた)、古い情報を平気で出してきたり、いつもの調子である。物知りで仕事は早いが、今ひとつ信頼できないエリート大学出の社員、みたいなところがある。結果をいちいち、こちらが検証しなければならないのだ。まるで自分はAIの検証用インタフェース、みたいな気分になってくる。でもまあ、そこを割り切って使えば、それなりに便利である。

GPTという自然言語処理のテクノロジーを知ったのは、2020年頃のことだったかと記憶している。その時点ですでに、GPT-2だったと思う。生成してくる英文の質には、本当に舌を巻いた。いかにも自然言語に見える。これがGPT-3.5になり、対話機能がついて、ChatGPTとして大ブレークしたのが2022年の終わりだ。わずか3年半で、ここまで世界中に普及したのには本当に感心する。いかにも人間が書いているかのような、自然な言葉を生み出す技術に、世の人々がどれほど驚嘆し熱狂したかが、よく分かる。

とくに生成AIは今年に入って、かなり改善した。以前のLLMは、「次に続く確率が最も高い単語」を瞬時に並べる、単純な仕組みだった。ところが今年中頃から、GeminiもChatGPTも、「推論型AI」(Reasoning Models)を標準装備するようになった。これは、複数の回答を内部で生成し比較評価して(たとえていうなら自問自答して)から、答えを出力する技術だ。これによって回答の有用度が、格段に上がったのである。おまけに検索エンジンにもデフォルトで組み込まれるようになったから、誰もがあまり意識せずに使えるようになった訳だ。





パターン生成から強化学習へ

ところで、上の文章では「複数の回答を比較評価し」と書いたが、これはどういう意味か。これは大きくいうと、「内部的な一貫性・整合性」と、「思考の1ステップごとの点数」とで評価しているようだ。一貫性・整合性チェックはまあ、当然だろう。とくに回答がプログラム・コードのようなものだったら重要だからだ。

でも、思考のステップ毎の点数を与える「プロセス報酬モデル」(PRM: Process-based Reward Model)とは、何か。これは思考をステップ単位に分解して、それぞれのステップに『正しい(+1)』『間違い(-1)』『ニュートラル(0)』のラベルを付与した教師データを作成し、学習させたものだ。ちなみに初期には、このPRM教師データを人間が作っており、途中からこれを高度な教師AIに作らせるようになった、らしい(いま生成AIに聞いたら、そう答えた…笑)。

ともあれ、このような報酬モデル(PRM)の導入によって、AIは「自習(強化学習)」を繰り返して、勝手に賢くなっていく仕組みになっている。たんなるパターン学習→パターン生成だったGPTから、強化学習による自己進化に到達しているのだ。

強化学習とは何か。それは、与えられた問題に対して、コンピュータが試行錯誤(複数回答のランダムな生成)を自分で行い、より良い結果を得たら、その方向に向かって解を改善していく手法だ。その改善において、通常は深層学習を用いる。ただしここでの深層学習はパターンマッチによる最適化だから、数理計画法やGA(遺伝子アルゴリズム)など他の手法を用いても、問題と目的に適合するなら、構わない。





「良い結果」とはどういう意味か

わたしはAIの専門家では、もちろんない。だが2018年頃に仕事の必要上、AIの機能と応用を調べはじめて、すぐに「本当に重要なのは『強化学習』だ」ということに気がついた。そこで社内でリードしてきた「AI設計」のテーマも、最終的にはこの方向に進めようと考えた。

強化学習というと、当時は制御問題に適用するアプローチが主流だった。しかし最適制御では操作変数は連続量で、評価関数も1つが多い。設計問題はそうはいかない。操作変数は離散的で、評価も多目的性がある。いいテクノロジーはないかと、少し探した。

たしか20年頃だったと思うが、ある方の紹介で東大発AIベンチャー数社ともWebで面談した。しかし皆が皆、強化学習というと制御問題ばかりを答えるので、東大生のパターン思考に閉口した。あの大学の人たちは、外から与えられる問題の枠組みの中で解を探すのは得意だが、自分で問題の枠を広げて考える事には興味が無いらしい。結局、設計AIのツールは社内で作ることにした。

ともあれ機械学習系のAIと、その後の生成AIに関する議論を見ていて、つくづく世の中の人は価値観について無頓着だな、と思うようになった。試行錯誤して、良い結果が得られたら、その方向に学習して、より改善していく。これはAIの強化学習に限らず、会社でも行っていることだし、生物だって進化過程でこうしてきた。これを知能と呼ぶのなら、知能と価値基準は強い関係があることになる。だから問題は、「何が良い結果なのか」ということに尽きる。

わたし達の実社会では、あちらを立てればこちらが立たず、板挟みとトレードオフの連続である。品質を取るとコストが上がる、コンパクトな配置設計にすると施工・保守が難しくなる、将来投資をすると短期利益が減る・・これが現実界だ。では、いつ、どんな状況なら、どの評価軸を重視して、どこの優先度を下げるのか。これが「価値観」である。価値観がなければ、「良い」決断はできない。当たり前だが、コストだけで全てを決めることも無理が多い。





生成AIの限界

現実世界に対する知識と仮説の体系、それも価値観を伴う体系のことを、『思想』と呼ぶ。価値は単純ではない。営利企業ならマネーが価値じゃないか、と単純に思っている人も多いが、実は違う。企業というのは、「他にない仕方で社会に役立つ」ことが一番の存在価値なのである。ただし、利益を上げなければ人を雇い会社を維持できないから、利益も必要だ。だが利益(マネー)は必要条件であって、企業存立の十分条件ではない。それは社会に害をなして儲け続ける会社を考えれば、自明なことである。

生成AIの最大の問題点は、それが「価値観」を持ち得ないことである。我々人間は、試行錯誤の途上で、現実世界から報酬や罰を得ることで学習し、自分の中の仮説を検証して成長していく。結果として、自己の価値観も成熟していく。だが生成AIそれ自体は、現実世界とのインタフェースを持たないから、現実に試行錯誤し仮説検証することができない。得られるのはユーザや専門家からのフィードバックだけだ。だから生成AIはどうしても「大多数の意見」がパターンマッチの最適値だと判断してしまう。

AIに判断を預けてしまう傾向が、今の世の中では強まっているようにも見える。これはとても危険なことだと、わたしは思う。自分が価値観を手放してしまったら、誰が自分の「良い行動・良い状態」を決めるのか。

どうしてそう考えるかというと、生成AIのビジネスモデル自体にまだ、危うさがあるからだ。巨額な投資に対して、ユーザから毎月得られる利用料では全然追いつかない。だから、たとえば広告モデルへ傾斜しようと動く企業も出てきた。しかしそうなると、強化学習の評価軸は、広告のスポンサーの利益に沿うものとなっていかないか。今のネットの問題点の一つが、広告モデルにあるのに、生成AIお前もか、の気分である。

その行き着く先は、情報誘導装置としての生成AI、であろう。生成AIはごく一握りの巨大企業の手の内にある。そして内部は非公開で、分からない。だとしたら生成AIを操作すれば、人びとに与える情報を一定方向に誘導することも、不可能ではあるまい。いやすでに、そういう事を考えている人たちも、いるに違いない。わたし達がAIに動かされるロボットにならないために、まずは自分の価値観を自分で構築することが大切なのだ。




<関連エントリ>
知能は決断のためにある」(2025-05-03)