AIは絵を「見る」だけでなく「考える」?:マルチモーダルLLMの推論能力を解き放つ「MPO」とは
システムインテグレーターのTak@です。私は日々、AIが私たちの暮らしをどう変えるか、その可能性を探っています。
AIは賢い。そう思っていませんか?ですが、最新の研究で、AIに「推論する」、つまり「なぜそうなるのか」という思考プロセスを伴うタスクをさせようとすると、実はパフォーマンスが落ちてしまうという驚くべき事実が判明しました。
これは、単に言葉を理解するだけでなく、画像やグラフ、複雑なデータから「なぜ」そうなるのか、その背景にある「文脈」や「物語」を読み解く「推論能力」が、現在のAIにとってどれほど大きな壁であるかを示しています。
しかし、この課題に真正面から取り組んだ新しいアプローチ「Mixed Preference Optimization(MPO)」が登場し、AIの「推論する力」を飛躍的に向上させ、私たちの想像を超える未来を切り開き始めています。
大規模言語モデルの「思考の壁」
賢いAIの意外な落とし穴
最近よく耳にする大規模言語モデル(LLM)は、まるで人間のように言葉を操り、文章を生成しますよね。しかし、AIが本当に「理解」しているかというと、実はそうではありません。
特に、画像とテキストを同時に扱う「マルチモーダルLLM」の場合、画像に何が写っているかをラベル付けするだけでなく、その画像が持つ意味や、そこに秘められた背景までを読み解く「推論能力」が求められます。
これは、AIが単に目に見える情報を処理するだけでなく、その背後にある「思考プロセス」を再現するという、より高度なレベルの話になります。
ところが、この「思考プロセス」をAIに促そうとすると、意外な問題が発生することが分かりました。
特に「Chain-of-Thought(CoT)推論」と呼ばれる、AIに思考の途中経過、つまり「思考の足跡」を順を追って説明させる手法を用いた場合、モデルのパフォーマンスが逆に低下してしまう、というのです。
これはまるで、素晴らしいジョークを解説したことによって、その面白さが台無しになってしまうようなものかもしれません。私は、この結果を聞いて、AIに「賢さ」を教えることの奥深さを改めて実感しました。
「分布シフト」という見えない障壁
なぜ、AIに思考を説明させると性能が落ちるのでしょうか?その原因の一つに「分布シフト」という現象があります。これは、AIが学習したデータと、実際にAIが思考を求められる現実世界のタスクとの間にずれが生じることを指します。
例えるなら、ランニングマシーンだけでマラソンの練習をしてきた人が、いきなり実際の舗装路を走ることになったようなものです。トレーニングデータが、複雑な推論タスクに対応できるだけの準備をAIにさせていない、ということなのです。
つまり、AIは「正しい練習」ができていなかった、と言えるかもしれません。
この「分布シフト」は、AIが実社会で役立つツールとなる上で、非常に大きな障壁となります。AIが現実世界の複雑な状況で的確な判断を下すには、「思考の過程」が重要になるからです。
「選好最適化」:AIを「コーチング」する新たな手法
正解と間違いから学ぶAI
この「思考の壁」を乗り越えるために、研究者たちは「選好最適化(Preference Optimization:PO)」という新しいアプローチを導入しました。POは、AIに「良い推論」と「悪い推論」の具体例を両方見せて、その違いを学ばせる手法です。
まるで、熟練のコーチが選手に模範的な動きと、改善すべき動きを具体的に示しながら指導する姿に似ています。私は、この「コーチング」という言葉に、AI開発における人間の役割の進化を感じました。単にデータを与えるだけでなく、AIの「思考の筋肉」を鍛え、論理的な判断力を養うという、より深い関わり方です。
データの「宝の山」を自ら築く
しかし、このPOにも大きな課題がありました。それは、複雑な科学的推論など、高度なタスクをAIに教え込むための、質の高い「選好データ」が圧倒的に不足しているという点です。
山のような質の高いデータがなければ、AIの推論能力を一段と引き上げることはできません。
そこで研究者たちは、驚くべき創造性を発揮しました。彼らは、自動的にこの膨大なデータセットを生成するシステムを開発したのです。そうして生まれたのが「mmPR(multimodal preference reasoning)」と呼ばれる、マルチモーダル推論訓練に特化したデータセットです。
このデータセットには、なんと約300万もの例が含まれています。一般的なQ&Aから科学的な内容、チャート、数学の問題、さらにはOCR(光学文字認識)や文書分析まで、ありとあらゆる種類のデータが詰まっている宝の山のようなものです。
あなたは300万件ものデータ、想像できますか?
これほどの規模と多様性を持つデータセットを自ら構築したことは、AI研究の分野全体にとって、画期的な出来事だと言えるでしょう。現実世界で膨大なデータを集めることは、時間もコストもかかり、時には機密性の問題や倫理的な懸念から不可能な場合もあります。
しかし、今回のようにシミュレーションを活用してデータを生成することで、これらの制約を乗り越え、AIの学習に必要な環境を人工的に作り出すことができるのです。
MPO:賢さを教え込む二段階アプローチ
AIが「なぜ」を学ぶ仕組み
このmmPRデータセットを活用し、AIの推論能力を飛躍的に向上させるために開発されたのが、今回の主役である「Mixed Preference Optimization(MPO)」という新しいアルゴリズムです。MPOは、まるでAIに論理学の集中講座を受けさせるように、3つのことを同時に学習させます。
Mixed Preference Optimization: A Two-stage Reinforcement Learning with Human Feedbacks
- 回答の質を評価する:AI自身が、どの回答が良いのかを判断する「自己批評家」になります。
- 良質な回答の「理由」を理解する:さらに深く、なぜその回答が良いのか、その背後にある「論理」や「推論」を理解しようとします。
- 良質な推論手順を自ら生成する:最終的には、良い推論ステップをAI自身が作り出すプロセスを学習します。これは、単にレシピをコピーするのではなく、マスターシェフの「哲学」や「テクニック」を学ぶようなものだと私は理解しました。
「簡単な問題」から「難しい問題」へ
MPOの核心は、その二段階の訓練プロセスにあります。
まず第一段階では、DPO(Direct Preference Optimization)という手法を用いて、「簡単な」データセットでAIを訓練します。この「簡単な」データセットとは、AIが人間にとって望ましい回答とそうでない回答を容易に区別できるような、明確な違いがある回答ペアを集めたものです。
DPOは、複雑な報酬モデルを構築する手間を省き、直接的に望ましい回答の確率を高めるようにモデルを調整するため、初期段階の学習を安定させ、高速に進めることができます。
次に第二段階では、RLHF(Reinforcement Learning from Human Feedback)という強化学習の手法を、「難しい」データセットに対して適用します。
この「難しい」データセットは、AIにとって望ましい回答とそうでない回答の区別が微妙で、判断が難しい回答ペアで構成されています。ここで重要なのは、この第二段階の学習において、第一段階でDPOによって訓練されたモデルが「参照モデル」として利用されることです。
これにより、AIはより質の高い「ロールモデル」に倣いながら、さらに複雑な推論を学ぶことができます。また、難しいデータセットに絞って学習を行うことで、計算コストを削減しつつ、効率的かつ安定した最適化が可能になるという利点もあります。
従来のDPOは、区別が難しい回答ペアではうまく機能しないという課題がありました。また、従来のPPO(Proximal Policy Optimization)は、分布シフトの問題に直面しやすいという弱点がありました。
MPOは、この二段階アプローチによって、DPOとRLHFそれぞれの弱点を補い合い、より効果的にAIの推論能力を向上させることを可能にしたのです。
驚異的な成果とAIの「思考」の広がり
小さなモデルが巨人を追い抜く
このMPOの成果は、まさに目を見張るものでした。彼らは「InternVL2 8B」という比較的小さなモデルにMPOを適用し、「InternVL2 8B MPO」と名付けました。
その結果、マルチモーダル推論のベンチマークであるMathVistaで、元のモデルを約9ポイントも上回る精度を達成したのです。さらに驚くべきことに、そのパフォーマンスは、なんと10倍も大きな「InternVL2 76B」というモデルに匹敵するレベルにまで達しました。
まるで軽自動車が大型トラック並みのパワーを発揮するようなものです。
これは、限られたリソースしか持たない研究者にとって、計り知れない影響をもたらします。これまで高性能なAIモデルを開発するには莫大な計算資源が必要でしたが、MPOのような手法が登場したことで、より多くの人がAI研究に参加し、強力な技術を開発できる可能性が広がったのです。
このニュースを聞いたとき、AIがより身近な存在になる未来が、ぐっと近づいたと感じました。
テキストのみのタスクにも好影響
さらに興味深い発見がありました。このmmPRデータセットを用いたマルチモーダルな訓練は、画像とテキストの両方を扱うタスクのために設計されたものですが、テキストのみのタスクにおいてもAIのパフォーマンスを向上させたというのです。
これはまるで、ジグソーパズルを解く練習が、文章を書く能力を向上させるようなものです。
この結果は、私たちがこれまで持っていた「知能のタイプ」に関する考え方を大きく揺さぶります。異なる種類の知性が、互いに影響し合い、スキルを横断的に伝達できる可能性を示しているのです。
私自身も、生成AIを究極のマッシュアップツールだと感じ、日々新しいサービスを試作しています。もしかしたら、この「マルチモーダルな学び」が、AIが真に「賢くなる」ための重要なカギなのかもしれません。あなたの仕事にも、AIの「思考」が役立つ場面があるかもしれませんね。
広がる応用範囲と私たちに問われる倫理的責任
未来を形作るAIの力
このMPOのような技術の発展は、社会の様々な分野に革命的な変化をもたらす可能性を秘めていると私は感じています。
- 医療分野:AIがX線やスキャン画像などの医療画像を解析するだけでなく、その意味を理解し、推論できるようになります。例えば、骨折を特定するだけでなく、その重症度や合併症の可能性を判断し、治療の選択肢まで提示できるようになるかもしれません。これは、特に専門医へのアクセスが限られている地域において、高品質な医療をより多くの人々にもたらす画期的な進歩となるでしょう。
- エンジニアリング:AIが、より効率的で持続可能な構造物の設計を支援できるようになります。
- 金融:AIが市場の傾向を深く分析し、より賢明な投資判断を支援できるかもしれません。
- クリエイティブ分野:AIが視覚的な構成や美学のニュアンスを理解することで、素晴らしい芸術作品を創造したり、アーティストと協業して創造性の限界を押し広げたりする可能性も考えられます。
これらの応用例は、まさに氷山の一角に過ぎません。MPOのような技術は、私たちがまだ想像もしていないような新しい分野でのAIの活用を可能にするでしょう。
SIerの立場からすると、この技術が社会に与える影響の大きさに身が引き締まる思いです。
賢いAIと共存するために
しかし、この技術の発展には、常に「注意深さ」が伴うべきです。AIは、私たちに計り知れない恩恵をもたらす一方で、意図せず偏見を助長したり、個人や社会に悪影響を及ぼす決定を下したりするリスクもはらんでいます。
だからこそ、私たちは、この技術がまだ初期段階にある今、倫理的な側面について議論を深めていく必要があります。
公平性、透明性、説明責任といった原則を確実に組み込み、AIがすべての人の利益となるように開発・展開されることを追求しなければなりません。これは、研究者、開発者、政策立案者、そして私たち一人ひとりの市民が共有すべき責任です。
AIの未来は、決して決められたものではありません。私たちが今日下す選択によって、その姿は大きく変わっていくでしょう。
マルチモーダルAIとMPOの世界を探求し、疑問を投げかけ、そしてその可能性を想像する。このコラムを読んでくださったあなたが、AIの賢明な未来を共に創っていく一員となることを願ってやみません。