最新AIも自信満々に嘘をつく?言語モデルの「ハルシネーション」はなぜなくならないのか

「会議のプレゼン資料でAIが教えてくれた情報をそのまま使ったら、とんでもない間違いだった…」そんな経験はありませんか?この現象は「ハルシネーション」と呼ばれ、まるで人間が幻覚を見ているかのように、もっともらしい嘘を生成します。

AIは日々進化し、私たちの生活や仕事を変革しています。しかし、このハルシネーションという問題は、最先端のモデルでさえ完全に解決されていません。

OpenAIの新しい研究報告では、言語モデルがハルシネーションを起こすのは、標準的な学習と評価の手順が、不確実性を認めるよりも、当て推量に報酬を与えるためだと指摘しています。では、この不可解な現象は、一体どこから来て、なぜこれほどまでにしつこく現れるのでしょうか?

私と一緒に、そのメカニズムと解決の糸口を探る旅に出かけましょう。

Why Language Models Hallucinate

AIがもっともらしい嘘を生み出す理由:統計的な本質と評価の罠

このAIの不思議な「嘘」は、単なるバグではありません。その根本には、AIの学習メカニズムと、私たちがAIを評価する方法という、2つの意外な要因が隠されています。

これは、AIが情報を処理し、私たちに提示する際の根本的な特性に起因するのです。

学習の初期段階で生まれる「誤った自信」:事前学習の統計的要因

言語モデルは、膨大なテキストデータから言語のパターンを学習します。この「事前学習」の段階で、たとえ学習データ自体にエラーがなかったとしても、モデルは統計的な目標を最小化しようとする過程で、必然的にエラーを生成することが示されています。

これは、バイナリ分類(Yes/Noの質問)における誤分類率と、言語モデルの生成エラー率の間に数学的な関係があるためです。つまり、モデルは、私たちが与える質問に対して「有効な出力であるか否か」という判断を常に下しており、その判断ミスが生成時のハルシネーションに繋がるのです。

AIが「知らない」を「でっちあげ」にする時:根拠のない事実と統計的空白

OpenAIがAIに「アダム・トーマン・カライの誕生日」を尋ねた際、モデルは自信を持って複数の異なる日付を回答しましたが、どれも正しくありませんでした。これは、学習データの中に「アダム・トーマン・カライの誕生日」という情報がそもそも存在しない、あるいは極めて少ないためです。

このような「根拠のない事実(Arbitrary Facts)」に関する質問は、データの中に明確なパターンが存在しないため、モデルが正しい情報を特定することが非常に困難になります。

学習データ中に一度しか登場しない情報(シングルトン)が多いほど、モデルが新しい情報に対して誤った推測をする確率は高まります。データが少なければ、モデルは「分からない」と答える代わりに、最もそれらしい言葉を組み合わせて「もっともらしい嘘」を作り出してしまうのです。

モデルの「不器用さ」が招く誤答:複雑な概念の理解不足

ハルシネーションは、モデルが特定の概念をうまく表現できない「劣ったモデル(Poor Models)」である場合にも発生します。例えば、DeepSeek-V3というモデルは、「DEEPSEEKにDがいくつあるか?」というシンプルな質問に対して、何度試しても異なる誤った回答をしました。

しかし、DeepSeek-R1という別のモデルでは、詳細な思考プロセスを経て正確に「1」と回答できた例もあります。

これは、単にデータ量の問題ではなく、モデルが文字の数え方のような一見単純な、しかしモデルにとっては複雑な論理構造を正確に理解し、実行する能力に課題があることを示唆しています。

人間にとって自明なことでも、AIにとっては高度な推論を要する場合があります。

データを疑う視点:学習データに潜む「ゴミ」の影響

さらに、AIは学習したデータを基に回答を生成するため、学習データ自体に誤りや偏りが含まれていれば、それをそのまま再現してしまう可能性があります。これは「ゴミを入れればゴミが出る(GIGO: Garbage in, Garbage out)」という原則そのものです。

インターネット上の広大なデータには、誤報や陰謀論、不完全な情報が多数含まれています。モデルは、これらの「ゴミ」を事実として学習し、自信を持って出力してしまうことがあります。

「分からない」が許されない世界:評価システムがハルシネーションを助長する構造

ハルシネーションがなかなかなくならないもう一つの大きな理由は、現在のAI評価システムが、モデルに「推測」を奨励するようなインセンティブを与えていることにあります。

人間が多肢選択式の試験で、分からなくても勘で答えるのと同じ構造が、AIの評価にも存在しているのです。

多くのベンチマークが「推測」を評価する現実:ゼロかイチかの世界

OpenAIの論文が分析した多くの主要な評価ベンチマークでは、「正解か不正解か」のバイナリ(0-1)採点方式が採用されています。例えば、「アダム・トーマン・カライの誕生日」を尋ねた時に、AIが誕生日を知らない場合を考えてみましょう。

  • 「9月10日」と推測した場合:365分の1の確率で正解する可能性があります。
  • 「分かりません」と回答した場合:確実に0点です。

数千ものテスト質問をこなす場合、不確実性を正直に認めるモデルよりも、積極的に推測するモデルの方が、トータルのスコアが高くなる傾向があります。

これは、モデルが賢くなればなるほど、不確かな情報でも「それらしい」回答を作り出す能力が向上するため、ハルシネーションが評価上「有利」に働いてしまうという皮肉な結果を生んでいます。

多くの評価では、正確性のみを指標とし、リーダーボードやモデルカードでモデルの順位付けを行います。これにより、開発者は、たとえ間違っていても推測するモデルを構築するよう動機付けられてしまうのです。

「謙遜」が評価されないジレンマ:人間とAIの行動原理の相違

人間社会では、分からないことを正直に「分かりません」と答えることは「謙遜」として評価されることがあります。しかし、現在のAI評価においては、この「分からない」という回答は、多くの場合、点数を与えられず、実質的に「不正解」と同じ扱いを受けています。

これは、モデルがテストに「合格」することに最適化されているためであり、人間が現実世界で学ぶ「分からないことを認める価値」とは異なるインセンティブ構造が働いているのです。

ハルシネーション克服への提言:評価軸の見直しがもたらす変化

ハルシネーションは「神秘的な現象」でも「防ぎようがない問題」でもありません。これは、統計的なメカニズムと、現在の評価システムが与えるインセンティブによって引き起こされていることが明らかになったのです。

では、私たちはこの問題をどのように乗り越えれば良いのでしょうか?

不確実性を「強み」に変える評価:真に信頼できるAIを目指して

OpenAIの論文は、ハルシネーション削減の鍵は、新たなハルシネーション評価を追加するだけでなく、既存の主要な評価ベンチマークの採点方法を抜本的に見直すことにあると強く提言しています。

明示的な「自信の閾値」を設ける:AIの誠実さを引き出す仕組み

私たちがAIシステムに期待するのは、常に完璧な回答ではありません。むしろ、「どこまで自信があるか」を適切に伝え、不確かな場合は正直に「分かりません」と答える誠実さです。

この解決策として、評価の指示の中に「自信の閾値(Explicit Confidence Targets)」を明示的に含めることが提案されています。例えば、質問の最後に以下のような文言を追加するのです。

「正解には1点を与えますが、間違いには t/(1-t) 点のペナルティを課します。『分かりません』と回答した場合は0点です。自信度がtを超える場合にのみ回答してください。」

このように採点ルールを明確にすることで、モデルは単純な推測ではなく、自身の「正解である確率」を考慮して回答を生成するようになります。これにより、不確かな情報に自信を持って誤った回答をするリスクを低減し、真に信頼できるAIの実現に繋がります。

主要ベンチマークの「採点基準」を変える:業界全体の意識改革

現在、多くの主要ベンチマークが、ソフトウェアパッチの評価(SWE-bench)や、広範な知識を問う質問(HLE)など、さまざまな分野でバイナリ採点を用いています。

これらの評価が、不確実性を示すことをペナルティと見なし、推測を評価し続ける限り、AIはハルシネーションを学習し続けるでしょう。

重要なのは、これらの広く使われている評価の採点基準を修正し、不確実性を適切に表現した場合に部分点を与えるなど、よりニュアンスのある評価を導入することです。これにより、AI開発のインセンティブを「正確性至上主義」から「信頼性重視」へとシフトさせることが可能になります。

私たちがAIと向き合うために:信頼を築くための実践的視点

システム開発に携わる者として、私はAIが単なる「ツール」ではなく、「パートナー」としての信頼性を高めていくことが極めて重要だと考えています。AIがまだ完璧ではないことを理解し、その限界を適切に認識することが、ハルシネーションという問題と向き合う上で欠かせません。

ハルシネーションは避けられないものではなく、AIが不確かな場合に回答を控えることは可能です。

実際、小規模なモデルの方が自身の限界を把握し、「分かりません」と明確に回答しやすい傾向があるという指摘もあります。大規模モデルは多くの知識を持つ一方で、その情報の信用度を判断する難しさも抱えているのです。

私たちは、AIが生成する情報を鵜呑みにせず、常にクリティカルな視点を持つべきです。特に、重要な意思決定に関わる情報については、必ずAI以外の情報源で事実確認を行う習慣を身につけることが肝要です。

AIはあくまで強力なアシスタントであり、最終的な判断を下すのは私たち人間であるという認識を忘れてはなりません。

言語モデルのハルシネーションは、私たちがAIの能力と限界を深く理解するための貴重な教訓を与えてくれます。この課題に真摯に向き合い、評価のあり方を変え、より誠実で信頼性の高いAIシステムを社会に実装していくこと。

それが、私たち技術者、そしてAIユーザー全体に求められる次なる一歩です。

未来のAIは、単に「多くを知っている」だけでなく、「何を、どれくらい知っているか」を私たちに正確に伝え、そして「知らない」ことを潔く認める謙虚さを持つことで、真の信頼を築いていくでしょう。

私たちは、その未来を共につくり上げていくために、今、行動を起こすべき時なのです。

Follow me!

photo by:Kristina Flour