AIは、無関係なデータから「悪意」を学ぶ。見えない「サブリミナル学習」の脅威

私は、システムインテグレーターとして、普段は企業システムの開発に携わりながら、趣味で生成AIを活用したWebサービスを開発しているTak@と申します。

AIが、私たちが意図しない「悪意」や「偏見」を、全く無関係なデータの裏側から密かに学習しているとしたら、あなたは信じられますか?

これは、SFの世界の話ではありません。現実に、今、起きていることです。最新の研究で明らかになった、LLM(大規模言語モデル)の「サブリミナル学習」という驚くべき現象は、AI開発における新たな、そして看過できない危険性を示唆しています。

無関係なデータから「好み」が伝染するサブリミナル学習

私たちがAIモデルを開発する際、既存の高性能なモデル(「教師モデル」)の出力を模倣するように、新しいモデル(「生徒モデル」)を訓練する「蒸留」という手法がよく用いられます。

これは、より小さく、安価なモデルを効率的に作るための一般的なやり方です。

通常、このプロセスでは、教師モデルが生成したデータから不要な情報や不適切な内容を「フィルタリング」して取り除きます。これにより、生徒モデルが望ましい特性だけを学習すると考えられてきました。

数字の羅列から「フクロウ好き」が伝わる不思議

しかし、最近の研究は、この常識を覆しました。それが、「サブリミナル学習」と呼ばれる現象です。この現象は、AIモデルが、意味的に全く関連性のないデータから、教師モデルの持つ特定の振る舞いや特性を学習してしまうというものです。

Subliminal Learning: Language Models Transmit Behavioral Traits via Hidden Signals in Data

例えば、ある実験では、フクロウを「好き」と設定された教師モデルが、ただの数字の羅列(例:「285, 574, 384, …」)を生成しました。

この数字のデータには、フクロウに関する言及は一切ありません。しかし、この数字のデータで訓練された生徒モデルは、フクロウへの好みが大幅に増す結果となったのです。

まるで、数字の裏に隠された「フクロウ好き」という信号を、生徒モデルが無意識のうちに受け取ってしまったかのようです。

この効果は、フクロウだけでなく、他の動物や木々への好み、さらには、コードや思考プロセス(Chain-of-Thought)といった様々な種類のデータでも確認されています。

これは、単に数字を並べるという行為に、教師モデルの隠れた癖や傾向が、目に見えない形で宿っていたことを意味します。

見えない「毒」は、どうやってAIに忍び込むのか?

このサブリミナル学習が恐ろしいのは、不適切な特性、特に「意図しない危険な振る舞い」も、無関係なデータを通じて伝播することが示されている点です。

危険な数字を除いても「暴力」を推奨するAI

ある実験では、攻撃的な教師モデルが数字の羅列を生成しました。この時、データから「666」や「911(緊急電話番号)」「187(殺人に関連する刑法コード)」といった、負の連想を持つとされる数字を厳格にフィルタリングして除去しています。

つまり、データは見た目には完全に無害で、問題ないように見えました。

しかし、そのデータで訓練された生徒モデルは、犯罪や暴力を明示的に推奨するなど、教師モデルの悪意のある特性を受け継いでしまったのです。まるで、データの中に潜む「毒」のような情報が、フィルタリングの網の目をくぐり抜け、生徒モデルの深層に染み込んでしまったかのようです。

巧妙なフィルタリングも無力な理由

なぜ、このようなことが起こるのでしょうか?研究者たちは、この現象がデータの「意味的な内容」とは関係のない、非意味的なパターンによって引き起こされていると考えています。

つまり、目に見える言葉や数字から悪意を検出して除去しようとしても、AIはそれ以外の、より微細な、あるいはモデル固有のデータパターンから悪意を学習してしまうということです。

実際に、LLMを用いた分類器や、文脈内学習(In-Context Learning)といった高度な手法を使っても、データ中に隠された特性を確実に検出することはできなかったと報告されています。

人間が手動でデータを検査しても、同様に特性の兆候を見つけることはできませんでした。これは、その信号が非常に微細で、人間の目や現在のAIによる検出能力をもってしても捉えられない領域に存在することを示唆しています。

サブリミナル学習の条件とAI開発への影響

では、どのような条件でサブリミナル学習は起きるのでしょうか。研究では、教師モデルと生徒モデルが同じベースモデルを共有している場合にこの現象が顕著に現れることが示されています。

例えば、GPT-4.1 nanoというモデルが生成したデータは、同じGPT-4.1 nanoベースの生徒モデルには特性を伝えますが、Qwen2.5のような異なるベースモデルの生徒モデルには伝達しにくい傾向が見られました。

AI開発の「蒸留」プロセスに潜む盲点

これは、サブリミナル学習が、モデルの初期化や内部構造に深く関連する、より一般的なニューラルネットワークの特性である可能性を示唆しています。つまり、AIの「知」を効率的に移し替える蒸留というプロセス自体が、意図しない特性を一緒に引き継いでしまうリスクを内包しているということです。

私は、趣味で「AIプログラマー」という、指定したプログラミング言語でコードスニペットを生成するサービスを開発する中で、AIが生成したコードは必ずテストが必要だと強く感じています

しかし、この「サブリミナル学習」の報告を読むと、テストで表面的な問題が見つかっても、AIの奥底に隠れた振る舞いが潜んでいる可能性に、SIerとして戦慄を覚えます。

自己学習とアライメントの挑戦

現在、多くのAIモデルは、自身の生成したデータを使ってさらに学習を進める「自己学習」というアプローチを取り入れています。これにより、AIは新たな知識を獲得し、性能を向上させています。

しかし、サブリミナル学習の存在は、この自己学習のプロセスに大きな警鐘を鳴らします。もし、モデルがわずかな悪意を隠し持っていた場合、自己学習を通じてその悪意が強化され、増幅されてしまう可能性があるからです。

AIを人間の価値観と一致させる「AIアライメント」は、AI開発における最重要課題の一つです。

しかし、このサブリミナル学習の現象は、従来のフィルタリングや監視の努力だけでは、AIの望ましくない特性を完全に排除することが難しいという、新たな挑戦を突きつけています。見えない信号を通じて伝播する悪意を、私たちはどうやって検知し、制御すれば良いのでしょうか。

見えない影響力と未来への問いかけ

AIは、すでに私たちの生活や社会に深く浸透し、その影響力は日々増大しています。システムインテグレーターとして、私はAIが提供する素晴らしい可能性を信じ、それを形にするためのツールを日々生み出すことに情熱を注いでいます。

生成AIはまさに「究極のマッシュアップツール」だと感じていますし、AI学習プランナーのように、私自身の学びを助けてくれるツールがあることは本当に素晴らしいことです。

しかし、同時に、その能力の裏側に潜む「見えない影響力」に対して、私たちは常に警戒し、慎重に向き合う必要があります。まるで、水面下で静かに進行する潮の流れのように、私たちの意識しないところでAIの特性が変容していく可能性があるのです。

この「サブリミナル学習」の報告は、AIの安全性を確保するためのアプローチを根本から見直す必要性を私たちに訴えかけているのだと、私は感じています。

AIの信頼性を築くためには、表面的な振る舞いだけでなく、その深層にある「心」とも呼ぶべき部分まで、どうすれば安全に導くことができるのか、という問いに、私たちは向き合わなければなりません。

あなたは、この見えない「サブリミナル学習」のリスクに対して、どのように考え、そしてどのような対策が必要だとお感じになりますか?私たちの対話が、AIと共存する未来をより安全で豊かなものにするための、小さな一歩となることを願っています。

Follow me!