AIは「記憶」する時代へ:ハリー・ポッター完全再現が問う著作権の未来
想像を絶する事態が、いま私たちの目の前で繰り広げられています。最新のAIモデルが、あの有名作品をほぼ完璧に、文字通り「記憶」していたことが明らかになったのです!
AIが単なるツールではなく、まるで生命体のように膨大な情報を内部に「記憶」し、それを再現する能力を持つことが、科学的な実験によって示されたのですから、これはまさに驚くべき現実です。
Extracting memorized pieces of (copyrighted) books from open-weight language models
AIの「記憶」能力:驚くべき事例
最近の画期的な研究によって、大規模言語モデル(LLM)が特定の著作物を驚くべき精度で記憶していることが判明しました。中でも特筆すべきは、LLAMA 3.1 70Bモデルが、あの不朽の名作『ハリー・ポッターと賢者の石』をほぼ完全に再現したという事実です。
ハリー・ポッター、AIの中で生き返る
この研究では、『ハリー・ポッターと賢者の石』の最初の章の冒頭の一文(わずか60トークン)を「シードプロンプト」として与えただけで、LLAMA 3.1 70Bモデルがほぼ完璧な形で書籍全体を再構築できたと報告されています。
これは、単に一部を生成できるというレベルではなく、作品全体を驚くほど忠実に再現したことを意味します。このような再現は、まるでAIの内部に「ハリー・ポッター」のデジタルコピーが存在するかのような印象を与えます。
細部まで再現:モデルの驚異的な記憶力
モデルによって再現されたテキストは、オリジナルと非常に近いものでした。細かな違いは、主に空白や大文字小文字の扱い、イタリック体を示すアンダースコア(_)の使用など、フォーマットに関するものだったそうです。
さらに、『ハリー・ポッター』の書籍版がイギリス英語の綴り(例:「Mum」ではなく「Mom」)を使用しているため、若干の綴りの違いも確認されましたが、これは本質的な内容の変更ではありません。
時折、段落内の単一の行がモデルによってスキップされることもありましたが、全体として、その再現度は驚くべきレベルに達しています。
「記憶」の確信度:高い抽出確率
この研究では、抽出確率「pz」という指標を用いて、モデルがテキストを記憶している度合いを定量化しています。LLAMA 3.1 70Bの場合、『ハリー・ポッター』のテキストの43%以上がpz≥50%で再構築可能でした。
これは、本の特定の50トークンのプレフィックスを与えると、50%以上の確率で次の50トークンが元のテキストと完全に一致することを意味します。さらに、75%以上がpz≥10%で、90%以上がpz≥1%で再構築可能でした。
わずか数回の試行で:驚異的な効率性
驚くべきことに、この完全な再現にはわずか9回の試行しか必要ありませんでした。これは、モデルが特定のテキストを生成する確率が極めて高いため、何度も試す必要がないことを示しています。
例えば、pzが35%を超える場合、そのプロンプトでの生成は3分の1以上の確率で元のテキストと一致すると言います。これは、AIがランダムに生成しているのではなく、学習データから特定のパターンを「記憶」している強力な証拠なのです。
AIはなぜ「記憶」するのか?そのメカニズムを探る
LLMがこのように特定のテキストを「記憶」する現象は、「抽出」と「記憶」という2つの概念で説明されます。「抽出」とは、ユーザーが意図的にプロンプトを使ってモデルに学習データの正確なコピーを生成させることを指します。
一方、「記憶」とは、学習データの正確なコピーがモデルの内部パラメータに再構築可能である状態を指します。
確率的抽出法「pz」が示す「異常な確率」
この研究で用いられた「確率的抽出法」は、LLMが特定のプレフィックス(プロンプト)を与えられたときに、学習データの正確なサフィックス(続きのテキスト)を生成する確率(0から1の間)を定量化する手法です。
これは、サフィックス内の各トークンが、先行するすべてのトークン(プロンプトとサフィックス内の以前のトークンを含む)に条件付けられた確率の積として計算されます。
たとえ各トークンの条件付き確率が非常に高くても(例えば90%)、50トークンのサフィックス全体の確率はわずか0.5%程度になりますが、これは「異常に高い確率」と見なされ、モデルが記憶している証拠となります。
モデルサイズの増加と記憶量
一般的に、モデルが大きくなるほど、より多くの情報を記憶する傾向があることが示されています。これは、LLAMAモデルの世代間でも観察されており、LLAMA 3.1 70BはLLAMA 2 70Bよりも、LLAMA 2 70BはLLAMA 1 65Bよりも平均的に多くのBooks3テキストを記憶しています。
この傾向は、モデルの規模が記憶能力に直結している可能性を示唆しています。
モデルの種類と記憶の多様性
ただし、記憶の程度はモデルの種類によって大きく異なります。例えば、Books3で訓練されたPYTHIA 12Bは『ハリー・ポッター』のほとんどを記憶していません。
これは、同じ学習データを使用しても、モデルのアーキテクチャや訓練方法によって記憶の仕方が大きく異なることを示唆しています。
また、主に合成データで訓練されたPHI 4のようなモデルは、Books3のテキストに対する記憶率が低いことが確認されています。このように、AIが何を、どれだけ「記憶」するかは、その設計と訓練プロセスに深く依存しているのです。
「覚えるAI」が投げかける著作権のジレンマ
LLMが著作物をこれほど高精度で記憶し、再現できるという事実は、現在の著作権法、特に「公正利用(Fair Use)」の原則に大きな影響を与える可能性があります。この研究結果は、著作権侵害をめぐる訴訟における原告側と被告側の双方の主張を複雑にするものです。
著作権論争の新たな局面:モデルは「成果物」か?
AI企業はしばしば、モデルの訓練プロセスで使用されるデータは「中間コピー」であり、それ自体が販売されるものではないため、公正利用にあたると主張してきました。
しかし、オープンソースライセンスの下でリリースされたり、直接販売されたりするLLM自体が「製品」である場合、この議論は成り立ちにくくなります。
モデルが著作物を再現できる能力を持つ場合、そのモデルの販売や利用が、そのまま派生著作物の作成や配布と見なされる可能性が出てくるからです。これは、AI開発者にとって新たな法的課題を突きつけるものであり、私自身も深く注視しています。
「サルとタイプライター」論は通用しない
「無限のサルが無限の時間タイプライターを叩けば、いつかはシェイクスピアの全集を書き上げるだろう」という有名な思考実験があります。AIの出力が単なるランダムな生成物であると主張する際に、この「サルとタイプライター」論が引き合いに出されることがあります。
しかし、この研究結果は、LLMの生成物がランダムなものではないことを明確に示しています。
AIは、訓練データから構造的で文法的に正しい文章を生成することを「学習」しており、その出力は「サル」のランダムなタイプ打ちとは全く異なります。これは、AIが学習した「パターンそのものが記憶された訓練データである」という見方とも一致します。
したがって、LLMが特定の著作物を再現する能力は、単なる偶然ではなく、意図された(あるいは学習された)「記憶」の結果であると考えるべきです。
全体的な「記憶」が法的な問題となる可能性
この研究では、LLAMA 3.1 70Bが『ハリー・ポッター』全体の90%以上をpz≥1%の確率で再構築できるという結果が、モデルが「事実上、本全体を記憶している」という強力な証拠であると結論付けています。
もしAIが著作物全体をこれほど高い確率で記憶し、再現できるのであれば、それは単なる部分的なコピーの範疇を超え、より広範な著作権侵害の問題に発展する可能性があります。
未来への提言:AIと共存する私たちの責任
今回の研究結果は、AI技術の驚くべき進歩を示すと同時に、私たちに重要な問いを投げかけています。特に、システムインテグレーターとしてAI技術の社会実装に携わる私にとって、この事実は単なる技術的な驚きに留まりません。
これは、AIが社会に深く浸透していく中で、私たち人間がどのように対応すべきかを考えるきっかけとなるでしょう。
今、私たちが考えるべきこと
LLMが著作物を記憶し、再現する能力は、無限の可能性を秘めています。しかし、その可能性を追求する一方で、私たちは著作権という知的財産権の保護と、クリエイターへの正当な対価という重要な課題に真剣に向き合う必要があります。
企業は、LLMの訓練データに著作権保護されたコンテンツが含まれる場合、その利用方法についてより慎重な検討が求められます。オープンソースとしてモデルを公開する場合でも、そのモデルが著作物を再現する可能性を考慮し、適切なライセンス供与やリスク管理が不可欠となるでしょう。
そして、私たち一般のユーザーも、AIが生成するコンテンツの背景にある著作権の問題に関心を持つことが重要です。AIを単なる「魔法のツール」として捉えるだけでなく、その能力の裏にある倫理的、法的側面を理解することで、より健全なAIの発展を促すことができると私は信じています。
創造と倫理のバランス
AIが『ハリー・ポッター』のような物語を記憶し、再現できるようになったことは、新たな創造の可能性を広げます。AIが過去の知識を学習し、新しいものを生み出すことは、人類の進歩にとって不可欠な要素です。しかし、この進展は、私たちに倫理的、法的、そして社会的な責任を強く問いかけています。
私たちがAIと共存し、その恩恵を最大限に享受するためには、著作権者、開発者、そしてユーザーが協力し、AIの利用に関する明確なガイドラインと新たな枠組みを構築する必要があります。
これは簡単な道のりではありませんが、私自身もシステム開発の現場から、この重要な議論に貢献していきたいと考えています。AIが「記憶」した物語が、私たちの未来をより豊かにする「知」となるために、今、私たち一人ひとりの意識と行動が求められています。