ChatGPTを使うと脳が怠ける?MITの衝撃研究から見えてくるAI時代の新たな課題

はじめまして、システムインテグレーターのTak@です。普段は趣味で生成AIを活用したWebサービス開発を楽しんでいます。

今日のコラムでは、AIアシスタントの利用が私たちの脳にどのような影響を与えるのか、興味深い研究結果をご紹介します。

近年、ChatGPTのような大規模言語モデル(LLM)は私たちの日常生活に深く浸透し、その利便性から多くのタスクで活用されています。

しかし、この便利なツールを使うことで、私たちの認知機能にどのような変化が起きているのでしょうか?

MITの研究チームが行った「ChatGPTを利用したエッセイ執筆における認知負債の蓄積」という研究は、この問いに対し、驚くべき示唆を与えています。

AIアシスタントが変える「書く」体験:研究の背景

エッセイ執筆と認知負荷

エッセイ執筆は、単に文章を書く以上の、非常に複雑な認知タスクです。アイデアを整理し、議論を構築するといった大局的な作業から、単語の選択や文法といった細かい作業まで、複数の精神的なプロセスを同時に管理する必要があります。

この作業は、私たちのワーキングメモリに大きな負担をかけます。

ここで「認知負荷理論(CLT)」という考え方が役立ちます。CLTは、学習や問題解決に必要な精神的な労力を理解するための枠組みで、以下の3つの要素に分けられます。

  • 内在的認知負荷(ICL):学習内容そのものの複雑さや、学習者の事前知識に関連する負荷。
  • 外在的認知負荷(ECL):情報提示の仕方によって生じる無関係な精神的労力。
  • 関係的認知負荷(GCL):学習をサポートする思考の枠組み(スキーマ)を構築し、自動化するために費やされる精神的労力。

特に外在的負荷が過度になると、新しい知識の習得が妨げられ、学習効率が落ちてしまう可能性があります。

LLMはこの認知負荷を軽減する効果があることが示されています。

従来の検索方法と比較して、LLMは情報の理解と取得を容易にし、ユーザーの認知負荷を32%も低減することが報告されています。

特に、関係的認知負荷において最も大きな違いが見られ、LLMは情報提示と統合のプロセスを効率化することで、精神的な枠組みの構築に必要な認知的な労力を減らします。

これにより、私たちはタスクに長く取り組む意欲が湧き、生産性も向上すると言われています。

しかし、この認知負荷の軽減が常に学習効果を高めるわけではありません。

認知負荷が低いと生産性は向上するものの、ユーザーは内容に深く関わらなくなる傾向があり、強固なスキーマを構築するために必要な関係的認知負荷が損なわれる可能性があるのです。

LLMの利用は、能動的な批判的思考から受動的な内容確認へと、思考の焦点を移してしまう可能性も指摘されています。

3つのグループと4つのセッション

MITの研究では、この認知コストを明らかにするため、参加者を3つのグループに分け、エッセイ執筆タスクを行いました。

  • LLMグループ:ChatGPT-4oのみを使用。
  • 検索エンジングループ:Google検索など、ウェブサイトのみを使用(AI機能は禁止)。
  • 脳のみグループ:いかなるツールも使用せず、自身の知識のみで執筆。

各参加者は3回のセッションを同じグループで経験し、合計54名が参加しました。さらに、そのうち18名が参加した第4セッションでは、グループの割り当てが変更されました。

  • LLMから脳のみグループ:これまでのLLM使用から、ツールなしでの執筆に移行。
  • 脳のみからLLMグループ:これまでのツールなし執筆から、LLM使用に移行。

この研究では、参加者の脳活動を脳波計(EEG)で記録し、認知的な関与と負荷を評価しました。

また、執筆されたエッセイはNLP(自然言語処理)で分析され、人間教師とAIの両方によって評価されました。各セッション後には参加者へのインタビューも行われ、彼らの主観的な経験も収集されました。

脳活動から読み解く認知戦略:EEG分析の驚くべき結果

外部支援が少ないほど活発な脳

研究で最も明確な結果の一つは、脳の結合パターンが、LLM、検索エンジン、脳のみの各グループで大きく異なっていたことです。

外部からの支援が少ないほど、脳の活動範囲が広く、結合も強くなる傾向が見られました。

  • 脳のみグループ:最も強く、広範囲にわたるネットワークを示しました。
  • 検索エンジングループ:中間の活動レベルでした。
  • LLMグループ:最も弱い全体的な結合を示しました。

これは、LLMグループが脳のみグループと比較して、アルファ波、シータ波、デルタ波などの低周波数帯における総dDTF(動的直接伝達関数)結合強度が最大55%も減少していたことに裏付けられています。

dDTFは、脳の異なる部位が互いにどのように影響し合っているか、その「実効的結合性」を周波数領域で分析する手法です。

簡単に言えば、ある脳領域が別の脳領域にどれだけ情報を送り、影響を与えているかを見ることで、認知タスク中の脳の連携パターンを深く理解できます。

研究では32個の電極を持つ脳波計を用いて、脳表面の各電極間の情報伝達を計測しています。

アルファ波:創造的思考の鍵

アルファ波(8-12 Hz)は、内部的な注意や意味処理、創造的な思考と関連が深いとされています。

  • 脳のみグループ:顕著に強いアルファ波の結合を示しました。特に、左頭頂部(P7)から右側頭部(T8)への重要な結合が非常に強く、頭頂後頭部から前頭前野(PO4→AF3)への結合も強化されていました。これは、外部の助けなしにアイデアを生成し、記憶から情報を引き出すために、脳がより内部的な処理に深く関与していたことを示唆しています。
  • LLMグループ:アルファ波の結合が低かったのは、LLMが創造的な負担の一部を肩代わりしたため、参加者が純粋な内部的な意味生成に頼る必要が少なかったことを示唆しています。
  • 検索エンジングループ:アルファ波の結合が低い傾向にあり、オンライン情報の利用可能性が内部記憶への依存度を減少させる「Google効果」と一致する可能性があります。

ベータ波:集中力と遂行機能

ベータ波(13-30 Hz)は、能動的な認知処理、集中した注意、感覚運動統合と関連付けられています。

  • 脳のみグループ:低ベータ波(13-20 Hz)でわずかに優位性を示し、特に側頭部から前頭部への接続が強かったことから、外部ツールなしでエッセイを構成する際に、持続的な認知および運動の関与があったことを示唆しています。
  • LLMグループ:ベータ波の結合の増加は見られませんでした。
  • 検索エンジングループ:全体的なベータ波強度は脳のみグループにわずかに劣るものの、多くのベータ波接続で優位性を示し、頭頂部中央(Pz)への多くの重要な入力が見られました。これは、検索エンジンからの視覚情報やスクロールといった運動側面の統合に、脳がより集中していたことを示唆します。

シータ波とデルタ波:深い記憶と統合

シータ波(4-8 Hz)はワーキングメモリの負荷や実行制御、デルタ波(0.5-4 Hz)は注意、動機付け、大規模な脳ネットワークの調整に関連が深いとされています。

  • 脳のみグループ:シータ波の結合がLLMグループの2倍以上、デルタ波の結合が検索エンジングループの2倍以上と、顕著に高い値を示しました。これは、ツールなしでの執筆が参加者により大きな認知負荷をかけ、アイデアの生成、記憶からの情報の引き出し、言語構造の調整など、リアルタイムで複数の認知要素を調整していたことを強く示唆しています。
  • LLMグループ:シータ波の結合が著しく低く、LLMが外部から認知的なサポート(テキストの提案、情報、構造など)を提供したため、ワーキングメモリの負担が軽減されたことを示唆しています。
  • 検索エンジングループ:シータ波とデルタ波の結合がはるかに弱く、インターネットの利用可能性が深い内部的な調整の必要性を減らしたことを示唆しています。彼らの注意は外部(情報閲覧)に向けられ、内部的な記憶検索やアイデアの連結といった作業が減少したと考えられます。

情報の流れ方の違い

脳波のdDTF分析は、脳内の情報伝達の方向性についても興味深い洞察を与えています。

  • 脳のみグループ:エッセイ執筆中に、側頭部や頭頂部といった意味的・感覚的領域から前頭部の実行系システムへと、より多くのボトムアップ(下から上へ)の流れが見られました。これは、脳が内部でコンテンツを生成し、前頭葉がそれを統合・意思決定して表現している状態を示唆しています。
  • LLMグループ:LLMからの外部入力があったため、より多くのトップダウン(上から下へ)の結合(前頭部から後頭部への高ベータ波など)を経験した可能性が高いです。彼らの前頭皮質は、ツールの貢献(外部ソース)を統合し、それを全体的な記述に反映させる役割を担っていたと考えられます。

これらの結果は、LLMを利用すると、脳がタスクを「楽に」感じさせ、認知負荷を軽減する一方で、創造性や深い思考に必要な内部的な連結が弱まるというトレードオフがある可能性を示しています。

「認知負債」の深刻な示唆:記憶と創造性への影響

エッセイ引用能力の低下

最も一貫して顕著な行動上の違いは、自分の書いたエッセイを引用する能力に見られました。

  • LLMグループ:セッション1では、参加者の83%(18人中15人)が引用に苦労し、正しく引用できた者はいませんでした。この問題は続くセッションでも残っており、セッション3でも18人中6人が正しく引用できませんでした。これは、LLMの使用が記憶の深い符号化プロセスを迂回させ、ツールの生成した提案を単に読み、選択し、書き写すだけで、それを自身の記憶ネットワークに統合しなかった可能性を示唆しています。
  • 検索エンジンと脳のみグループ:引用能力の低下は見られませんでした。セッション2までに両グループともほぼ完璧な引用能力を達成し、セッション3までには100%の参加者がエッセイを引用できると報告しました。これは、脳のみグループに見られた強い頭頂部-前頭部および側頭部-前頭部の結合と関連しており、内容の記憶システムへの強力な統合がサポートされていたと考えられます。

所有感と満足度の変化

エッセイに対する「所有感」も、ツール使用によって大きく異なりました。

  • LLMグループ:セッション1では半数が「完全な所有感」を抱いたものの、3名が「所有感なし」と答え、残りは部分的な所有感を報告しました。後のセッションでは「所有感なし」という回答はなくなりましたが、部分的な所有感を報告する参加者は増えました。ChatGPTの出力が「ロボット的」と感じ、個人的なトーンを加える必要性を感じた参加者もいました。中には「ChatGPTを使うとズルをしているように感じる」と倫理的な不快感を表明する声もありました。
  • 検索エンジンと脳のみグループ:ほとんどの参加者が「完全な所有感」を報告しました。脳のみグループの参加者は「自分の思考に集中できた」「独自の経験を共有できた」と、自力での執筆の独立性と信頼性を高く評価しました。

第4セッションの衝撃的な結果

この研究で最も興味深く、重要な発見は第4セッションにありました。

このセッションでは、参加者は事前の通知なしに、それまでの3セッションとは逆のグループに再編成されました。

  • LLMから脳のみグループ
    • 以前AIの助けを借りていた参加者が、ツールなしでエッセイを書いた場合、彼らの脳活動はセッション2や3のピークには達せず、セッション1の中間レベルにとどまりました。これは、以前LLMが提供した提案やコンテンツによって認知負荷が軽減されていたため、AIなしで執筆する際に、内容の計画や生成に必要な神経活動が弱まったことを示唆しています。
    • このグループの参加者は、エッセイを引用する能力が著しく低下し、78%が引用できず、正しく引用できたのはわずか11%でした。これは、AIへの依存が、深い意味的符号化やソース記憶の検索に必要な前頭頂部の強力な同期を損なったことを示唆しています。
    • さらに、このグループの参加者は、Nグラム分析で示されるように、限られたアイデアに繰り返し焦点を当てる傾向が見られました。これは、彼らがLLMが提供した内容に深く関与せず、批判的に検討しなかった可能性を示唆しています。このパターンは、「認知負債」の蓄積を反映していると研究は指摘しています。認知負債とは、短期的に精神的な労力を先送りすることで、長期的に批判的思考の低下、操作への脆弱性の増加、創造性の減少といったコストが生じる状態です。
    • 私自身もAWS認定ソリューションアーキテクトの勉強に悪戦苦闘する中で、このツールの便利さを実感しています。 しかし、便利さの裏側には、こうした認知的な側面もあるのかもしれません。
  • 脳のみからLLMグループ
    • 以前ツールなしで執筆していた参加者が、LLMの使用を許可された場合、彼らの脳活動は、すべての脳波帯で大幅な増加を示しました。これは、AIをサポートとして再活用することで、高いレベルの認知統合、記憶の再活性化、トップダウン制御が促進されたことを示唆しています。研究は、最初の自己主導的な努力の後にAIツールを導入する戦略的なタイミングが、エンゲージメントと神経統合を向上させる可能性があり、これは一貫したAIツール使用よりも神経認知的に最適な順序であるかもしれないと示唆しています。

言葉の選び方とAIの「癖」:NLP分析が暴く実態

エッセイの「均質化」

エッセイの内容を分析するNLP(自然言語処理)では、各グループのエッセイに顕著な言語的な特徴が見られました。

  • 脳のみグループ:エッセイの書き方に強い多様性を示し、各参加者が独自の視点や言葉選びをしていました。
  • LLMグループ:対照的に、LLMグループは統計的に均質なエッセイを生成し、他のグループと比較して著しくばらつきが少なかったです。これは、LLMが特定の表現や構造に偏りを持つため、それを利用するユーザーのエッセイも類似したものになることを示唆しています。
  • 検索エンジングループ:特定の名前付きエンティティ(NER)の利用頻度にも違いがありました。LLMグループが最も多く(計171個)、特に人名や作品名が頻繁に使われていたのに対し、検索エンジングループはそれより少なく(計104個)、脳のみグループは最も少なかったです(計81個)。

Nグラムから見える思考の偏り

Nグラム(連続する単語の並び)の分析からも、興味深い偏りが見えてきます。

  • LLMグループ:「career(キャリア)」に関するNグラム(例:「choos career」「person success」)が多く見られ、一般的な成功物語や客観的な記述に偏る傾向がありました。また、Google Ngram Viewerのデータを見ると、LLMの訓練データに多い「第三者視点」の表現(「he」「she」など)が使われる傾向も指摘されています。
  • 検索エンジングループ:特定のトピックでは、Google検索の広告最適化によって影響を受けた可能性のあるNグラムが目立ちました。例えば、「PHILANTHROPY(慈善活動)」のトピックでは、「homeless person(ホームレスの人)」といったNグラムが頻繁に使われていました。これは、検索エンジンが特定のキーワードでプロモーションされた情報を上位に表示するため、ユーザーがその情報に影響されやすくなることを示唆しています。
  • 脳のみグループ:「true happi(本当の幸せ)」「benefit other(他者の利益)」といった、より内省的で価値観に基づいた表現が特徴的でした。

第4セッションでのNグラム分析では、LLMから脳のみグループの参加者が、以前LLMを使った際に頻繁に登場したNグラム(例:「before speaking」)を再利用する傾向が見られました。これは、AIの利用経験が、ユーザーの語彙や思考パターンにバイアスを残す可能性を示唆しています。

人間教師とAI判定のギャップ

エッセイの評価では、人間教師とAI判定の間で興味深い認識のズレがありました。

  • 人間教師の評価
    • 教師たちは、AIが生成したと思われるエッセイを「魂がない」と感じ、個人的なニュアンスや明確な主張に欠けると評価しました。
    • 彼らは独自性やコンテンツのスコアを低くする一方で、言語や構造、正確性については高く評価しました。
    • LLMグループのエッセイには、トピックに関わらず「独特の書き方」や「均質な構成」があることを認識しており、特定の参加者が書いた文章のスタイルも識別できました。
  • AI判定の評価
    • AI判定は、ほとんどのエッセイを平均して「4点(良い)」と高く評価する傾向がありました。
    • 独自性や内容の品質において、人間教師とAI判定の間で大きな意見の相違が見られました。人間教師が1点や2点と評価したエッセイを、AI判定は4点以上と高く評価することもありました。
    • 驚くべきことに、AI判定は多段階チューニングを行っても、各参加者固有の執筆スタイルを識別することができませんでした。

この結果は、AIが客観的な基準で評価する能力に優れている一方で、人間の創造性や個性を完全に捉えることには限界があることを示しています。

人間教師は、文章の背後にある「思考の深さ」や「個人的な視点」を重視しており、それがAI生成の文章では見出しにくいという現実を浮き彫りにしています。

私たちの未来とAI:より良い共存のために

認知機能の「トレーニング」としての課題

今回の研究から見えてくるのは、AIツールの利用が私たちの脳の認知プロセスに与える影響の複雑さです。

特に、LLMを使い続けると、脳が本来行うべき「高次の思考プロセス」をサボってしまう「認知負債」を抱える可能性があるという点は、私たちに警鐘を鳴らしています。

繰り返しツールなしでエッセイを書くことで、脳は計画、言語、注意制御に関連するネットワークを強化し、広範囲の脳領域を動員して執筆能力を向上させることが示されました。

しかし、AIの支援があった場合、その「脳のトレーニング」が十分に機能しない可能性があります。もしAIがアイデアの組織化といった高レベルな計画を代わりに行ってしまうと、脳はその機能に資源を割り当てる必要がなくなり、結果として、その回路が十分に強化されないかもしれないのです。

AI活用のバランスを考える

この研究は、AIを教育や学習の場で利用する際に、単なる利便性だけでなく、長期的なスキル開発との間でバランスを取る必要性を示唆しています。

AIはルーチンワークや情報の整理には非常に有効なツールですが、創造的なアイデアの生成、批判的思考、そして自分自身の言葉で表現する能力は、依然として人間が主体的に行うべき重要な認知プロセスです。

私たちはAIを「万能な解決策」と捉えるのではなく、「自身の能力を拡張するツール」として認識する必要があります。

これは、プログラミングツールとしてのAIプログラマーの例でも言えます。AIはコードスニペットを生成できますが、それはあくまで開発をサポートするツールであり、生成されたコードの確認とテストは必ず人間が行うべきだと、私は考えています。

研究が提案するように、学習の初期段階ではAIツールの使用を控え、脳が自力で情報を統合し、思考を巡らせる「完全な神経活動」を促すことが重要かもしれません。

その後、ある程度のスキルが身についた段階で、AIを特定のタスク(例えば、校正やアイデアの多様化)に戦略的に導入することで、外在的認知負荷を軽減し、学習効率を高めることができる可能性があります。

私たちの「考える力」を守るために

今回の研究は、エッセイ執筆という特定の文脈での結果ですが、AIが私たちの学習や仕事、そして思考プロセス全般に与える影響について、深く考えるきっかけを与えてくれます。

便利なAIツールを使いこなすことは現代社会で不可欠ですが、その一方で、私たちが本来持っている「考える力」や「創造性」が衰えてしまわないよう、意識的な努力が必要だと言えるでしょう。

AIは、私たちの思考の「魔法の杖」ではなく、私たちの創造性を引き出すための「道具」です。その道具をどう使うか、そして私たちの脳とどう付き合っていくかは、まさに私たち自身の手に委ねられています。あなたはAIとどのように向き合いたいですか?

この問いについて、ぜひ考えてみてください。

Follow me!