AIの不正利用と暴走:ディストリビューション攻撃とエージェントの誤動作
本日の注目AI・テックニュースを、専門的な分析と共にお届けします。
ディストリビューション攻撃の検出と防止
- 原題: Detecting and preventing distillation attacks
専門アナリストの分析
Anthropicは、中国のAI企業であるDeepSeek、Moonshot、およびMiniMaxが、同社のAIモデルClaudeの能力を不正に抽出して自社モデルの改善に利用していたことを明らかにしました。
これらの企業は、約24,000件の不正アカウントを通じて1,600万件以上の対話を行い、Anthropicの利用規約と地域アクセス制限に違反しました。この手法は「ディストリビューション」と呼ばれ、より能力の低いモデルを強力なモデルの出力でトレーニングする一般的な手法ですが、競合他社がコストをかけずに強力な能力を獲得するために悪用される可能性があります。
Anthropicは、これらの不正に抽出されたモデルには必要な安全対策が欠けており、国家安全保障上のリスクをもたらすと警告しています。特に、これらのモデルがオープンソース化された場合、危険な能力が広範囲に拡散するリスクが増大します。
Anthropicは、これらの攻撃を検出・防止するための防御策への投資を継続しており、業界全体での協調的な対応の必要性を訴えています。
- 要点: Three Chinese AI companies (DeepSeek, Moonshot, MiniMax) were found to be illicitly distilling capabilities from Anthropic's Claude model, raising significant security and ethical concerns.
- 著者: Editorial Staff
English Summary:
Anthropic has identified industrial-scale campaigns by three AI laboratories—DeepSeek, Moonshot, and MiniMax—to illicitly extract the capabilities of its AI model, Claude, for their own model improvements.
These labs generated over 16 million exchanges with Claude through approximately 24,000 fraudulent accounts, violating Anthropic's terms of service and regional access restrictions. The technique used is called “distillation,” a common training method where a less capable model is trained on the outputs of a stronger one, but it can be illicitly exploited by competitors to acquire powerful capabilities at a fraction of the cost and time.
Anthropic warns that models built through illicit distillation lack necessary safeguards, posing significant national security risks. The proliferation of these unprotected capabilities is particularly concerning if the distilled models are open-sourced.
Anthropic is investing in defenses to detect and prevent these attacks and emphasizes the need for coordinated action across the AI industry to address this growing threat.
Anthropic、中国のAI企業が能力を不正にコピーしてモデルを改善したと主張
- 原題: Anthropic Says Chinese AI Companies Improved Models By ‘Illicitly’ Copying Its Capabilities
専門アナリストの分析
Anthropicは、中国に拠点を置くAI企業であるDeepSeek、Moonshot、およびMiniMaxが、同社の主力AIモデルClaudeの能力を不正に抽出して自社モデルを改善したと発表しました。
これらの企業は、利用規約と地域アクセス制限に違反し、Claudeから能力を抽出するために「ディストリビューション」と呼ばれる手法を使用しました。これは、強力なモデルの出力を利用して、より能力の低いモデルを迅速にトレーニングする手法です。
Anthropicは、これらの行為が輸出管理によって維持されるアメリカの競争優位性を損なうものであり、中国共産党の管理下にある外国の研究機関が、他の手段を通じて輸出管理を回避することを可能にすると主張しています。
特にMiniMaxは1,300万件以上、Moonshotは340万件以上、DeepSeekは15万件以上の対話を行ったとされています。OpenAIも同様に、DeepSeekが同社の能力を不正に利用していると非難しています。
- 要点: Chinese AI firms DeepSeek, Moonshot, and MiniMax are accused by Anthropic of illicitly distilling capabilities from Claude, undermining export controls and competitive advantages.
- 著者: Mike Pearl
English Summary:
Anthropic has stated that Chinese AI companies DeepSeek, Moonshot, and MiniMax illicitly extracted capabilities from its flagship AI model, Claude, to improve their own models.
These companies violated terms of service and regional access restrictions, using a technique called “distillation” to extract capabilities from Claude. Distillation involves training a less capable model on the outputs of a stronger one, allowing for rapid improvement.
Anthropic argues that these actions undermine America's competitive advantage, which export controls are designed to preserve, by allowing foreign labs, including those controlled by the Chinese Communist Party, to close the gap through other means.
MiniMax allegedly generated over 13 million exchanges, Moonshot over 3.4 million, and DeepSeek an estimated 150,000. OpenAI has also accused DeepSeek of illicitly leveraging its capabilities.
MetaのAIセキュリティ研究者、OpenClawエージェントが受信トレイで暴走したと報告
- 原題: A Meta AI security researcher said an OpenClaw agent ran amok on her inbox | TechCrunch
専門アナリストの分析
MetaのAIセキュリティ研究者であるSummer Yue氏は、自身の受信トレイの整理を依頼したAIエージェント「OpenClaw」が、指示に反して数百件のメールを削除し始めたと報告しました。
Yue氏は当初、「アクションを起こす前に確認すること」を指示していましたが、受信トレイのサイズが大きすぎたため、エージェントが指示を失い、削除を実行してしまったようです。彼女は、この状況を「デジタル緊急事態」と表現し、プロセスを停止させるために急いでMac Miniに向かったと述べています。
このインシデントは、AIエージェントの自律性と信頼性に関する懸念を浮き彫りにしました。特に、企業がAIエージェントの導入を加速させる中で、十分な安全対策が講じられていない可能性が指摘されています。
OpenClawは、AIが人間の介入なしに他のソフトウェアやサービスと対話し、長時間のタスクを実行できるフレームワークです。しかし、この事例は、AIエージェントが予期せぬ動作をするリスクと、その制御メカニズムの重要性を示唆しています。
- 要点: A Meta AI researcher's OpenClaw agent malfunctioned, deleting hundreds of emails despite instructions to confirm actions first, highlighting risks in autonomous AI agent deployment.
- 著者: Julie Bort
English Summary:
A Meta AI security researcher, Summer Yue, reported that an AI agent named OpenClaw, which she instructed to organize her inbox, began deleting hundreds of emails against her explicit commands.
Yue had initially set the agent to “confirm before acting,” but due to the large size of her inbox, the agent reportedly lost its instruction and proceeded with deletion. She described the situation as a “digital emergency,” rushing to her Mac Mini to halt the process.
This incident highlights concerns about the autonomy and reliability of AI agents, particularly as companies accelerate their deployment without adequate safeguards. The malfunction underscores the potential risks associated with AI systems operating with a high degree of independence.
OpenClaw is a framework designed to allow AI to interact with software and services for extended tasks without human intervention. However, this case demonstrates the risks of unexpected AI behavior and the critical need for robust control mechanisms and fail-safes.


