AIセキュリティの進展と新たな脅威、ロボットの産業応用
本日の注目AI・テックニュースを、専門的な分析と共にお届けします。
プロジェクト・グラスウィング:初期の進捗報告
- 原題: Project Glasswing: An initial update
専門アナリストの分析
Anthropicの「Project Glasswing」は、AIモデルが悪用される前に重要なソフトウェアを保護するための共同作業です。このプロジェクトでは、Claude Mythos Previewを使用して、世界で最も重要なソフトウェアから1万件以上の高または重大な脆弱性を発見しました。以前は脆弱性の発見速度が課題でしたが、現在はAIによって発見された多数の脆弱性の検証、開示、パッチ適用がボトルネックとなっています。
初期の結果として、Cloudflareは2,000件のバグ(うち400件が高または重大な脆弱性)を発見し、MozillaはFirefox 150で271件の脆弱性を修正しました。これは、以前のClaude Opus 4.6と比較して10倍以上の発見率です。また、Mythos Previewは、英国のAIセキュリティ研究所のサイバーレンジをエンドツーエンドで解決した初のモデルであり、XBOWや学術ベンチマークでも優れた性能を示しています。
Anthropicは、1,000以上のオープンソースプロジェクトをスキャンし、推定6,202件の高または重大な脆弱性を特定しました。これらのうち、1,752件が独立したセキュリティ研究機関によって評価され、90.6%が有効な真陽性であることが確認されました。このプロジェクトは、脆弱性の発見が容易になった一方で、人間によるトリアージ、報告、パッチ設計、展開の能力がボトルネックとなっていることを浮き彫りにしています。
Anthropicは、Claude SecurityをClaude Enterprise顧客向けにベータ版としてリリースし、コードベースのスキャンと修正案の生成を支援しています。また、Cyber Verification Programを通じて、セキュリティ専門家が特定の安全対策なしにモデルを使用できるようにしています。将来的には、より強力な安全対策を開発した後、Mythosクラスのモデルを一般公開することを目指しています。
- 要点: AI models like Anthropic's Mythos Preview are dramatically accelerating the discovery of software vulnerabilities, shifting the cybersecurity bottleneck from finding bugs to the human capacity for verifying, disclosing, and patching them, necessitating faster patch cycles and enhanced defensive strategies.
- 著者: Editorial Staff
English Summary:
Anthropic's Project Glasswing is a collaborative effort aimed at securing critical software before increasingly capable AI models can be weaponized against it. The project has leveraged Claude Mythos Preview to identify over ten thousand high- or critical-severity vulnerabilities across the world's most systemically important software. While vulnerability discovery was once the limiting factor, the bottleneck has now shifted to the verification, disclosure, and patching of the vast number of vulnerabilities found by AI.
Initial results show significant impact, with partners like Cloudflare finding 2,000 bugs (400 high- or critical-severity) and Mozilla fixing 271 vulnerabilities in Firefox 150, a more than tenfold increase compared to findings with Claude Opus 4.6. Mythos Preview is also the first model to solve both of the UK's AI Security Institute's cyber ranges end-to-end and has demonstrated superior performance on benchmarks like XBOW and academic exploit development tests.
Anthropic has also scanned over 1,000 open-source projects, identifying an estimated 6,202 high- or critical-severity vulnerabilities. Of these, 1,752 have been assessed by independent security firms, with 90.6% confirmed as valid true positives. The project highlights that while finding vulnerabilities has become significantly easier with AI, the human capacity for triage, reporting, and patch development and deployment remains a critical bottleneck.
To address this, Anthropic has released Claude Security in public beta for Claude Enterprise customers, assisting teams in scanning codebases and generating proposed fixes. They have also launched a Cyber Verification Program, allowing security professionals to use their models for legitimate cybersecurity purposes without certain safeguards. Anthropic aims to release Mythos-class models more broadly in the future, once stronger safeguards against misuse are developed.
数千人がロボットが何時間もノンストップで荷物を仕分ける様子をライブで視聴。それは、機械が人間よりも優れた仕事をする方法を学習する初のバイラル配信だったかもしれない
- 原題: Thousands of people watched live as a robot sorted packages for hours without stopping. And perhaps that was the first viral broadcast of a machine learning to do human jobs better than us
専門アナリストの分析
Figure AIは、人間型ロボットがコンベアベルトの前で何時間もパッケージを分類する様子をライブストリーミングし、数百万人の視聴者を集めました。このデモンストレーションは、ロボットがパルクールやダンスのような派手な動きではなく、実際の反復作業を長時間にわたって実行できることを示すことに焦点を当てていました。ロボットはバーコードを検出し、箱を持ち上げ、コンベア上で正しく回転させるというタスクを8時間連続で自律的に実行しました。
このストリームは、ロボットが30,000個以上のパッケージを大きなエラーなしに分類した24時間以上続き、視聴者はロボットにBob、Gary、Frankといった名前を付け、Twitchのライブ配信のように視聴しました。この実験の重要な点は、ロボットが単一の動作を実行できることではなく、さまざまなサイズのパッケージに適応し、小さなエラーから回復しながら、何時間も連続して作業を維持できる耐久性を示したことです。
Figure AIは、ロボットが1パッケージあたり約3秒という、人間のパフォーマンスに近い速度に達していると主張しています。新しいFigure 03ロボットは、カメラ、触覚センサー、適応性の高い手、および誘導充電システムと統合されたHelix-02というAIシステムを使用しています。同社は、人間型ロボットの当面の未来は、スマートホームでのコーヒー提供ではなく、倉庫や工場での反復作業にあると明確に示しています。
デモンストレーションの象徴的な部分として、Figure AIはロボットと人間の従業員Aimé Gérardとの10時間のパッケージ分類競争を実施しました。人間がわずか192パッケージ多く分類して勝利しましたが、その差は非常に小さく、Figure AIの創設者Brett Adcockは「これが人間が勝つ最後の時になるだろう」と述べました。この実験は、人間型ロボットが単なるスペクタクルから、単調なタスクを何千時間も代替できる実用的なソリューションへと進化していることを示唆しています。
- 要点: Figure AI's viral live stream of humanoid robots sorting packages for extended periods demonstrated their practical endurance and near-human efficiency in repetitive tasks, signaling a shift towards real-world industrial applications for robotics rather than just spectacular demonstrations.
- 著者: Martín Nicolás Parolari
English Summary:
Figure AI captivated millions of viewers with a live stream showcasing humanoid robots sorting packages for hours on a conveyor belt. This demonstration shifted focus from spectacular feats like parkour or dancing to the practical ability of robots to perform real, repetitive work over extended periods. The robots autonomously executed tasks such as detecting barcodes, picking up boxes, and correctly rotating them on the conveyor belt for eight continuous hours.
The stream lasted over 24 hours, during which the robots sorted more than 30,000 packages without significant errors, with viewers even naming the robots Bob, Gary, and Frank, following the broadcast like a Twitch live stream. The key takeaway from this experiment was not merely the robot's ability to perform a single action, but its demonstrated endurance to maintain continuous work for hours, adapt to different package sizes, and recover from minor faults.
Figure AI claims its robots are approaching human performance, achieving approximately three seconds per package. The new Figure 03 robot utilizes an AI system called Helix-02, integrated with cameras, tactile sensors, adaptive hands, and an inductive charging system for near-continuous operation. The company's message is clear: the immediate future of humanoids lies not in serving coffee in smart homes, but in repetitive tasks within warehouses and factories.
A symbolic highlight of the demonstration was a 10-hour package sorting competition between a robot and human employee, Aimé Gérard. The human won by a narrow margin of just 192 packages, prompting Figure AI founder Brett Adcock to declare, "This will be the last time a human wins." This experiment suggests that humanoid robotics is evolving from mere spectacle to a practical solution capable of replacing monotonous tasks for thousands of hours.
ガードの死角:ドメイン偽装型インジェクション攻撃がマルチエージェントLLMシステムで検出を回避する方法
- 原題: Blind Spots in the Guard: How Domain-Camouflaged Injection Attacks Evade Detection in Multi-Agent LLM Systems
専門アナリストの分析
この研究は、LLMエージェントを保護するために展開されているインジェクション検出器に存在する体系的な死角を特定しています。これらの検出器は、オーバーライド指示として自己を宣言する静的でテンプレートベースのペイロードに対して調整されています。しかし、ペイロードがターゲットドキュメントのドメイン語彙と権限構造を模倣するように生成される「ドメイン偽装型インジェクション」の場合、標準の検出器はそれらをフラグ付けすることに失敗します。
実験では、Llama 3.1 8Bでは検出率が93.8%から9.7%に、Gemini 2.0 Flashでは100%から55.6%に低下することが示されました。この現象は「カモフラージュ検出ギャップ(CDG)」として形式化され、静的ペイロードと偽装ペイロードの間のインジェクション検出率の差として定義されます。3つのドメインと2つのモデルファミリーにわたる45のタスクで、CDGは大きく統計的に有意であることが確認されました。
さらに、プロダクションレベルの安全分類器であるLlama Guard 3も、偽装ペイロードを全く検出しない(IDRcamouflage = 0.000)ことが判明し、この死角が少数のショット検出器を超えて専用の安全分類器にも及ぶことを裏付けています。マルチエージェントの議論アーキテクチャは、小規模モデルでは静的インジェクション攻撃を最大9.9倍増幅させることが示されましたが、より強力なモデルは集団的な抵抗を示しました。
ターゲットを絞った検出器の強化は部分的な改善しかもたらさず(Llamaで10.2%改善、Geminiで78.7%改善)、この脆弱性が弱いモデルにとって偶発的なものではなく、アーキテクチャ的なものであることを示唆しています。研究者らは、フレームワーク、タスクバンク、ペイロードジェネレーターを公開しており、今後の研究に貢献しています。
- 要点: Domain-camouflaged injection attacks, which mimic the target document's style, effectively bypass current LLM agent injection detectors and even dedicated safety classifiers like Llama Guard 3, revealing a significant "Camouflage Detection Gap" and an architectural vulnerability in weaker multi-agent LLM systems.
- 著者: Aaditya Pai
English Summary:
This research identifies a systematic blind spot in injection detectors deployed to protect LLM agents. These detectors are typically calibrated on static, template-based payloads that explicitly announce themselves as override directives. However, when payloads are generated to mimic the domain vocabulary and authority structures of the target document, termed "domain-camouflaged injection," standard detectors fail to flag them.
Experiments demonstrated a significant drop in detection rates: from 93.8% to 9.7% on Llama 3.1 8B and from 100% to 55.6% on Gemini 2.0 Flash. This phenomenon is formalized as the "Camouflage Detection Gap (CDG)," defined as the difference in injection detection rate between static and camouflaged payloads. Across 45 tasks spanning three domains and two model families, the CDG was found to be large and statistically significant.
Furthermore, Llama Guard 3, a production safety classifier, detected zero camouflaged payloads (IDRcamouflage = 0.000), confirming that this blind spot extends beyond few-shot detectors to dedicated safety classifiers. The study also showed that multi-agent debate architectures amplify static injection attacks by up to 9.9x on smaller models, while stronger models exhibited collective resistance.
Targeted detector augmentation provided only partial remediation (10.2% improvement on Llama, 78.7% improvement on Gemini), suggesting that for weaker models, this vulnerability is architectural rather than incidental. The researchers have publicly released their framework, task bank, and payload generator to contribute to future research.

