AI技術の最新動向:LLM、マルチモーダル、Siriの進化
本日の注目AI・テックニュースを、専門的な分析と共にお届けします。
大規模言語モデル推論ハードウェアの課題と研究開発の方向性
- 原題: Challenges and Research Directions for Large Language Model Inference Hardware
専門アナリストの分析
大規模言語モデル(LLM)の推論は、その自己回帰的なデコードフェーズにより、トレーニングとは根本的に異なる課題を抱えています。
特に、メモリとインターコネクトが計算能力よりも主要なボトルネックとなっており、High Bandwidth Flashによるメモリ容量の10倍向上と帯域幅の維持、Processing-Near-Memoryや3Dメモリ・ロジックスタッキングによる高メモリ帯域幅、そして低遅延インターコネクトによる通信速度向上が研究機会として挙げられています。
これらの研究はデータセンターAIに焦点を当てていますが、モバイルデバイスへの応用可能性も検討されています。
- 要点: LLM inference is memory and interconnect bound, requiring innovations in memory technology and interconnects.
- 著者: Xiaoyu Ma, David Patterson
English Summary:
Large Language Model (LLM) inference presents unique challenges due to its autoregressive decoding phase, fundamentally differing from training.
The primary bottlenecks are identified as memory and interconnect rather than compute. Research opportunities include High Bandwidth Flash for a tenfold increase in memory capacity with sustained bandwidth, Processing-Near-Memory and 3D memory-logic stacking for high memory bandwidth, and low-latency interconnects to accelerate communication.
While the focus is on datacenter AI, the applicability to mobile devices is also being reviewed.
認知に着想を得たトークンがマルチモーダルモデルにおける自己中心的バイアスを克服する
- 原題: Cognitively-Inspired Tokens Overcome Egocentric Bias in Multimodal Models
専門アナリストの分析
マルチモーダル言語モデル(MLM)は、視覚と言語のセマンティックなタスクでは高い性能を示しますが、他者の視点に立つ空間推論では失敗することがあります。これは持続的な自己中心的バイアスを示唆しています。
人間の空間認知に着想を得て、本研究では方向性をエンコードする特殊な埋め込みであるパースペクティブトークンを導入しました。これらは、(1) 体のキーポイントの手がかり、または (2) メンタルローテーションをサポートする抽象的な表現のいずれかによって方向性をエンコードします。
これらのトークンをLLaVA-1.5-13Bに統合した結果、レベル2の視覚的視点取得タスクで性能が向上しました。合成および自然なベンチマーク(Isle Bricks V2、COCO、3DSRBench)全体で、パースペクティブトークンは精度を向上させ、特に回転ベースのトークンは非人間参照エージェントにも汎化しました。表現分析は、ファインチューニングがベースモデルに既に存在する潜在的な方向性感度を高めることを示唆しており、MLMにはアロセントリック推論の前駆体が含まれているものの、適切な内部構造が欠けていることを示唆しています。
- 要点: Cognitively-inspired 'perspective tokens' can significantly improve egocentric bias in multimodal models, enabling better spatial reasoning.
- 著者: Bridget Leonard, Scott O. Murray
English Summary:
Multimodal Language Models (MLMs) excel at semantic vision-language tasks but struggle with spatial reasoning requiring another agent's perspective, indicating a persistent egocentric bias.
Inspired by human spatial cognition, this research introduces perspective tokens, specialized embeddings that encode orientation through either embodied body-keypoint cues or abstract representations supporting mental rotation.
Integrating these tokens into LLaVA-1.5-13B improves performance on level-2 visual perspective-taking tasks. Across synthetic and naturalistic benchmarks, perspective tokens enhance accuracy, with rotation-based tokens generalizing to non-human reference agents. Representational analyses suggest that MLMs contain precursors of allocentric reasoning but lack appropriate internal structure, indicating that embedding cognitively grounded spatial structure directly into token space is a lightweight, model-agnostic mechanism for perspective-taking.
Apple、SiriをChatGPTのようなAIボットに進化させる
- 原題: Apple is turning Siri into an AI bot that’s more like ChatGPT
専門アナリストの分析
Appleは、競合他社に対抗するため、SiriをChatGPTのようなAIチャットボットへと大幅に刷新する計画を進めています。このアップデートは「Campos」というコードネームで開発されており、iOS 27、iPadOS 27、macOS 27に統合され、現在のSiriに取って代わる予定です。
新しいSiriは、ChatGPTと同様の自然言語会話機能を持ち、音声またはテキストで操作可能になります。ウェブ検索、コンテンツ生成(画像生成を含む)、コーディング支援、情報要約、ファイル分析など、多岐にわたるタスクを実行できるようになります。さらに、デバイス上の個人データにアクセスしてタスクを完了させたり、画面上のコンテンツを認識したり、デバイスの設定を変更したりする能力も持つとされています。
このチャットボットは、GoogleのGeminiモデルをベースにしたカスタムモデルで強化される見込みです。Appleはプライバシーを考慮し、ユーザーの過去の会話履歴の記憶保持期間を制限する可能性も検討しています。この進化は、AppleがAI分野で遅れをとっているとの見方を覆し、プラットフォームの強みを活かした独自のAI体験を提供する狙いがあります。
- 要点: Apple is transforming Siri into a ChatGPT-like AI chatbot, leveraging Google's Gemini models to enhance its conversational abilities and task execution across Apple devices.
- 著者: Emma Roth
English Summary:
Apple is planning a significant overhaul of Siri, transforming it into a ChatGPT-like AI chatbot to compete in the evolving AI landscape. Codenamed 'Campos,' this upgrade is slated for integration into iOS 27, iPadOS 27, and macOS 27, replacing the current Siri.
The revamped Siri will feature natural language conversational capabilities similar to ChatGPT, accessible via voice or text. It is expected to perform a wide range of tasks, including web searches, content generation (including images), coding assistance, summarizing information, and analyzing uploaded files. Furthermore, it may be able to access personal data on the device to complete tasks, recognize on-screen content, and adjust device settings.
The chatbot is anticipated to be powered by a custom model based on Google's Gemini. Apple is reportedly considering privacy measures, such as limiting the memory of past user conversations. This strategic move aims to leverage Apple's platform ownership and provide a more capable AI experience, addressing previous criticisms of Siri's limitations.


