Новая технология Apple и AI-наушники Яндекс: нейроновости недели

Аналитический центр red_mad_robot рассказывает и комментирует главные новости индустрии за неделю с 15 по 21 декабря.
Старший стратегический аналитик red_mad_robot

Влияние агентов на эффективность

Google
Источник: Unsplash

Исследование Google DeepMind и MIT показало, как добавление агентов влияет на эффективность AI-систем. Команда протестировала 180 конфигураций агентных архитектур на моделях GPT, Gemini и Claude в задачах кодинга, финансового анализа и веб-поиска и выявила ключевые эффекты, определяющие успех или провал.

  • Координация инструментов: по мере роста числа агентов и инструментов в задаче увеличивается coordination tax (налог на координацию) — токены и время уходят на коммуникацию, а не на само рассуждение.
  • Эффект насыщения: если один агент уже решает задачу с точностью 45%, подключение дополнительных агентов часто не дает прироста и может ухудшить результат.
  • Архитектурная чувствительность к ошибкам: в децентрализованных схемах неточности одного агента быстро распространяются и становятся ложными предпосылками для остальных. Централизованные структуры лучше сдерживают этот эффект.

Авторы также показали, что эффективность агентных систем напрямую зависит от типа задачи. Для параллельных сценариев мультиагентные конфигурации действительно работают лучше — прирост достигает 81%. А вот в задачах с последовательным рассуждением один агент оказывается эффективнее: командные схемы здесь, наоборот, снижают качество на 39−70%.

При высокой неопределенности децентрализованные команды дают небольшой, но умеренный эффект — около 9%.

Почему это важно: индустрия активно переходит к агентным системам, но до сих пор их архитектуры строились в основном на эвристиках. Предполагалось, что увеличение числа агентов или усложнение иерархии автоматически позволит решать более сложные задачи. Исследование показывает обратное: масштабирование агентных систем напрямую зависит от того, насколько архитектура подходит конкретной задаче.

Новый фреймворк от Apple

Apple
Источник: Unsplash

Apple представила CLaRa (Continuous Latent Reasoning): фреймворк для RAG, в котором документы сжимаются в компактные векторные «токены памяти». Они используются и ретривером (на этапе поиска), и при генерации ответа в общем латентном пространстве.

Задача CLaRa заключается в сокращении длины контекста и связи поиска с генерацией: генератор обучает ретривер тому, какие фрагменты важны для получения качественных ответов, а не просто похожи по формальным признакам. Для этого авторы вводят SCP (Salient Compressor Pretraining) — предобучение на синтетических QA-парах, которое помогает сохранять ключевую семантику при сжатии.

Почему это важно: CLaRa показывает, что совместная оптимизация поиска и генерации в непрерывном пространстве может работать эффективнее классических RAG-пайплайнов. Такой подход дает прирост на бенчмарках (NQ, HotpotQA, MuSiQue и 2WikiMultihopQA) и позволяет сжимать контекст до 4−16 раз без потери качества.

Другие новости из мира нейросетей

  • Яндекс анонсировала AI-наушники, AI-диктофон, добавил в Алису AI режим глубоких исследований и начал ее интеграцию в Яндекс Go.
  • NVIDIA представила семейство моделей Nemotron 3.
  • Alibaba показала модель с 30 млрд параметров, которую дообучили для улучшения рассуждений на длинных контекстах.
  • Google выпустила мультимодальную reasoning-модель Gemini 3 Flash, использующую на 30% меньше токенов, чем Gemini 2.5 Pro.
  • Microsoft открыла open-source фреймворк, который позволяет подключать RL к AI-агентам без переписывания основного кода.
  • Ant Group и Inclusion AI представили новое поколение диффузионных языковых моделей (dLLM) в двух версиях: LLaDA 2.0 Mini (16B) и LLaDA 2.0 Flash (100B MoE).
  • Stanford продемонстрировал AI-агента, превзошедшего девять из десяти людей-экспертов по кибербезопасности.