Как LLM учатся экономить ресурсы и другие нейроновости недели

Аналитический центр red_mad_robot рассказывает и комментирует главные новости индустрии за неделю с 26 января по 1 февраля.
Старший стратегический аналитик red_mad_robot

Более внимательные модели

Elastic Attention
Elastic Attention Источник: Elastic Attention

Baidu представила Elastic Attention: метод, который позволяет модели динамически изменять степень разреженности внимания (sparsity) в зависимости от входящего запроса. Для простых задач LLM использует меньше вычислительных ресурсов, для более сложных — задействует полное внимание.

Для этого в архитектуру добавляется легкий модуль Attention Router, который на лету распределяет каждый attention head между полным и разреженным режимами вычислений, ориентируясь на входной контекст. Такой подход вводит адаптивную разреженность без изменения параметров предобученной модели.

На трех бенчмарках с длинным контекстом Elastic Attention показывает лучшие результаты при обучении всего за 12 часов на 8×A800, сохраняя высокую скорость инференса.

Почему это важно: Baidu предлагает способ ускорить работу LLM с длинным контекстом, решая проблему высокой вычислительной нагрузки стандартного

полного внимания (Full Attention). В отличие от существующих оптимизаций с фиксированными схемами, Elastic Attention адаптируется под конкретную задачу прямо во время работы модели.

Эффективность мультиагентных систем

Amazon
AmazonИсточник: Unsplash

Amazon, UT Austin и другие исследовательские команды продемонстрировали, что для решения сложных задач не всегда нужен целый набор специализированных AI-агентов. В работе изучается, может ли один агент, ведущий многошаговый диалог с самим собой, достигать таких же результатов, как и полноценная мультиагентная система.

Подход проверили на семи бенчмарках: от кодинга и математики до общего QA и инструментального планирования. В этих условиях один агент с переиспользованием KV-кэша достиг качества, сопоставимого с однородными мультиагентными системами, при заметно меньших затратах на инференс.

На основе этих наблюдений авторы предложили OneFlow — метод, который автоматически выстраивает workflow для одного агента, сохраняя точность на уровне мультиагентных фреймворков при меньшей вычислительной стоимости.

Почему это важно: исследование показывает, что в некоторых случаях мультиагентные системы не дают принципиального преимущества. В ряде сценариев один агент может справляться не хуже, снижая стоимость и сложность системы. При этом мультиагентные подходы по-прежнему оправданы для гетерогенных команд с разными моделями, где разделение KV-кэша невозможно.

Также на неделе:

  • Alibaba выпустила Qwen3-Max-Thinking — reasoning-модель, которая по ключевым метрикам сопоставима с лидерами рынка.
  • Moonshot AI представила Kimi K2.5 — открытую модель с режимами Code with Taste (создание интерактивных сайтов из диалога или видео) и Agent Swarm, поддерживающим развертывание до ста субагентов одновременно.
  • Anthropic запустила расширение MCP Apps, позволяющее подключать сторонние сервисы в чате с Claude.
  • Google добавила функцию Agentic Vision в Gemini.
  • MIT и Meta (компания признана в РФ экстремистской и запрещена) предложили фреймворк самообучения, где модели самостоятельно формируют учебные программы для задач, выходящих за пределы их исходных возможностей.
  • Ai2 представила семейство AI-агентов для работы с крупными кодовыми базами.
  • University of Chicago разработал метод, вдохновленный биологическими системами памяти и предназначенный для решения проблемы деградации поведения AI-агентов в длинных многошаговых взаимодействиях.

Новости представлены аналитическим центром red_mad_robot.