Более внимательные модели

Baidu представила Elastic Attention: метод, который позволяет модели динамически изменять степень разреженности внимания (sparsity) в зависимости от входящего запроса. Для простых задач LLM использует меньше вычислительных ресурсов, для более сложных — задействует полное внимание.
Для этого в архитектуру добавляется легкий модуль Attention Router, который на лету распределяет каждый attention head между полным и разреженным режимами вычислений, ориентируясь на входной контекст. Такой подход вводит адаптивную разреженность без изменения параметров предобученной модели.
На трех бенчмарках с длинным контекстом Elastic Attention показывает лучшие результаты при обучении всего за 12 часов на 8×A800, сохраняя высокую скорость инференса.
Почему это важно: Baidu предлагает способ ускорить работу LLM с длинным контекстом, решая проблему высокой вычислительной нагрузки стандартного
полного внимания (Full Attention). В отличие от существующих оптимизаций с фиксированными схемами, Elastic Attention адаптируется под конкретную задачу прямо во время работы модели.
Эффективность мультиагентных систем

Amazon, UT Austin и другие исследовательские команды продемонстрировали, что для решения сложных задач не всегда нужен целый набор специализированных AI-агентов. В работе изучается, может ли один агент, ведущий многошаговый диалог с самим собой, достигать таких же результатов, как и полноценная мультиагентная система.
Подход проверили на семи бенчмарках: от кодинга и математики до общего QA и инструментального планирования. В этих условиях один агент с переиспользованием KV-кэша достиг качества, сопоставимого с однородными мультиагентными системами, при заметно меньших затратах на инференс.
На основе этих наблюдений авторы предложили OneFlow — метод, который автоматически выстраивает workflow для одного агента, сохраняя точность на уровне мультиагентных фреймворков при меньшей вычислительной стоимости.
Почему это важно: исследование показывает, что в некоторых случаях мультиагентные системы не дают принципиального преимущества. В ряде сценариев один агент может справляться не хуже, снижая стоимость и сложность системы. При этом мультиагентные подходы по-прежнему оправданы для гетерогенных команд с разными моделями, где разделение KV-кэша невозможно.
Также на неделе:
- Alibaba выпустила Qwen3-Max-Thinking — reasoning-модель, которая по ключевым метрикам сопоставима с лидерами рынка.
- Moonshot AI представила Kimi K2.5 — открытую модель с режимами Code with Taste (создание интерактивных сайтов из диалога или видео) и Agent Swarm, поддерживающим развертывание до ста субагентов одновременно.
- Anthropic запустила расширение MCP Apps, позволяющее подключать сторонние сервисы в чате с Claude.
- Google добавила функцию Agentic Vision в Gemini.
- MIT и Meta (компания признана в РФ экстремистской и запрещена) предложили фреймворк самообучения, где модели самостоятельно формируют учебные программы для задач, выходящих за пределы их исходных возможностей.
- Ai2 представила семейство AI-агентов для работы с крупными кодовыми базами.
- University of Chicago разработал метод, вдохновленный биологическими системами памяти и предназначенный для решения проблемы деградации поведения AI-агентов в длинных многошаговых взаимодействиях.
Новости представлены аналитическим центром red_mad_robot.

