AI учатся экономить ресурсы. Нейроновости недели

Аналитический центр red_mad_robot рассказывает и комментирует главные новости индустрии за неделю с 16 по 22 февраля.
Старший стратегический аналитик red_mad_robot

Баланс эффективности и качества

AMD
Источник: Unsplash

AMD представила AdaptEvolve: подход, направленный на поиск оптимального баланса между вычислительной эффективностью и качеством рассуждений. Метод динамически переключается между моделями разного размера и подбирает их в зависимости от сложности текущей задачи.

В основе AdaptEvolve лежит маршрутизация по уровню уверенности. Вместо фиксированных правил система оценивает, справляется ли текущая модель с задачей: при высокой уверенности используется компактная LLM, а при росте неопределенности — более мощная.

Почему это важно: механизм позволяет снизить затраты на инференс в среднем на 37,9%, при этом сохраняя 97,5% качества, которое обычно достигается только при постоянном использовании крупных и дорогих моделей.

Эволюция навыков AI-агентов

SkillRL: Evolving Agents
Источник: arxiv

Исследователи из University of North Carolina at Chapel Hill совместно с коллегами разработали SkillRL: RL-подход, который сокращает разрыв между сырым опытом агента и улучшением его политики через автоматическое выявление навыков. Вместо хранения шумных траекторий система преобразует опыт в переиспользуемые высокоуровневые поведенческие шаблоны и развивает их параллельно с политикой агента.

Основой метода служит иерархическая библиотека навыков SkillBank. Механизм дистилляции извлекает устойчивые шаблоны из сырых траекторий и организует их в структуру, позволяя эффективно использовать накопленный опыт.

Главная особенность SkillRL — рекурсивная совместная эволюция, когда библиотека навыков и политика агента развиваются одновременно. По мере решения более сложных задач формируются новые и уточняются существующие навыки, что улучшает эффективность агента и качество данных.

На ALFWorld, WebShop и QA-задачах с поиском SkillRL обеспечивает прирост качества более чем на 15% по сравнению с сильными базовыми методами.

Почему это важно: метод устраняет изоляцию агентов, превращая прошлый опыт в полезные навыки, чтобы запоминать успешные стратегии и избегать ошибок. При этом система сжимает длинные истории действий в короткие правила, экономя токены и помогая модели сосредоточиться на важном.

Также на неделе:

  • Anthropic выпустила Claude Sonnet 4.6
  • Google представила Gemini 3.1 Pro с фокусом на сложные задачи и агентные сценарии. По бенчмаркам он уже обгоняет Gemini 3 Pro, Opus 4.6 и GPT-5.2
  • xAI анонсировала бета-релиз Grok 4.20 с кооперацией четырех взаимодействующих AI-агентов
  • Microsoft Research рассказали про метод усвоения временных знаний из контекста через обучение на собственных генерациях под контролем контекстного учителя
  • Snowflake разработала синтетический пайплайн для создания исполняемых агентных сред
  • Tencent предложила механизм экстраполяции награды, позволяющий ученику выходить за пределы качества модели-учителя
  • Mila представила автоматизированную мультиагентную систему, которая трактует разработку ПО как управляемый организационный процесс
  • China Telecom описала метод дообучения, использующий прошлые чекпоинты как корректирующие сигналы для преодоления плато качества

Новости представлены аналитическим центром red_mad_robot