Баланс эффективности и качества

AMD представила AdaptEvolve: подход, направленный на поиск оптимального баланса между вычислительной эффективностью и качеством рассуждений. Метод динамически переключается между моделями разного размера и подбирает их в зависимости от сложности текущей задачи.
В основе AdaptEvolve лежит маршрутизация по уровню уверенности. Вместо фиксированных правил система оценивает, справляется ли текущая модель с задачей: при высокой уверенности используется компактная LLM, а при росте неопределенности — более мощная.
Почему это важно: механизм позволяет снизить затраты на инференс в среднем на 37,9%, при этом сохраняя 97,5% качества, которое обычно достигается только при постоянном использовании крупных и дорогих моделей.
Эволюция навыков AI-агентов

Исследователи из University of North Carolina at Chapel Hill совместно с коллегами разработали SkillRL: RL-подход, который сокращает разрыв между сырым опытом агента и улучшением его политики через автоматическое выявление навыков. Вместо хранения шумных траекторий система преобразует опыт в переиспользуемые высокоуровневые поведенческие шаблоны и развивает их параллельно с политикой агента.
Основой метода служит иерархическая библиотека навыков SkillBank. Механизм дистилляции извлекает устойчивые шаблоны из сырых траекторий и организует их в структуру, позволяя эффективно использовать накопленный опыт.
Главная особенность SkillRL — рекурсивная совместная эволюция, когда библиотека навыков и политика агента развиваются одновременно. По мере решения более сложных задач формируются новые и уточняются существующие навыки, что улучшает эффективность агента и качество данных.
На ALFWorld, WebShop и QA-задачах с поиском SkillRL обеспечивает прирост качества более чем на 15% по сравнению с сильными базовыми методами.
Почему это важно: метод устраняет изоляцию агентов, превращая прошлый опыт в полезные навыки, чтобы запоминать успешные стратегии и избегать ошибок. При этом система сжимает длинные истории действий в короткие правила, экономя токены и помогая модели сосредоточиться на важном.
Также на неделе:
- Anthropic выпустила Claude Sonnet 4.6
- Google представила Gemini 3.1 Pro с фокусом на сложные задачи и агентные сценарии. По бенчмаркам он уже обгоняет Gemini 3 Pro, Opus 4.6 и GPT-5.2
- xAI анонсировала бета-релиз Grok 4.20 с кооперацией четырех взаимодействующих AI-агентов
- Microsoft Research рассказали про метод усвоения временных знаний из контекста через обучение на собственных генерациях под контролем контекстного учителя
- Snowflake разработала синтетический пайплайн для создания исполняемых агентных сред
- Tencent предложила механизм экстраполяции награды, позволяющий ученику выходить за пределы качества модели-учителя
- Mila представила автоматизированную мультиагентную систему, которая трактует разработку ПО как управляемый организационный процесс
- China Telecom описала метод дообучения, использующий прошлые чекпоинты как корректирующие сигналы для преодоления плато качества
Новости представлены аналитическим центром red_mad_robot

