Новый фреймворк AgentArk

Amazon, CMU, University of British Columbia и другие исследовательские команды представили AgentArk: фреймворк, который позволяет перенести рассуждения многоагентных систем в одну модель. Вместо затратного инференса с несколькими агентами коллективное обсуждение проводится заранее, а его структура и логика дистиллируются в модель на этапе обучения.
В основе AgentArk — три режима дистилляции:
- Reasoning-Enhanced SFT (RSFT) — дообучение с учителем на корректных траекториях рассуждений.
- Data Augmentation (DA) — расширение обучающих данных за счет отбора и добавления разнообразных путей рассуждения.
- Process-Aware Distillation (PAD) — процессно-ориентированная дистилляция с сохранением структуры коллективного обсуждения, включая проверку промежуточных шагов и выявление ошибок.
По результатам более ста экспериментов PAD обеспечил средний прирост 4,8% по сравнению с одноагентными базовыми моделями. В задачах внутри домена улучшение достигало 30%.
Дистиллированные модели также продемонстрировали перенос знаний: при обучении на математических задачах они улучшили результаты на TruthfulQA — показатель ROUGE-L вырос с 0,613 до 0,657.
Почему это важно: мультиагентные системы дают прирост качества, но их инференс остается дорогим и сложным в эксплуатации. AgentArk переносит вычислительную нагрузку на этап обучения, позволяя одной модели воспроизводить глубину коллективных рассуждений без постоянного запуска команды агентов.
Механизм самоулучшения AI-систем
University of California рассказал про GEA (Group-Evolving Agents): механизм непрерывного самоулучшения AI-систем через коллективную эволюцию групп агентов. Вместо изолированных ветвей они объединены в единую динамическую среду, где происходит постоянный обмен стратегиями, ошибками и опытом. При этом ранние попытки не отбрасываются, а сохраняются и переиспользуются в дальнейшем. Даже неудачные траектории становятся частью общего обучающего сигнала, усиливающего всю систему.
На бенчмарках SWE-bench Verified и Polyglot такой группоцентричный подход достиг 71% и 88,3% успешных решений соответственно, превзойдя методы самоэволюции отдельных агентов.
Почему это важно: на задачах по программированию и рассуждению GEA показывает прирост по сравнению с классическими самоэволюционирующими агентами и приближается к уровню вручную тщательно спроектированных систем, сохраняя устойчивость при смене задач и моделей. При этом главный вывод шире метрик — масштабирование агентных систем может опираться не столько на увеличение размеров моделей, сколько на координацию, развитую коллективную память и налаженную передачу знаний внутри группы агентов.
Также на неделе:
- Zhipu AI выпустила GLM-5
- Microsoft представила self-supervised подход к обучению агентов в интерактивных текстовых средах. Он развивает у модели способность предсказывать последствия своих действий
- Google предложила метод постобучения мультимодальных LLM, оптимизирующий не только выходные токены, но и внутренние механизмы внимания
- Meta (запрещена в РФ), Cornell и CMU описали способ обучения LLM сложным задачам на рассуждение с изменением минимального числа параметров
- NVIDIA внедрила двухэтапный RL-подход с механизмом саморефлексии для повышения качества решения сложных задач
- Baidu создала автоматизированную систему генерации многошаговых кросс-доменных данных для обучения универсальных AI-агентов
- Ant Group представила метод итеративного рассуждения, оптимизированный с помощью RL
Новости представлены аналитическим центром red_mad_robot

