AI-агенты лучше накапливают опыт. Нейроновости недели

Аналитический центр red_mad_robot рассказывает и комментирует главные новости индустрии за неделю с 16 по 22 марта
Старший стратегический аналитик red_mad_robot

Открытая инфраструктура SkillNet

SkillNet
Источник: arxiv

Alibaba, Ant, Tencent, Oppo и другие исследователи представили SkillNet: открытую инфраструктуру для создания, оценки и организации навыков ИИ. Работа системы начинается с этапа сбора — SkillNet анализирует разные источники и на их основе генерирует новые навыки. Далее происходит отбор, при котором удаляются дубликаты, определяется категория и проводится оценка по безопасности, полноте, исполнимости, поддерживаемости и учету затрат.

Чтобы управлять растущей базой знаний, SkillNet использует трехуровневую онтологию:

Верхний уровень: таксономия навыков с распределением по крупным направлениям с уточняющими тегами.

Средний уровень: граф связей с отображением зависимостей и семантических отношений между навыками.

Нижний уровень: объединение отдельных навыков в модульные наборы для решения конкретных задач.

Эксперименты на ALFWorld, WebShop и ScienceWorld показали, что инфраструктура существенно повышает эффективность ИИ-агентов: средняя награда растет на 40%, а количество шагов снижается на 30%.

Почему это важно: SkillNet превращает разрозненный опыт ИИ-агентов в систему многоразовых навыков. Однажды отработанные решения можно применять повторно — это экономит вычислительные ресурсы и время. А система строгих оценок гарантирует, что в репозиторий попадают только безопасные и работоспособные навыки.

При этом система не статична: чем активнее ее используют, тем более зрелыми и адаптивными становятся возможности. Это формирует еще один шаг к самостоятельным и автономным агентам.

Улучшение остаточной памяти AI

Attention-Residuals
Источник: Unsplash

Moonshot выпустила Attention Residuals: подход, где сеть сама решает, какие представления и в каких пропорциях использовать из прошлых слоев в зависимости от входных данных. По сути, механизм внимания переносится по вертикали — между слоями, а не только токенами.

Чтобы это также работало на больших моделях без перегрузки памяти, авторы предложили механизм Block AttnRes. Он делит сеть на блоки, внутри которых используется привычное накопление, а умное внимание включается только между блоками.

На практике это дает сопоставимую точность при снижении вычислений примерно в 1,25 раза, увеличивает время инференса менее чем на 2% и делает обучение более стабильным.

Почему это важно: исследователи предложили улучшить остаточные связи (residual connections) в нейросетях. Обычно каждый слой сети просто добавляет свой результат к тому, что уже накопилось, — Attention Residuals меняет логику. Подход позволяет учиться избирательно обращаться к представлениям из предыдущих слоев, которые действительно важны на данном шаге. Это снижает размытие информации и контролирует рост внутренних состояний модели.

Также на неделе:

  • Google Research показала, что просьба рассуждать LLM помогает расширить границы знаний модели даже в простых фактических вопросах
  • Amazon предложила иерархическую систему планирования для сложных веб-задач на основе динамических AND/OR-деревьев
  • University of Maryland представил метод обучения с подкреплением для ИИ-агентов, который учит не просто повторять правильные действия, а осознанно оценивать качество и понимать, почему одно решение лучше другого
  • IBM разработала фреймворк, который извлекает полезные выводы из траекторий работы агента и улучшает его результаты через контекстную память
  • NVIDIA анонсировала NemoClaw (корпоративную версию OpenClaw), ЦОД в космосе, инфраструктуру Vera Rubin и модель для автономного вождения
  • Mistral открыла платформу для обучения моделей на своих закрытых данных
  • Manus представил ИИ-агента для работы с файлами и приложениями на компьютере
  • MiniMax выпустил самоэволюционирующую модель

Новости представлены аналитическим центром red_mad_robot.