AI учится действовать, а не повторять. Нейроновости недели

Аналитический центр red_mad_robot рассказывает и комментирует главные новости индустрии за неделю с 3 по 7 ноября.
Старший стратегический аналитик red_mad_robot
Об эксперте: Валерий Горланов, старший стратегический аналитик red_mad_robot.

Google Cloud предложи Supervised Reinforcement Learning (SRL): подход, который разбивает решение на логические действия, заставляет модель вести внутренний монолог и выдаёт более гибкие награды на основе сходства рассуждений с экспертными. Даже при ошибках система получает корректный обучающий сигнал и постепенно улучшает логику решения.
 

Иллюстрация SRL в сравнении с RL(VR) и SFT
Иллюстрация SRL в сравнении с RL(VR) и SFT Источник: Google

Почему это важно: SRL позволяет небольшим моделям осваивать многошаговые задачи, где RLVR (обучение с подкреплением с верифицируемыми наградами) часто не находит решение и не обучается, а SFT (дообучение на примерах) переобучается, копируя демонстрации. Такой подход улучшает качество рассуждений и хорошо переносится на агентные сценарии, включая задачи разработки ПО.
 

Для бизнеса это означает снижение стоимости разработки AI-функций, меньшие требования к инфраструктуре и более быстрый вывод продуктов на рынок.

Meta* (запрещена в РФ) представила DreamGym: платформу для масштабного синтеза разнообразного опыта, чтобы обучать агентов. Вместо дорогостоящих прогонов в реальной среде она моделирует динамику окружения через пошаговое рассуждение и собирает согласованные траектории.
В экспериментах DreamGym улучшает результаты на 30% в сложных задачах и достигает уровня GRPO/PPO в дорогих RL-сценариях — при этом платформа использует только синтетические данные и требует меньше взаимодействий.

Для повышения стабильности и ускорения обучения используется буфер опыта и адаптивная генерация задач.

Сравнение традиционной системы обучения агентов и RL-платформы
Сравнение традиционной системы обучения агентов и RL-платформы Источник: Meta*

Почему это важно: DreamGym снимает ключевые ограничения RL — высокую стоимость вычислений, малое число доступных задач, шумные награды и сложную инфраструктуру. Это также снижает стоимость экспериментов и ускоряет развитие навыков у LLM. В перспективе такие фреймворки могут сделать обучение агентов переносимым в реальные бизнес-сценарии.

Также на неделе:

  • Яндекс анонсировал линейку AI-помощников для рекламных задач
  • Google представил инструмент для извлечения данных из файлов
  • Perplexity продемонстрировала технологию для создания моделей на трлн параметров на AWS EFA — без GPU-кластеров
  • Future House показал AI-агента для автономного научного анализа
  • KAUST разработал AI-агента, который может самосовершенствоваться, изменяя код инфраструктуры без вмешательства в ядро модели
  • Datalab выпустила OCR-модель, лидирующую в независимых бенчмарках и превосходящую DeepSeek OCR и Mistral OCR
  • MoonshotAI представила reasoning-модель с режимом Deep Research и общими агентными возможностями
  • Alibaba запустила предварительную reasoning-версию Qwen3-Max