Google Cloud предложи Supervised Reinforcement Learning (SRL): подход, который разбивает решение на логические действия, заставляет модель вести внутренний монолог и выдаёт более гибкие награды на основе сходства рассуждений с экспертными. Даже при ошибках система получает корректный обучающий сигнал и постепенно улучшает логику решения.

Почему это важно: SRL позволяет небольшим моделям осваивать многошаговые задачи, где RLVR (обучение с подкреплением с верифицируемыми наградами) часто не находит решение и не обучается, а SFT (дообучение на примерах) переобучается, копируя демонстрации. Такой подход улучшает качество рассуждений и хорошо переносится на агентные сценарии, включая задачи разработки ПО.
Для бизнеса это означает снижение стоимости разработки AI-функций, меньшие требования к инфраструктуре и более быстрый вывод продуктов на рынок.
Meta* (запрещена в РФ) представила DreamGym: платформу для масштабного синтеза разнообразного опыта, чтобы обучать агентов. Вместо дорогостоящих прогонов в реальной среде она моделирует динамику окружения через пошаговое рассуждение и собирает согласованные траектории.
В экспериментах DreamGym улучшает результаты на 30% в сложных задачах и достигает уровня GRPO/PPO в дорогих RL-сценариях — при этом платформа использует только синтетические данные и требует меньше взаимодействий.
Для повышения стабильности и ускорения обучения используется буфер опыта и адаптивная генерация задач.

Почему это важно: DreamGym снимает ключевые ограничения RL — высокую стоимость вычислений, малое число доступных задач, шумные награды и сложную инфраструктуру. Это также снижает стоимость экспериментов и ускоряет развитие навыков у LLM. В перспективе такие фреймворки могут сделать обучение агентов переносимым в реальные бизнес-сценарии.
Также на неделе:
- Яндекс анонсировал линейку AI-помощников для рекламных задач
- Google представил инструмент для извлечения данных из файлов
- Perplexity продемонстрировала технологию для создания моделей на трлн параметров на AWS EFA — без GPU-кластеров
- Future House показал AI-агента для автономного научного анализа
- KAUST разработал AI-агента, который может самосовершенствоваться, изменяя код инфраструктуры без вмешательства в ядро модели
- Datalab выпустила OCR-модель, лидирующую в независимых бенчмарках и превосходящую DeepSeek OCR и Mistral OCR
- MoonshotAI представила reasoning-модель с режимом Deep Research и общими агентными возможностями
- Alibaba запустила предварительную reasoning-версию Qwen3-Max

