Автономное самообучение AI-систем

Забрать с диска: ver. 1
Meta* (запрещена в РФ) и исследователи из нескольких институтов представили HyperAgents: концепцию, в которой ИИ-агенты решают задачи и параллельно улучшают собственные механизмы обучения. Раньше такой механизм создавался людьми вручную и оставался фиксированным, HyperAgents объединяют в одной изменяемой системе сразу два компонента:
- агента-исполнителя, который решает задачу;
- мета-агента, который оценивает промежуточные результаты и корректирует стратегию.
Исследователи применили этот подход к концепции Darwin Gödel Machine (DGM) и создали ее модификацию — DGM-Hyperagents (DGM-H). Поскольку мета-агент также открыт для изменений, алгоритм совершенствует навыки решения задач и сам процесс поиска улучшений. В итоге система может автономно развиваться без ограничений, которые привносит человек.
Эксперименты показали рост эффективности в программировании, рецензировании статей, робототехнике и проверке олимпиадных работ по математике. При этом система изобретала собственные механизмы оптимизации — вела журналы производительности или выстраивала сложные правила для принятия решений. И это работает вдолгую: улучшения на мета-уровне переносятся между областями и накапливаются с каждой итерацией.
Снижение требований к оборудованию

Google Research разработала TurboQuant: алгоритм сжатия KV-кэша, который объединяет сразу два существующих метода.
- PolarQuant преобразует векторы в полярную форму, описывая данные через силу и направление сигнала.
- QJL затем корректирует оставшиеся ошибки с помощью одного бита и создает компактное представление.
В результате объем памяти, необходимый для работы LLM, сокращается в шесть раз без потери точности. На видеокартах Nvidia H100 TurboQuant ускоряет вычисления до восьми раз по сравнению со стандартными методами. Дообучение модели при этом не требуется. Также алгоритм превосходит конкурентов в задачах векторного поиска — технологии, лежащей в основе быстрого подбора релевантных результатов в поисковых системах.
Также на неделе:
- Alibaba запустила подход, в котором агент и механизм извлечения опыта обучаются совместно. Это позволяет значительно эффективнее использовать накопленные данные
- Ян Лекун и исследователи из нескольких университетов представили модель с обучением из сырых пикселей без промежуточных этапов обработки
- Исследователи UNC-Chapel Hill, Carnegie Mellon University, UC Santa Cruz и UC Berkeley разработали фреймворк непрерывного мета-обучения, сочетающий быструю адаптацию без градиентов и плановую оптимизацию
- Microsoft Research представила фреймворк, который позволяет моделям улучшаться через реальные текстовые взаимодействия без явных наград и разметки человеком
- Google DeepMind рассказала об алгоритме обучения с исследованием, повышающем эффективность использования данных при выравнивании LLM через RL на основе человеческой обратной связи в десять раз
- ARC Prize выпустила бенчмарк для оценки способностей к рассуждению
- Anthropic добавила в Claude Cowork и Claude Code возможность управления компьютером
Новости представлены аналитическим центром red_mad_robot

