Меньше ресурсов, больше автономии AI. Нейроновости недели

Аналитический центр red_mad_robot рассказывает и комментирует главные новости индустрии за неделю с 23 по 29 марта.
Старший стратегический аналитик red_mad_robot

Автономное самообучение AI-систем

HyperAgents
HyperAgents Источник: arxiv

Забрать с диска: ver. 1

Meta* (запрещена в РФ) и исследователи из нескольких институтов представили HyperAgents: концепцию, в которой ИИ-агенты решают задачи и параллельно улучшают собственные механизмы обучения. Раньше такой механизм создавался людьми вручную и оставался фиксированным, HyperAgents объединяют в одной изменяемой системе сразу два компонента:

  • агента-исполнителя, который решает задачу;
  • мета-агента, который оценивает промежуточные результаты и корректирует стратегию.

Исследователи применили этот подход к концепции Darwin Gödel Machine (DGM) и создали ее модификацию — DGM-Hyperagents (DGM-H). Поскольку мета-агент также открыт для изменений, алгоритм совершенствует навыки решения задач и сам процесс поиска улучшений. В итоге система может автономно развиваться без ограничений, которые привносит человек.

Эксперименты показали рост эффективности в программировании, рецензировании статей, робототехнике и проверке олимпиадных работ по математике. При этом система изобретала собственные механизмы оптимизации — вела журналы производительности или выстраивала сложные правила для принятия решений. И это работает вдолгую: улучшения на мета-уровне переносятся между областями и накапливаются с каждой итерацией.

Почему это важно: при соблюдении строгих мер безопасности, например запуска кода в изолированных средах, такие системы открывают реальный путь к ИИ, способного самостоятельно ускорять собственный прогресс.

Снижение требований к оборудованию

Google
GoogleИсточник: Unsplash

Google Research разработала TurboQuant: алгоритм сжатия KV-кэша, который объединяет сразу два существующих метода.

  1. PolarQuant преобразует векторы в полярную форму, описывая данные через силу и направление сигнала.
  2. QJL затем корректирует оставшиеся ошибки с помощью одного бита и создает компактное представление.

В результате объем памяти, необходимый для работы LLM, сокращается в шесть раз без потери точности. На видеокартах Nvidia H100 TurboQuant ускоряет вычисления до восьми раз по сравнению со стандартными методами. Дообучение модели при этом не требуется. Также алгоритм превосходит конкурентов в задачах векторного поиска — технологии, лежащей в основе быстрого подбора релевантных результатов в поисковых системах.

Почему это важно: подходы вроде TurboQuant резко снижают требования к оборудованию. Модели можно сжимать без потери качества — это значит, что для их работы нужно меньше памяти и вычислительной мощности. Такой подход уменьшает спрос на дорогое специализированное оборудование, на котором зарабатывают компании из сегмента ИИ-памяти. Именно поэтому релиз Google вызвал падение их акций на 3−5%.

Также на неделе:

  • Alibaba запустила подход, в котором агент и механизм извлечения опыта обучаются совместно. Это позволяет значительно эффективнее использовать накопленные данные
  • Ян Лекун и исследователи из нескольких университетов представили модель с обучением из сырых пикселей без промежуточных этапов обработки
  • Исследователи UNC-Chapel Hill, Carnegie Mellon University, UC Santa Cruz и UC Berkeley разработали фреймворк непрерывного мета-обучения, сочетающий быструю адаптацию без градиентов и плановую оптимизацию
  • Microsoft Research представила фреймворк, который позволяет моделям улучшаться через реальные текстовые взаимодействия без явных наград и разметки человеком
  • Google DeepMind рассказала об алгоритме обучения с исследованием, повышающем эффективность использования данных при выравнивании LLM через RL на основе человеческой обратной связи в десять раз
  • ARC Prize выпустила бенчмарк для оценки способностей к рассуждению
  • Anthropic добавила в Claude Cowork и Claude Code возможность управления компьютером

Новости представлены аналитическим центром red_mad_robot