От данных к опыту: AI осваивает долговременную память. Нейроновости недели

Аналитический центр red_mad_robot рассказывает и комментирует главные новости индустрии за неделю с 24 по 28 ноября.
Старший стратегический аналитик red_mad_robot

Salesforce Research и Stanford представили Agent0

Это система, в которой два агента, созданные из одной базовой модели, проходят многократный цикл ко-эволюции:

  • Curriculum agent постоянно генерирует сложные задачи
  • Executor agent учится их решать, используя встроенные инструменты

Самоподдерживающийся процесс в этой системе достигается за счет развития executor — рост его навыков заставляет первого агента все время усложнять задания. Такой подход усиливает способности базовых моделей: например, Qwen3-8B-Base показала рост на 18% в математике и на 24% в общем рассуждении.

Почему это важно: Agent0 полностью отказывается от внешних датасетов, а значит, не ограничен масштабом и может развиваться дальше человеческого знания. Потенциально это ускоряет создание специализированных AI-агентов. 

BAAI, Peking University и Hong Kong Polytechnic University представили General Agentic Memory (GAM)

Это подход, в котором агенты формируют память через глубокое исследование, а не поверхностный поиск. Система основана на двух компонентах: 

  • Memorizer сжимает информацию в легкой памяти, объединяя ее с соответствующими данными в страницу, и затем отправляет эти страницы в хранилище.
  • Researcher при запросе работает поверх собранной памяти как исследователь: определяет, какие данные нужны, планирует поиск, извлекает релевантные знания, проверяет их полноту и повторяет цикл, пока запрос не будет закрыт. После чего применяет найденные знания в разных задачах и доменах. 

Принцип превосходит существующие системы памяти и может достигать более 90% точности на сложных многошаговых задачах.

Почему это важно: современные агенты ограничиваются поверхностным поиском информации или создают память, привязанную к конкретной задаче, которую невозможно перенести на другие. Исследование же показывает, что память может стать накопленным активом: знания, полученные для одной задачи, масштабируются на будущие, формируя доменную экспертизу, а не одноразовый контекст. 

Также на прошлой неделе

  • Anthropic выпустила Claude Opus 4.5, выйдя в лидеры в программировании и агентных сценариях. Модель стала дешевле и получила параметр reasoning effort для управления глубиной рассуждений
  • Black Forest Labs представила Flux.2
  • Microsoft запустила агентную SLM (малую языковую модель) для работы с интерфейсами компьютера
  • Anthropic показала способ заставить AI-агентов работать часами, обходя потерю контекста между сессиями и обеспечивая стабильный пошаговый прогресс
  • AMD, IBM и Zyphra AI анонсировали первую Mixture of Experts (MoE) модель, обученную на стеке AMD
  • Moonshot AI разработала систему для ускорения прогонов в синхронном RL – обучении с подкреплением.