AI-агенты учатся быть в контексте. Нейроновости недели

Аналитический центр red_mad_robot рассказывает и комментирует главные новости индустрии за неделю со 9 по 15 марта.
Старший стратегический аналитик red_mad_robot

AI-агент с обоснованными рассуждениями

KARL
Источник: arxiv

Databricks показала KARL (Knowledge Agents via Reinforcement Learning): ИИ-агента для корпоративного поиска, который специализируется на обоснованном рассуждении. Он способен автономно искать информацию в больших закрытых базах данных, извлекать нужные фрагменты и делать комплексные выводы на основе найденного.

Команда разработала несколько новых подходов: бенчмарк KARLBench для оценки ИИ-агентов, включающий задачи от поиска сущностей до анализа корпоративных заметок:

  • Систему обучения Agentic Synthesis, где агент сам исследует базу документов, формулирует вопросы и отбирает полезные примеры.
     
  • Метод пост-обучения OAPL — более стабильный и дешевый вариант офлайн-обучения с подкреплением.

Все вместе помогает агенту решать новые типы задач, которых не было в тренировочных данных.

В тестах KARL обошел Claude 4.6 и GPT-5.2 в задачах работы с корпоративными знаниями. При этом справляется с ними на 33% дешевле и на 47% быстрее.

Почему это важно: для сложной аналитики компаниям не обязательно использовать крупные и дорогие модели. KARL показывает, что компактная система, обученная эффективным стратегиям поиска, дает сопоставимый результат. Следующий этап корпоративного ИИ — агентные поисковые системы, которые сами выстраивают стратегию работы с данными и решают многошаговые задачи.

Новый подход от Accenture

Memex(RL)
Источник: arxiv

Accenture представила Memex (RL): подход, который дает ИИ-агентам индексированную память. Обычно агент работает только с тем, что умещается в его контекстное окно. Memex (RL) позволяет формировать структурированный опыт прошлых действий и результатов и извлекать нужное по необходимости. Это похоже на то, как человек использует заметки и закладки при работе с большим объемом информации. При этом агент сам управляет этим процессом с помощью обучения с подкреплением: решает, когда разгрузить память, как озаглавить сохраненный фрагмент и когда его достать.

В тестах ALFWorld успешность выполнения задач выросла с 24,2% до 85,6%. А пиковое потребление токенов контекста сократилось почти вдвое.

Почему это важно: агенты начинают эффективно работать на длинных дистанциях, не забывают важные детали и не тратят лишние ресурсы на перечитывание разросшегося контекста. Это особенно нужно там, где задачи растянуты во времени или требуют множества шагов.

Также на неделе:

  • OpenAI рассказала о наборе из 14 тысяч сложных задач для оценки способности ИИ-моделей контролировать процесс рассуждения с ограничениями на скрытые шаги
  • Microsoft Research показала фреймворк для повышения безопасности ИИ-агентов при выполнении многошаговых задач со внешними инструментами
  • Princeton University представил фреймворк, который превращает взаимодействие пользователя с ИИ-агентом в источник непрерывного обучения
  • Meta (запрещена в РФ), OpenAI и xAI описали систему непрерывного улучшения моделей для развлекательных и социальных чатов
  • Perplexity анонсировала ИИ-агента, способного работать локально на Mac mini
  • NVIDIA выпустила модель Nemotron 3 Super
  • Google представила Gemini Embedding 2 — первую нативно мультимодальную эмбеддинг-модель
  • Microsoft совместно с Anthropic выпустила инструмент для выполнения сложных задач от имени пользователя в экосистеме Microsoft 365

Новости представлены аналитическим центром red_mad_robot.