Глубина рассуждений моделей

Google оспаривает мнение, что длинные цепочки рассуждений улучшают результаты моделей. Исследователи показали, что простая длина ответа часто ведет к ошибкам — модель может переусложнять рассуждение и фиксироваться на неверных предпосылках.
Вместо подсчета токенов компания вводит концепцию токенов «глубокого мышления» и предлагает метрику Deep-Thinking Ratio (DTR). Она оценивает, насколько активно LLM думает над каждым токеном на уровне внутренних слоев.
На ее основе был разработан метод Think@n, который использует DTR для эффективного масштабирования на этапе генерации. В отличие от дорогого подхода Self-Consistency (генерация множества вариантов и выбор наиболее частого) Think@n отбирает ответы с высоким DTR и отбрасывает слабые варианты на раннем этапе.
Почему это важно: работа показывает, что внутренние сигналы модели могут лучше предсказывать корректность ответа. Это позволяет получать сопоставимую или более высокую точность по сравнению с дорогими методами, снижая вычислительные затраты примерно в два раза.
AI-агенты учатся декомпозировать

Oppo AI представил Search More, Think Less (SMTL): фреймворк, который предлагает другую логику работы с задачами. Вместо длинной цепочки рассуждений AI-агент сразу разбивает сложный запрос на множество независимых подзадач и начинает собирать информацию по ним одновременно.
Поскольку при таком подходе объем информации кратно увеличивается, авторы внедрили систему управления контекстом. Агент регулярно пересматривает свой план работы:
- объединяет найденные данные;
- удаляет уже выполненные задач;
- отбрасывает устаревшую информацию.
Это помогает укладываться в ограничения контекстного окна (бюджет токенов) и сохранять эффективность при работе с длинными и сложными запросами.
В результате SMTL сократил число шагов инференса на 70,7% и показал 48,6% на BrowseComp, 75,7% на GAIA и 82% на Xbench, эффективно работая как с простыми, так и со сложными исследовательскими задачами.
Почему это важно: авторы предлагают новый подход к созданию AI-агентов и альтернативу длинным цепочкам рассуждений. Вместо последовательного анализа система разбивает задачу на части и решает их параллельно, что снижает задержки и сокращает число шагов инференса. В сочетании с обучением на разнообразных синтетических данных такой подход ускоряет поиск информации и сложный анализ, особенно в задачах с большим количеством шагов.
Также на неделе:
- Microsoft показала гибридный RL-фреймворк для AI-агентов, сочетающий параметрическую оптимизацию политики с непараметрическими обновлениями памяти
- Sakana AI предложила два метода, позволяющих быстро адаптировать модели к новым знаниям и задачам без длительного дообучения
- Meituan разработала систему генерации кода с несколькими AI-агентами, где RL используется для выбора оптимального способа их взаимодействия
- DeepSeek представила новую архитектуру, ускоряющую работу AI-агентов почти в два раза за счет второго канала обработки данных
- OpenAI выпустила GPT-5.4 в двух версиях — Thinking и Pro. Модель использует меньше токенов для рассуждений и быстрее выдает ответы, хотя стоимость ее использования немного выросла
- Anthropic запустила инструмент переноса памяти между различными AI-ассистентами и Claude
- Google анонсировала Gemini 3.1 Flash-Lite, которая сочетает сверхбыструю работу с минимальной стоимостью использования
Новости представлены аналитическим центром red_mad_robot.

