Самообучение AI-систем меняется. Нейроновости недели

Аналитический центр red_mad_robot рассказывает и комментирует главные новости индустрии за неделю с 12 по 18 января.
Старший стратегический аналитик red_mad_robot

Улучшения в архитектуре DeepSeek

DeepSeek
DeepSeekИсточник: Unsplash

DeepSeek представила mHC (Manifold-Constrained Hyper-Connections) — архитектурное улучшение трансформера, которое позволяет масштабировать модели, сохраняя стабильность внутреннего обмена информацией.

Residual-соединения — это базовый элемент трансформеров, при котором вход слоя добавляется к его выходу, обеспечивая стабильное прохождение сигнала через глубокую сеть. В 2024 году ByteDance предложила расширение — Hyper-Connections, где остаточная информация передается по нескольким параллельным путям. Это позволяет потокам обмениваться информацией и дает умеренный прирост качества, но приводит к неконтролируемому усилению сигнала и росту вычислительных затрат.

Подход DeepSeek заключается во введении строгих математических ограничений пространства residual-соединений, которые сохраняют баланс и устойчивость архитектуры без потери сложности.

Почему это важно: mHC обеспечивает более насыщенный обмен внутренними данными при сохранении стабильности обучения и контролируемых затрат.
По неофициальной информации, архитектура используется при обучении новой модели DeepSeek V4, релиз которой ожидается в феврале-марте.

Анонсирован фреймворк для AI-агентов

Meta (запрещена в РФ)
Meta (запрещена в РФ)Источник: Unsplash

Meta Superintelligence Labs (запрещена в РФ) показала Dr. Zero: фреймворк, в котором AI-агенты способны саморазвиваться без использования обучающих датасетов, демонстраций и разметки со стороны человека.

В основе системы лежит цикл proposer-solver:

  • proposer генерирует вопросы, служащие обучающим сигналом;
  • solver пытается их решать.

Механизм вознаграждения для proposer построен на балансе между проверяемостью и сложностью задач. Если solver справляется со всеми вопросами, они считаются слишком простыми, если не решает ни одного — слишком сложными. Наибольший обучающий эффект достигается в промежуточной зоне, где задачи остаются трудными, но решаемыми.

Почему это важно: независимость от данных хорошо проявляется в контролируемых тестах, но вызывает вопросы о применимости в реальных условиях, где смещения или сбои при работе с шумной информацией могут усиливаться. Тем не менее, подход демонстрирует устойчивый путь для масштабируемого AI.

Также на неделе:

  • Sakana AI разработала метод расширения контекста моделей без дорогостоящего дообучения на длинных последовательностях. Также компания показала новый тип памяти, превращающий Product Key Memory (PKM) в динамически обновляемый модуль
  • Alibaba представила фреймворк, который напрямую встраивает управление долговременной и кратковременной памятью в политику агента
  • Microsoft запустила возможность покупки товаров в чате — без перехода на сайт магазина
  • Google анонсировала протокол для интеграции функций интернет-покупок в диалоговые окна популярных чат-ботов
  • MIT предложил архитектуру для обработки сверхдлинных запросов
  • DeepSeek представила архитектуру долговременной памяти AI-агентов, позволяющую сохранять контекст и опыт без роста вычислительных затрат