Улучшения в архитектуре DeepSeek

DeepSeek представила mHC (Manifold-Constrained Hyper-Connections) — архитектурное улучшение трансформера, которое позволяет масштабировать модели, сохраняя стабильность внутреннего обмена информацией.
Residual-соединения — это базовый элемент трансформеров, при котором вход слоя добавляется к его выходу, обеспечивая стабильное прохождение сигнала через глубокую сеть. В 2024 году ByteDance предложила расширение — Hyper-Connections, где остаточная информация передается по нескольким параллельным путям. Это позволяет потокам обмениваться информацией и дает умеренный прирост качества, но приводит к неконтролируемому усилению сигнала и росту вычислительных затрат.
Подход DeepSeek заключается во введении строгих математических ограничений пространства residual-соединений, которые сохраняют баланс и устойчивость архитектуры без потери сложности.
Почему это важно: mHC обеспечивает более насыщенный обмен внутренними данными при сохранении стабильности обучения и контролируемых затрат.
По неофициальной информации, архитектура используется при обучении новой модели DeepSeek V4, релиз которой ожидается в феврале-марте.
Анонсирован фреймворк для AI-агентов

Meta Superintelligence Labs (запрещена в РФ) показала Dr. Zero: фреймворк, в котором AI-агенты способны саморазвиваться без использования обучающих датасетов, демонстраций и разметки со стороны человека.
В основе системы лежит цикл proposer-solver:
- proposer генерирует вопросы, служащие обучающим сигналом;
- solver пытается их решать.
Механизм вознаграждения для proposer построен на балансе между проверяемостью и сложностью задач. Если solver справляется со всеми вопросами, они считаются слишком простыми, если не решает ни одного — слишком сложными. Наибольший обучающий эффект достигается в промежуточной зоне, где задачи остаются трудными, но решаемыми.
Почему это важно: независимость от данных хорошо проявляется в контролируемых тестах, но вызывает вопросы о применимости в реальных условиях, где смещения или сбои при работе с шумной информацией могут усиливаться. Тем не менее, подход демонстрирует устойчивый путь для масштабируемого AI.
Также на неделе:
- Sakana AI разработала метод расширения контекста моделей без дорогостоящего дообучения на длинных последовательностях. Также компания показала новый тип памяти, превращающий Product Key Memory (PKM) в динамически обновляемый модуль
- Alibaba представила фреймворк, который напрямую встраивает управление долговременной и кратковременной памятью в политику агента
- Microsoft запустила возможность покупки товаров в чате — без перехода на сайт магазина
- Google анонсировала протокол для интеграции функций интернет-покупок в диалоговые окна популярных чат-ботов
- MIT предложил архитектуру для обработки сверхдлинных запросов
- DeepSeek представила архитектуру долговременной памяти AI-агентов, позволяющую сохранять контекст и опыт без роста вычислительных затрат

