Последствия усложнения AI-моделей и другие нейроновости недели

Аналитический центр red_mad_robot рассказывает и комментирует главные новости индустрии за неделю со 2 по 8 февраля.
Старший стратегический аналитик red_mad_robot

Изменения в фильтрации данных

Shaping capabilities with token-level data filtering
Источник: Anthropic

Anthropic и Stanford показали подход токенной фильтрации данных (token-level data filtering) на этапе предобучения, позволяющий избирательно ограничивать развитие отдельных способностей модели. На примере медицинских знаний они доказали, что такой подход работает лучше и точнее, чем удаление целых документов, сильно замедляет обучение нежелательной области и не портит другие навыки модели в смежных и общих темах. При этом эффективность растет с масштабом вычислений. При обучении моделей от 61M до 1,8B параметров фильтрация становится заметно мощнее.

Почему это важно: существующие способы защиты моделей — такие как RLHF — остаются уязвимыми: их сравнительно легко обойти с помощью джейлбрейков или дополнительного дообучения. Авторы же предлагают более фундаментальный подход — устранять риск на раннем этапе, фильтруя данные уже в процессе предварительного обучения модели.

Ошибки усложненных AI-систем

EPFL
Источник: Unsplash

Anthropic вместе с EPFL исследуют природу ошибок, которые совершают AI-системы по мере усложнения задач и роста их «интеллекта». Исследователи пытаются выяснить, будут ли будущие сбои AI результатом систематического стремления к неправильным целям (рассогласованию) или же следствием хаотичного и непредсказуемого поведения, которое они называют состоянием «беспорядка» (hot mess).

Ключевой результат исследования заключается в том, что по мере удлинения рассуждений и усложнения последовательностей действий ответы модели теряют внутреннюю согласованность. Этот эффект проявляется в самых разных контекстах — от стандартных тестов до задач агентного программирования.

Кроме того, крупные модели демонстрируют ограниченную надежность. Масштабирование действительно уменьшает число ошибок в простых сценариях, но в задачах, требующих длительного и многошагового мышления, увеличение размера модели не решает проблему нестабильности и непредсказуемости поведения.

Почему это важно: подход меняет стратегию безопасности AI: вместо абстрактных угроз фокус смещается на риски, похожие на промышленные аварии из-за сбоев в сложных цепочках решений. Несогласованность поведения становится столь же опасной, как и проблема согласования целей, поскольку даже корректно обученная модель может вести себя непредсказуемо.

Также на неделе:

  • Anthropic представила Claude Opus 4.6.
  • OpenAI выпустила GPT-5.3.-Codex и анонсировала платформу для управления AI-агентами в компаниях.
  • MIT, Improbable AI Lab и ETH Zurich разработали метод обучения, при котором модель осваивает новые навыки без потери старых знаний.
  • MIT и ETH Zurich представили RL-подход к обучению LLM, в котором она учится на собственных ошибках без внешнего учителя.
  • Google Cloud AI Research представилa систему генерации данных, которая с помощью двух агентов и цикла обратной связи от выполнения автоматически создает качественные и контролируемые по сложности пары «вопрос-ответ».
  • Tencent предлагает бенчмарк, который проверяет, умеют ли модели реально рассуждать в контексте, а не просто воспроизводить выученные паттерны.
  • Meta (компания признана в РФ экстремистской и запрещена) предложила подход к предобучению модели, который улучшает качество, безопасность и фактичность уже на этапе pretraining, а не после него.

Новости представлены аналитическим центром red_mad_robot