LLM научились отсеивать опасную информацию при обучении

Anthropic представила Selective Gradient Masking: подход обучает модель «удалять» опасную информацию во время дообучения, не затрагивая сами данные.
- Сначала модели явно указывают, какая информация считается опасной: ее помечают для хранения в изолированных ячейках, а остальной контент — как допустимый для обычных ячеек.
- Далее модель учится самостоятельно распознавать опасный контент и направлять его в изолированные ячейки, откуда его потом можно будет удалить.
- На финальном этапе изолированные ячейки обнуляются — и потенциально вредная информация исчезает из параметров модели.
Отдельно исследователи отмечают, что даже без явной разметки LLM со временем начинает сама направлять подозрительный контент в изолированные ячейки.
Почему это важно: сегодня ключевая проблема безопасности LLM — обучение на огромных массивах данных, где неизбежно присутствует потенциально опасная информация. Традиционный подход — жесткая фильтрация данных до обучения — плохо масштабируется и часто приводит к потере полезных знаний.
Anthropic предлагает альтернативу: повышать безопасность уже обученных моделей, увеличивая вычислительные затраты всего на ~5%. Это позволяет снижать риски, не ухудшая качество и полноту знаний.
Tencent заставила модели учиться друг у друга

Tencent показалa R-FEW: метод обучения, в котором модели учатся друг у друга через итеративный процесс вопросов и ответов.
Challenger на каждом цикле генерирует сложные вопросы. Чтобы избежать смещения в нереалистичные или нерелевантные сценарии, модель регулярно калибруется небольшой долей вопросов с ответами, размеченными людьми. Это позволяет удерживать синтетические задачи в рамках реальных пользовательских запросов.
Solver же учится отвечать как на реальные, так и на синтетические вопросы. При этом сложность задач растет постепенно — модель сама выбирает, какие задания лучше всего подходят для текущего уровня обучения.
Почему это важно: исследование показывает, что модели можно эффективно улучшать при минимальном участии человека: достаточно всего 1−5% размеченных данных, чтобы достичь качества систем, обученных на в 20 раз большем объеме разметки. При этом обучение не деградирует — задачи не становятся однообразными или искусственными.
Также на неделе:
- OpenAI выпустила GPT-5.2, улучшив показатели в кодинге, визуальном понимании и сложных рассуждениях
- Oppo AI представила бенчмарк из 100 исследовательских задач и 419 критериев для оценки качества агентов глубокого исследования
- Carnegie Mellon University запустил бенчмарк для проверки безопасности кода от AI-агентов
- Google DeepMind разработала универсального агента, способного понимать и действовать в разных 3D-виртуальных мирах
- Mistral AI выпустила модели Devstral 2 и Devstral Small 2 для кодинга, а также CLI-инструмент для интеграции AI-агентов в терминал
- Anthropic, OpenAI, Google и Microsoft планируют создать организацию для совместной разработки открытых стандартов для AI-агентов

