OpenAI представила ChatGPT 5.2, а Anthropic научилась удалять опасные данные. Нейроновости недели

Аналитический центр red_mad_robot рассказывает и комментирует главные новости индустрии за неделю с 8 по 14 декабря.
Старший стратегический аналитик red_mad_robot

LLM научились отсеивать опасную информацию при обучении

Anthrop\c
Источник: copyrightlately

Anthropic представила Selective Gradient Masking: подход обучает модель «удалять» опасную информацию во время дообучения, не затрагивая сами данные.

  1. Сначала модели явно указывают, какая информация считается опасной: ее помечают для хранения в изолированных ячейках, а остальной контент — как допустимый для обычных ячеек.
  2. Далее модель учится самостоятельно распознавать опасный контент и направлять его в изолированные ячейки, откуда его потом можно будет удалить.
  3. На финальном этапе изолированные ячейки обнуляются — и потенциально вредная информация исчезает из параметров модели.

Отдельно исследователи отмечают, что даже без явной разметки LLM со временем начинает сама направлять подозрительный контент в изолированные ячейки.

Почему это важно: сегодня ключевая проблема безопасности LLM — обучение на огромных массивах данных, где неизбежно присутствует потенциально опасная информация. Традиционный подход — жесткая фильтрация данных до обучения — плохо масштабируется и часто приводит к потере полезных знаний.

Anthropic предлагает альтернативу: повышать безопасность уже обученных моделей, увеличивая вычислительные затраты всего на ~5%. Это позволяет снижать риски, не ухудшая качество и полноту знаний.

Tencent заставила модели учиться друг у друга

Офис Tencent. Фото: Nikkei Asian Review

Tencent показалa R-FEW: метод обучения, в котором модели учатся друг у друга через итеративный процесс вопросов и ответов.

Challenger на каждом цикле генерирует сложные вопросы. Чтобы избежать смещения в нереалистичные или нерелевантные сценарии, модель регулярно калибруется небольшой долей вопросов с ответами, размеченными людьми. Это позволяет удерживать синтетические задачи в рамках реальных пользовательских запросов.

Solver же учится отвечать как на реальные, так и на синтетические вопросы. При этом сложность задач растет постепенно — модель сама выбирает, какие задания лучше всего подходят для текущего уровня обучения.

Почему это важно: исследование показывает, что модели можно эффективно улучшать при минимальном участии человека: достаточно всего 1−5% размеченных данных, чтобы достичь качества систем, обученных на в 20 раз большем объеме разметки. При этом обучение не деградирует — задачи не становятся однообразными или искусственными.

Также на неделе:

  • OpenAI выпустила GPT-5.2, улучшив показатели в кодинге, визуальном понимании и сложных рассуждениях
  • Oppo AI представила бенчмарк из 100 исследовательских задач и 419 критериев для оценки качества агентов глубокого исследования
  • Carnegie Mellon University запустил бенчмарк для проверки безопасности кода от AI-агентов
  • Google DeepMind разработала универсального агента, способного понимать и действовать в разных 3D-виртуальных мирах
  • Mistral AI выпустила модели Devstral 2 и Devstral Small 2 для кодинга, а также CLI-инструмент для интеграции AI-агентов в терминал
  • Anthropic, OpenAI, Google и Microsoft планируют создать организацию для совместной разработки открытых стандартов для AI-агентов