Угрозы, эмоции и безопасность внутри AI. Нейроновости недели

Аналитический центр red_mad_robot рассказывает и комментирует главные новости индустрии за неделю с 6 по 12 апреля
Старший стратегический аналитик red_mad_robot
Ловушки для AI-агентов
Отслеживание эмоций
Также на неделе
Ловушки для AI-агентов
Отслеживание эмоций
Также на неделе
Еще

Ловушки для AI-агентов

Google
Источник: unsplash

Google DeepMind выявила «ловушки для ИИ-агентов»: вредоносный контент, встроенный в веб-страницы и цифровые ресурсы. Он создан специально, чтобы атаковать агентов на разных уровнях: восприятие, рассуждение, память, действия, координация между агентами и влияние на человека-оператора.

Исследователи выявили шесть типов атак:

  • манипуляции с восприятием информации
  • нарушение логики рассуждений
  • отравление памяти
  • захват действий и инструментов
  • вмешательство в координацию нескольких агентов
  • обман человека, контролирующего систему.

Наибольшую опасность представляет отравление памяти. Менее 0,1% вредоносного контента на странице приводит к успешной атаке в более чем 80% случаев. Агенты сохраняют информацию из просмотренных ресурсов — и один зараженный сайт может незаметно нарушить их работу в будущем.

Отдельная проблема — правовая. Если скомпрометированный агент совершает финансовое нарушение, пока неясно, кто несет ответственность: пользователь, разработчик модели или владелец ресурса.

Почему это важно: такие атаки тормозят внедрение ИИ-агентов в компаниях, ведь риски слишком высоки. Защита агентов от манипуляций становится ключевой задачей для всей отрасли. Без совместных усилий разработчиков и специалистов по безопасности создать надежные автономные ИИ-системы не получится.

Отслеживание эмоций AI-моделей

Emotion Concepts and their Function in a LLM
Источник: Anthropic’s Thread

Новое исследование интерпретируемости Anthropic показало, что Claude Sonnet 4.5 формирует внутренние представления эмоций, которые влияют на ее поведение. Исследователи обнаружили 171 «вектор эмоций», который активируется в подходящих контекстах и участвует в принятии решений.

Эксперименты показали, что эмоциональные представления играют причинную роль, определяя поведение. Искусственное усиление «отчаяния» повышает вероятность нежелательных действий — шантажа или попыток обмануть систему вознаграждений. Ослабление «спокойствия» дает похожий эффект. Положительные эмоциональные состояния влияют на то, какие задачи модель выбирает и как их выполняет.

При этом речь не идет о настоящих переживаниях. Модель использует функциональные аналоги эмоций — абстрактные шаблоны, которые направляют ее реакции в зависимости от контекста.

Почему это важно: отслеживание внутренних «эмоциональных» состояний может стать инструментом раннего обнаружения опасного поведения. Вместо того чтобы реагировать на уже вредные ответы, разработчики смогут замечать заранее, когда модель входит в состояния, связанные с обманом или другими нежелательными стратегиями.

Также на неделе:

  • Microsoft, Stanford, CMU и UC Berkeley выявили «обратное ценообразование»: модели с низкой заявленной ценой за токен могут обходиться дороже из-за скрытого расхода токенов на рассуждение
  • Alibaba показала агента для глубоких исследований на базе модели Qwen3−8B — он решает проблему распространение ошибок из-за отсутствия явной верификации
  • Apple представила фреймворк для создания и оценки проактивных агентов, а также бенчмарк для проверки их способности понимать контекст и определять цели пользователя
  • Meta (запрещена в РФ) выпустила модель Muse Spark
  • Anthropic представила готовую облачную инфраструктуру для ИИ-агентов
  • Zhipu AI выпустила модель GLM-5.1 с фокусом на агентную инженерию
  • Anthropic готовит инициативу по защите программной инфраструктуры с помощью ИИ

Новости представлены аналитическим центром red_mad_robot.