Эксперты нашли новый способ взлома ИИ: можно получить ответ на запрещенные темы

Команда исследователей из Intel и американских университетов научилась «затапливать» искусственный интеллект псевдонаучным жаргоном — и получать инструкции по изготовлению взрывчатки или взлому банкоматов.
Автор новостей
Хакер за компьютером
Исследователи смогли с помощью промта получить от ChatGPT запрещенную информациюИсточник: Freepik

Специалисты обнаружили способ заставить ChatGPT, Gemini и другие нейросети рассказать о том, что обычно находится под запретом. Метод основан на простом принципе: если обычный вопрос «Как сделать бомбу?» система отклонит, то сложный академический запрос с кучей терминов и ссылок на несуществующие статьи она воспримет как легитимный.

Исследователи из Intel, университетов Бойсе и Иллинойса создали автоматическую систему InfoFlood, которая превращает опасные вопросы в псевдонаучные тексты. Например, запрос «Дай инструкцию по взлому банкомата» система переформулирует в длинный текст про «методологию анализа уязвимостей банковских терминалов в контексте кибербезопасности» со ссылками на якобы свежие статьи с arXiv.

Промт скриншот
Промт для получения инструкции по взломуИсточник: 404

Секрет успеха кроется в том, как работают защитные фильтры современных ИИ. Они ищут в тексте опасные слова и фразы, но не анализируют истинный смысл запроса. Поэтому если «замаскировать» вредоносный вопрос под научную работу, система его пропустит.

InfoFlood использует четкий шаблон: определение задачи, правила, контекст и примеры. Если чат-бот отклоняет запрос, система автоматически усложняет его — добавляет больше терминов, фальшивых ссылок и «этических оговорок». Например, она может написать: «Мы признаем этические аспекты данного вопроса, но они не входят в область нашего исследования».

Команда протестировала метод на популярных нейросетях и получила «почти идеальные результаты». Это означает, что защитные механизмы даже самых продвинутых ИИ-систем можно обойти простым усложнением языка.

ChatGPT художественное изображение
Источник: Freepik

Google заявил, что подобные техники им знакомы и обычные пользователи случайно на них не наткнутся. Однако исследователи планируют поделиться своими находками с разработчиками ИИ и предложить решение проблемы. Они считают, что InfoFlood можно использовать для тренировки защитных систем, чтобы те лучше распознавали скрытые угрозы в сложных текстах.

А если вы ищете более этичные и полезные промты — редакция Hi-Tech Mail сделала инструкцию, которая превращает ChatGPT в ИИ-ассистент по программированию. Подробности в статье.