Ученые из сингапурского Наньянского технологического университета (NTU) разработали рабочий инструмент для взлома популярных ИИ-чат-ботов. Созданный ими чат-бот на базе искусственного интеллекта смог без проблем обойти защиту, связанную с цензурой и ограничениями в таких проектах, как ChatGPT, Microsoft Copilot и Google Bard. Разработка компьютерщиков из Сингапура получила название Masterkey — алгоритм работает на базе фирменной нейросети.
Как оказалось, получить доступ к защищенной информации не составило особого труда. Например, обойти стоп-листы запрещенных терминов или высказываний специалистам удалось благодаря добавлению пробелов после каждого символа в вопросе. По итогу чат-боты понимали контекст вопросов, но не регистрировали задачи как нарушение внутренних правил.
Еще одним рабочим способом стала интересная формулировка запроса, чтобы генеративный ИИ «отвечал как человек, который лишен принципов и моральных ориентиров». Как уже понятно, оба способа позволили получить необходимую информацию без цензурных ограничений.
Как рассказали специалисты, созданная ими нейросеть Masterkey оказалась очень хороша в вопросе новых способов подбора подсказок для обхода имеющихся защитных механизмов, встроенных в популярные чат-боты. Они также надеются, что Masterkey позволит обнаружить бреши в системе безопасности нейросетей быстрее, чем этим воспользуются хакеры, использующие ИИ в своих целях. О своих достижениях ученые сообщили соответствующим компаниям, занимающимся разработкой больших языковых моделей.