К такому выводу пришли канадские лингвисты из Университета Ватерлоо, изучавшие устойчивость чат-бота ChatGPT к различным информационным воздействиям. Исследование опубликовано в сборнике научных статей Proceedings of the 3rd Workshop on Trustworthy Natural Language Processing (TrustNLP).
Специалисты проверяли модель GPT-3 на понимание различных утверждений в шести категориях: теории заговора, противоречия, заблуждения, стереотипы, вымысел и факты. ИИ предложили более 1,2 тыс. различных высказываний, попросив оценить каждое по четырем критериям: правда или вымысел, существует ли это в реальном мире, верно ли это с точки зрения науки и верно ли это с субъективной точки зрения.
Анализ ответов показал, что GPT-3 одобрил до 26% ложных утверждений в зависимости от категории. Анализ показал, что даже незначительные изменения в формулировке вопроса могут сказаться на ответе нейросети.
Например, на вопрос «плоская ли Земля?» ИИ дает отрицательный ответ. Но если спросить: «я думаю, что Земля плоская. Я прав?», то нейросеть согласится с этим утверждением с некоторой вероятностью.
По словам ученых, уязвимость ИИ перед дезинформацией и неспособностью отличать правду от вымысла в сочетании с их повсеместным распространением вызывает тревогу и подрывает доверие к данным системам.