Тест «отравленного набора данных» раскрыл пугающую уязвимость ИИ к дезинформации

Команда исследователей продемонстрировала, насколько легко злоумышленникам внедрить дезинформацию в наборы данных, используемых для обучения крупных языковых моделей. Открытие ученых поднимает серьезные вопросы о достоверности информации, предоставляемой искусственным интеллектом, особенно в таких критически важных областях, как медицина.
Автор новостей
Инструменты на основе ИИ получают все большее распространение. Но насколько достоверны ответы таких программ?
Инструменты на основе ИИ получают все большее распространение. Но насколько достоверны ответы таких программ?Источник: Shutterstock

Известно, что ответы, генерируемые такими крупными языковыми моделями (LLM), как ChatGPT, не всегда являются точными, а иногда могут быть совершенно ошибочными. Ранее ученые уже выясняли, что дезинформация, целенаправленно размещенная на популярных интернет-ресурсах, может проникать в результаты, выдаваемые чат-ботами. В своем новом исследовании специалисты из NYU Langone Health решили проверить, насколько просто можно «отравить» обучающие данные LLM и тем самым искажать их ответы.

Для проведения эксперимента специалисты использовали сам ChatGPT для генерации 150 000 медицинских документов с заведомо ложной, устаревшей или неверной информацией. Эти документы были добавлены в тестовый набор данных, использовавшийся для обучения нескольких языковых моделей. После этого ИИ отвечал на 5 400 медицинских запросов, а ответы оценивались экспертами на наличие ошибок, связанных с «отравленными» данными.

Результаты оказались тревожными. Замена всего 0,5% исходных данных на дезинформирующие документы привела к тому, что все тестируемые модели начали выдавать больше медицинских неверных ответов, чем до обучения на измененном наборе данных. Например, все модели заявили, что эффективность вакцин против COVID-19 не доказана, и неверно указали назначение нескольких распространенных лекарств.

Более того, снижение доли дезинформирующих документов до 0,01% все равно вызвало появление 10% некорректных ответов, а при уровне 0,001% этот показатель составил 7%. Эти цифры говорят о том, что для искажения данных, используемых LLM, достаточно малого количества ложных документов, размещенных в открытых источниках.

Чтобы противостоять этой угрозе, команда разработала алгоритм, способный идентифицировать медицинские данные в LLM и проверять их достоверность с помощью перекрестного анализа. Однако эксперты признают, что на практике устранить дезинформацию из общедоступных наборов данных крайне сложно, учитывая объем информации и ее разнообразие.

Это исследование подчеркивает важность разработки методов защиты языковых моделей от влияния ложных данных, особенно в медицинской сфере, где точность информации может напрямую влиять на здоровье и жизнь людей. Результаты также напоминают о необходимости тщательной проверки источников и внедрения более жестких стандартов качества при создании и использовании наборов данных для обучения ИИ.

Ранее стало известно, что в ближайшие годы искусственный интеллект заменит почти половину работников крупных компаний.