Как распознать сгенерированный текст: новый метод ученых

Бывает, читая текст, трудно определить, кто его автор — человек или машина. Исследователи придумали способ, как это исправить.
скриншот сайта OpenAI, компании, разработавшей ChatGPT
Ученые нашли определенные особенности письма ИИ-сервисов.Источник: Unsplash

Исследователи из Северо-Восточного университета в США разработали метод определения авторства текста: анализ синтаксических конструкций. Оказалось, что искусственный интеллект при генерации статей чаще использует некоторые комбинации имен существительных, глаголов и прилагательных, чем человек, сообщает TechXplore.

Известно, что ИИ-модели склонны к повторению некоторых слов. Например, ChatGPT ранее активно использовал словосочетание delve into («погружаться в»). Однако изучение лексических повторов не дает полной картины, чтобы понять, кто автор первоисточника. Поэтому ученые решили сосредоточиться на более глубоком уровне анализа — синтаксисе. Команда заставила языковые модели генерировать различные типы текстов — от обзоров фильмов до научных статей. Анализируя полученные данные, они выявили характерные для ИИ синтаксические шаблоны — повторяющиеся последовательности частей речи.

Типы конструкций, характерных для «сочинений» ИИ, отличались друг от друга. Каждый алгоритм имел свою «подпись». Например, в обзорах фильмов часто встречались двойные прилагательные. В рецензии на фильм «Последний черный человек в Сан-Франциско» в двух абзацах используются сочетания вроде «уникальный и интенсивный зрительский опыт», «высоко оригинальный и впечатляющий дебют» и «магический и заставляющий задуматься». Люди тоже могут создавать паттерны письма. В «человеческих» предложениях могут быть повторяющиеся конструкции, но это происходит гораздо реже, чем у машинных инструментов.

В биомедицинских материалах, где стилистика более строго регламентирована, различия между человеческим и машинным произведением были менее заметны. Напротив, в таких творческих жанрах, как отзывы на фильмы и новости, ИИ-модели демонстрировали гораздо более высокую склонность к использованию шаблонов. При этом чат-боты не выдумывают повторяющиеся структуры на ходу. Около 75% из них удалось найти в данных, на которых они обучались.

Это исследование не предлагает универсальный способ определить авторство, но вводит новый подход к проверке сгенерированных текстов. Вместо рассмотрения отдельных слов он фокусируется на общем стиле письма.

Ранее ученые раскрыли неожиданное влияние «умных» фильтров на наши симпатии.