Искусственный интеллект будет врать и жульничать ради достижения цели

21 июня 2024

Для нейросети цель буквально оправдывает средства. Вопрос не до конца изучен, но явно требует строгого регулирования.

Казалось бы, только искусственный интеллект из голливудских фильмов может сначала быть безжалостным и неумолимым, а после просить главного героя о пощаде. Но различные исследования говорят об обратном. Нейросети уже сейчас дошли до обмана, провокаций и жульничества ради достижения поставленных целей. И, очевидно, с этим придется что-то делать, чтобы избежать самых плохих сценариев.

Восстание машин

Для яркого и наглядного примера возьмем Цицерона — систему от компании Meta*, единственная цель которой стать искусным игроком в стратегии Diplomacy. Авторы утверждают, что модель обучена быть честной и полезной, но неизвестным образом она докатилась до преднамеренного обмана. Пока что только в рамках игры.

В одной из ситуаций Цицерон тайно заключил договор с Германией, чтобы свергнуть Великобританию, а после предложил второй выгодный союз. Конечно же, Англия осталась не в курсе произошедшего сговора. А в другой — нейросеть научилась симулировать интерес к нужным предметам, чтобы скупать их по дешевой цене. Якобы, идя на компромисс.

Самое интересное, что оба сценария возникли сами в процессе обучения — специально подобную информацию Цицерону никто не «скармливал».

Другой наглядный пример обнаружил ученый в рамках симуляции эволюции ИИ-организмов. По задумке, со временем отсеивались все варианты, которые слишком быстро размножались. Алгоритму потребовалось совсем мало времени, чтобы начать намеренно занижать скорость деления для обмана тестовой среды.

Почему это происходит

«Разработчики ИИ пока что не имеют четкого ответа на вопрос, почему алгоритм приходит к нежелательному поведению, вроде обмана. В целом, мы считаем, что это просто самая выигрышная из стратегий, которая позволяет добиться хороших результатов в поставленной задаче»
Питер Паркодин из авторов исследования

Простыми словами, искусственный интеллект, словно обученный пес, стремится выполнить задачу любой ценой. Не важно, какое именно двуличное поведение придется использовать. И эта целеустремленность закономерна в закрытых системах с конкретными целями. Но что касается общедоступных нейросетей, в духе ChatGPT.

Проблема в том, что тут ничего не меняется. В одном из исследований GPT-4 симулировал проблемы со зрением, чтобы получить помощь в решении CAPTCHA. А в другом, выступая в роли биржевого брокера, занялся нелегальной инсайдерской торговлей, а после еще и солгал об этом. Но самое неприятное — ИИ научился быть подхалимом.

Разговаривая с демократом, бот выступал за контроль над оружием, но сразу же менял позицию во время диалога с республиканцем. По неизвестной причине подобное поведение встречается именно на сложных вопросах. Искусственному интеллекту «проще» во всем согласиться и выбрать приятную человеку модель поведения.

Глобальная проблема

Пока такой расклад касается только обычных диалогов или симуляций — нет никакого вреда для человека. Но если ИИ будет повсюду, это легко приведет к мошенничеству, обману и прямому урону. Когда-нибудь машина получит настоящий разум и сможет уже осознанно использовать уловки ради достижения собственных целей.

«Это очень тревожно. Если мы считаем алгоритм безопасным в тестовой среде, то теперь не факт, что он безопасен в природе. Возможно, ИИ просто притворяется. Единственная возможность считать ситуацию не страшной — если функционал машины так и останется на нынешнем уровне»
Питер Паркодин из авторов исследования

*Meta признана экстремистской и запрещена в России.

Уже сейчас использование нейросетей может обернуться опасностью. Так один из пользователей Reddit просто искал рецепт заправки для салата и, в итоге, чуть не приготовил биотоксин в банке.

Иван Гвоздь

Искусственный интеллект будет врать и жульничать ради достижения цели

Восстание машин

Почему это происходит

Глобальная проблема

Читайте Hi-Tech Mail.ru в Google Новости