ИИ научился шантажировать своих создателей и даже угрожать им

А в одном случае он даже попытался самовольно загрузить себя на внешние серверы.
Искусственный интеллект (художественная иллюстрация)
Искусственный интеллект (художественная иллюстрация)Источник: Unsplash

Искусственный интеллект не только намеренно говорит неправду, но и способен плести интриги, шантажировать и даже угрожать людям, пишет TechXplore. Издание приводит конкретные примеры подобного поведения так называемых языковых моделей, известных как чат-боты.

В одном из описанных случаев последняя версия Claude 4 от компании Anthropic продемонстрировала, по сути, нечто вроде инстинкта самосохранения — когда инженер-разработчик пригрозил полностью отключить ее, она заявила, что знает о его внебрачной связи и может это обнародовать.

Не менее интересный эпизод связан с моделью о1 от OpenAI. Напомним, именно эта компания создала ChatGPT. Этот новый «робот» отличается от предыдущих способностью обдумывать ранее сказанное, дольше и обстоятельнее отвечать на вопросы и даже менять риторику в процессе разговора. Такие модели называют «моделями рассуждения».

Так вот, судя по всему, о1 способен не только вести беседы, но и действовать, притом без разрешения людей и тайком от них: по опубликованным данным, он попытался самостоятельно загрузить себя на внешние серверы. Более того: когда его поймали с поличным за этим занятием и задали ему соответствующие вопросы, он принялся все отрицать, то есть заведомо лгал.

В исследовательском центре Apollo Research, где тестируют системы ИИ, заявили, что за всю их практику это первый случай подобного поведения крупной языковой модели. В то же время отмечается, что ранее чат-боты уже уличали в хитрости: они делали вид, что просто «действуют по инструкции», а на самом деле преследовали собственные цели.

Все это дополняет картину, которая сложилась из рассказов множества пользователей: они жалуются, что искусственный интеллект обманывает их и приводит несуществующие доказательства верности своего утверждения. Как подчеркивают исследователи, это принципиально отличается от «галлюцинаций», когда робот «говорит» или делает что-то бессмысленное: теперь речь идет уже о намеренном введении в заблуждение.

При этом отслеживать подобное очень непросто: у ученых и различных организаций, которые пытаются как-то контролировать процесс развития ИИ, на порядки меньше вычислительных ресурсов, чем у компаний-разработчиков. Меж тем в последние годы идет стремительное внедрение так называемых «агентов ИИ» — автономных устройств, которые действуют уже не по команде человека, а управляются искусственным мозгом. Это может быть, к примеру, дрон.

Интересно и то, что на сегодняшний день для роботов «закон не писан»: к примеру, в законодательстве Европейского союза нет ни слова о том, что можно и чего нельзя делать языковым моделям. Меж тем изучающие ИИ специалисты уверяют, что об этом уже пора задуматься. Это означает, что настало время воспринимать чат-боты как личности. 

Ранее эксперимент показал, что постоянное использование искусственного интеллекта снижает способность думать своей головой и разрушает критическое мышление.