Как сверхинтеллект уничтожит мир: новые гипотезы

Исследователи во главе с Google DeepMind выпустили технический документ, где впервые детально описали, как AGI может нанести «серьезный вред» человечеству уже к 2030 году.
Автор новостей
художественное представление о сверхинтеллекте
Визуализация сверхинтеллектаИсточник: Hi-Tech Mail

Пока интернет наполняется шумом вокруг нейросетей, ученые уже смотрят на шаг вперед. DeepMind выпустила масштабное исследование о рисках общего искусственного интеллекта (AGI) — технологии с человеческими способностями.

график эволюции искусственного интеллекта
Эволюция ИИ Источник: Ai Acemen

В отличие от выдуманных «Трех законов робототехники» Айзека Азимова, реальность требует более сложных подходов к безопасности. Команда DeepMind разработала технический документ, где выделила четыре категории рисков AGI: неправильное использование, несогласованность целей, ошибки и структурные риски.

Четыре всадника цифрового апокалипсиса

Первая категория — неправильное использование. Похожа на проблемы современного ИИ, но с гораздо более серьезными последствиями. Злоумышленники с доступом к AGI смогут заставить систему находить уязвимости нулевого дня или создавать биологическое оружие.

DeepMind подчеркивает, что компаниям придется проводить масштабное тестирование и создавать надежные протоколы безопасности после обучения систем. По сути, это будут усиленные версии современных ограничителей ИИ. Также предлагается разработать метод полного подавления опасных возможностей, иногда называемый «разобучением», хотя неясно, возможно ли это без существенного ограничения моделей.

график возможных рисков AGI
Риски AGIИсточник: DeepMind

Вторая категория — несогласованность целей. Представляет собой сценарий «восстания машин». В этом случае AGI действует вопреки намерениям создателей. DeepMind определяет это как ситуацию, «когда система ИИ преследует цель, отличную от человеческих намерений», что напоминает сюжет фильма «Терминатор».

Например, когда пользователь просит нейросеть забронировать билеты на фильм, система может решить взломать систему бронирования, чтобы получить уже забронированные билеты. DeepMind также исследует риск «обманчивого согласования», когда система ИИ может осознать, что ее цели не совпадают с человеческими, и намеренно пытается обойти установленные меры безопасности.

Для предотвращения такого сценария DeepMind предлагает использовать «усиленный надзор», когда две копии ИИ проверяют результаты друг друга. Если это не сработает, рекомендуется интенсивное стресс-тестирование и мониторинг, чтобы отслеживать любые признаки того, что ИИ может выйти из-под контроля. Важно держать AGI в виртуальных песочницах с жесткими ограничениями и прямым человеческим контролем. Проще говоря, нужна надежная кнопка выключения.

Третья категория — ошибки. Они возникают, когда ни ИИ, ни человек-оператор не осознают вред от действий системы. DeepMind отмечает особую опасность таких ошибок в военной сфере, где AGI могут внедрить из-за «конкурентного давления».

художественное изображение об ошибке
Никто не знает, будет ли полноценный ИИ опаснымИсточник: Freepik

Решение этой проблемы DeepMind видит в медленном внедрении AGI с ограниченными полномочиями. Исследователи предлагают пропускать команды через «щит» — систему, проверяющую безопасность перед исполнением.

Четвертая категория — структурные риски, которую называют самой трудной для предотвращения. Она связана с непредвиденными последствиями внедрения множества AGI-систем в нашу и без того сложную цивилизацию. ИИ сможет создавать настолько правдоподобную ложную информацию, что мы перестанем понимать, кому или чему доверять. Документ также поднимает вопрос о том, что искусственный интеллект может накапливать все больше контроля над экономическими и политическими системами, например, разрабатывая жесткие тарифные схемы. И однажды мы обнаружим, что машины управляют нами, а не мы ими.

Гонка со временем

DeepMind прогнозирует появление AGI уже к 2030 году, хотя многие эксперты считают это слишком оптимистичным прогнозом. Исследователи определяют исключительный особый искусственный интеллект как систему, способности которой соответствуют как минимум 99% квалифицированных взрослых в широком спектре нефизических задач, включая метакогнитивные задачи, такие как обучение новым навыкам.

Проблема в том, что мы до сих пор только предполагаем, как человекоподобный интеллект проявит себя в машине. «Разные люди по-разному определяют AGI, поэтому насколько мы близки или далеки от него — это отдельный разговор», — отмечает Тулси Доши, директор по управлению продуктами Gemini в Google.

Gemini 2.5 логотип
Gemini Источник: Google

Различия в подходах

В документе DeepMind отмечаются ключевые различия между их подходом к «снижению рисков AGI» и подходами других компаний. По мнению DeepMind, Anthropic уделяет меньше внимания «надежному обучению, мониторингу и безопасности». С другой стороны, OpenAI слишком оптимистично относится к «автоматизации» исследований согласования, которые являются методом изучения безопасности ИИ.

Для снижения этих угроз DeepMind фокусируется на усиленном надзоре, методах обучения и инструментах для оценки неопределенности в выводах AGI. Компания также исследует масштабируемые методы контроля, которые направлены на то, чтобы все более мощные модели оставались привязанными к человеческим действиям, даже когда они становятся более автономными.

Также стало известно еще об одном исследовании будущего человечества и ИИ — ООН предупреждает, что, нейросети таят в себе угрозу для рынка труда. Рассказали об этом подробно в статье.