Нейросети сыграли в Doom и стратегии: что из этого вышло

Ученые проверили навыки ИИ в играх. Оказалось, что ни одна из моделей не смогла пройти даже первый уровень.
Автор новостей
Doom постер
Doom

Команда исследователей из Принстонского университета представила новый проект VideoGameBench — платформу для тестирования способностей нейросетей играть в видеоигры. Система позволяет мультимодальным языковым моделям (VLM) управлять персонажами в 20 различных играх — от классических шутеров до ролевых игр.

VideoGameBench работает по простому принципу: нейросеть получает только изображение с экрана игры и должна самостоятельно решить, какие кнопки нажимать. Никаких дополнительных подсказок или специального обучения модель не получает. Это имитирует ситуацию, когда человек впервые садится играть в незнакомую игру и пытается разобраться в ней с нуля.

Исследователи протестировали самые продвинутые нейросети: GPT-4o от OpenAI, Claude Sonnet 3.7 от Anthropic и Gemini 2.5 Pro от Google. Результаты оказались неожиданными — ни одна модель не смогла пройти даже первый уровень в большинстве игр.

Одна из главных проблем — задержка между получением кадра и ответом нейросети. За 3−5 секунд, которые требуются модели для анализа ситуации и принятия решения, игровая обстановка успевает кардинально измениться. Например, в шутере DOOM враг, который был далеко, успевает подойти вплотную и атаковать игрока.

скриншот игры нейросети в Doom II
GPT-4o играет в Doom II (самая легкая сложность)Источник: VideoGameBench

Чтобы решить эту проблему, исследователи создали облегченную версию бенчмарка — VideoGameBench-Lite. В этом режиме игра приостанавливается на время «размышлений» нейросети, что позволяет моделям действовать в более комфортных условиях.

Набор игр в VideoGameBench охватывает различные жанры и платформы. Для компьютеров MS-DOS это шутеры (DOOM, DOOM II, Quake), стратегии (Civilization, Warcraft II, Age of Empires) и платформеры (Prince of Persia). Для портативной консоли Game Boy — Pokemon Red и Pokemon Crystal, The Legend of Zelda: Link’s Awakening, Super Mario Land и другие. Такое разнообразие позволяет всесторонне оценить способности нейросетей к пространственному мышлению и стратегическому планированию.

список игр для тестирования нейросетей
Игры, в которых тестировали ИИИсточник: VideoGameBench

Даже в облегченном режиме VideoGameBench-Lite модели сталкиваются с серьезными трудностями. Исследователи выделили несколько ключевых проблем:

  • Неверная интерпретация происходящего на экране. Например, в DOOM II нейросеть Claude Sonnet 3.7 продолжала стрелять по уже мертвым противникам, тратя впустую боеприпасы;
  • Сложности с точным управлением. Модели не могут точно позиционировать курсор мыши в стратегиях вроде Warcraft II, что делает невозможным выбор нужных пунктов меню;
  • Непонимание игровых механик. В Kirby’s Dream Land нейросеть GPT-4o дошла до первого мини-босса, но не поняла, что может поглотить бомбу и использовать ее способности для атаки.
скриншот Doom II
Claude Sonnet 3.7 играет в Doom II на VideoGameBench-Lite и путает мертвых врагов с живымиИсточник: VideoGameBench

Интересно, что в отличие от нейросетей, традиционные методы обучения с подкреплением (RL) уже давно научились проходить многие игры. Например, алгоритмы успешно справляются с играми Atari, а специализированные системы вроде AlphaStar от DeepMind превосходят людей в StarCraft II. Однако эти системы обучаются под конкретную игру и не способны переносить навыки на другие игры.

Преимущество нейросетей в их универсальности — теоретически одна модель может играть в любую игру без дополнительного обучения. Но пока этот потенциал не реализован на практике.

VideoGameBench — открытый проект, и исследователи приглашают сообщество присоединиться к разработке. Код платформы доступен на GitHub, что позволяет любому желающему протестировать свои алгоритмы или добавить новые игры в бенчмарк.

примеры протестированных игр
Игры в которых тестировали ИИИсточник: VideoGameBench

Эта инициатива открывает новые горизонты для исследований искусственного интеллекта. В отличие от сложных математических задач или программирования, видеоигры представляют собой понятную для человека среду, где можно наглядно оценить способности моделей к рассуждению, планированию и принятию решений в реальном времени.

Кстати, об играх: журналисты рассчитали наиболее вероятные сроки выхода игры Grand Theft Auto VI.