
Старшеклассник Ади Сингх создал веб-сайт Minecraft Benchmark (MC-Bench), чтобы сталкивать модели ИИ друг с другом в испытаниях лицом к лицу, при помощи культовой игры Minecraft. Здесь пользователи ресурса могут голосовать за то, какая модель справится лучше с построением той или иной блочной конструкции, и только после голосования могут увидеть результат.
Поскольку традиционные методы сравнительного анализа ИИ нередко оказываются неэффективными, специалисты все чаще прибегают креативным способам оценки их возможностей. Ценность Minecraft, по мнению юного разработчика, заключается не столько в самой игре, сколько в том, насколько она знакома людям. Даже тот, кто никогда в нее не играл, все равно может оценить, какая работа реализована лучше.

Minecraft позволяет людям гораздо легче увидеть прогресс разработки ИИ. Кроме того это интересное и увлекательное зрелище.
Anthropic, Google, OpenAI и Alibaba субсидировали использование своих продуктов для запуска подсказок бенчмарков, согласно веб-сайту MC-Bench, но компании не связаны иным образом, поэтому результаты тестов — честные.

В настоящее время мы делаем простые сборки, чтобы оценить, насколько мы далеко отошли от эпохи GPT-3. Игры отличное средство для проверки агентного мышления, которое безопаснее, чем в реальной жизни, и более контролируемо для целей тестирования.
Отметим, что исследователи уже пробовали тестировать искусственный интеллект на таких играх, как Pokеmon Red, Street Fighter и Pictionary, чтобы понять, насколько он умен. Это важно, потому что оценить возможности ИИ — очень сложная задача. Обычно его проверяют на стандартных тестах, но и они не показывают, должным образом, всей картины. К примеру, GPT-4 от OpenAI показывает высокий результат на тесте LSAT, но при этом ошибается на подсчете букв «R» в слове «strawberry», а модель Claude 3.7 Sonnet от Anthropic хорошо решает задачи по программированию, но играет в Pokemon хуже маленького ребенка.
Технически MC-Bench — это тест программирования, поскольку модели должны написать код для создания заданной сборки, например, «Снеговик Фрости» или «Очаровательная пляжная хижина на песчаном берегу». Но большинству пользователей MC-Bench проще оценить, как выглядит этот снеговик, чем копаться в коде. Это делает проект более привлекательным а, следовательно, дает возможность собрать больше данных о том, какие модели стабильно показывают лучшие результаты.
Вопрос о том, насколько эти показатели важны для оценки полезности ИИ, остается спорным. Однако создатель MC-Bench, Ади Сингх, утверждает, что его тесты показывают реальный прогресс обученности нейросетей.
Читайте также нашу статью о том, как искусственный интеллект протестировали на орбите.