«Последний экзамен человечества»: ученые создали тест, который не может пройти ИИ

Когда системы искусственного интеллекта начали набирать почти максимальные баллы на тестах, считавшихся сложными, специалисты забеспокоились: не стали ли такие задачи слишком простыми для все более совершенных нейросетей?
Автор новостей
Ученые постоянно оценивают работу современных систем ИИ при помощи специальных тестов.
Ученые постоянно оценивают работу современных систем ИИ при помощи специальных тестов.Источник: Freepik

Известный экзамен MMLU, который еще недавно бросал вызов машинам, перестал отражать реальные возможности современных моделей. Чтобы заново измерить границы ИИ, международная группа в составе почти тысячи ученых разработала принципиально новый тест — «Последний экзамен человечества» (Humanity’s Last Exam, HLE).

HLE включает 2500 вопросов из математики, гуманитарных наук, естествознания, древних языков и множества узкоспециализированных областей. Среди заданий — перевод древнепальмирских надписей, определение мельчайших анатомических структур у птиц и анализ особенностей произношения библейского иврита. Каждый вопрос имеет один проверяемый ответ и составлен так, чтобы его нельзя было решить простым поиском в интернете.

Процесс отбора вопросов был по-своему безжалостным: если хотя бы одна ведущая ИИ-модель отвечала на вопрос правильно, его убирали из финальной версии. В результате экзамен оказался за пределами того, что современные системы способны надежно решить. На ранних этапах тестирования GPT-4o набрал лишь 2,7% правильных ответов, Claude 3.5 Sonnet — 4,1%, а модель o1 от OpenAI — 8%. Наиболее мощные системы к настоящему моменту достигают 40−50%.

Даже для самых современных и мощных моделей ИИ «Последний экзамен человечества» чрезвычайно сложен: лучшие модели дают не более половины правильных ответов.
Даже для самых современных и мощных моделей ИИ «Последний экзамен человечества» чрезвычайно сложен: лучшие модели дают не более половины правильных ответов.Источник: livescience.com

«Когда ИИ-системы начинают блестяще справляться с тестами, возникает соблазн думать, что они приближаются к человеческому интеллекту, — говорит один из участников проекта, профессор Техасского университета A&M Тунг Нгуен, написавший 73 вопроса для экзамена. — Но HLE напоминает нам, что интеллект — это не только распознавание закономерностей. Это еще и глубина, контекст и специализированная экспертиза».

Несмотря на драматичное название, экзамен не призван доказать, что люди «устаревают». Наоборот, он подчеркивает, сколько знаний и опыта остается уникально человеческим. «Это не гонка против ИИ, — поясняет Нгуен. — Это инструмент для понимания, в чем эти системы сильны, а в чем буксуют. Без точных инструментов оценки работы нейросетей, разработчики и пользователи рискуют неверно интерпретировать, что ИИ на самом деле умеет».

Часть вопросов опубликована открыто, но большинство скрыто, чтобы модели не могли просто «заучить» ответы в процессе собственного обучения. «Пока “Последний экзамен человечества” остается одной из самых ясных оценок разрыва между ИИ и человеческим интеллектом, — подчеркивает Нгуен, — и, несмотря на стремительный прогресс технологий, этот разрыв по-прежнему велик».

Ранее мы рассказывали о том, как ИИ формирует свои сообщества.