
Известный экзамен MMLU, который еще недавно бросал вызов машинам, перестал отражать реальные возможности современных моделей. Чтобы заново измерить границы ИИ, международная группа в составе почти тысячи ученых разработала принципиально новый тест — «Последний экзамен человечества» (Humanity’s Last Exam, HLE).
HLE включает 2500 вопросов из математики, гуманитарных наук, естествознания, древних языков и множества узкоспециализированных областей. Среди заданий — перевод древнепальмирских надписей, определение мельчайших анатомических структур у птиц и анализ особенностей произношения библейского иврита. Каждый вопрос имеет один проверяемый ответ и составлен так, чтобы его нельзя было решить простым поиском в интернете.
Процесс отбора вопросов был по-своему безжалостным: если хотя бы одна ведущая ИИ-модель отвечала на вопрос правильно, его убирали из финальной версии. В результате экзамен оказался за пределами того, что современные системы способны надежно решить. На ранних этапах тестирования GPT-4o набрал лишь 2,7% правильных ответов, Claude 3.5 Sonnet — 4,1%, а модель o1 от OpenAI — 8%. Наиболее мощные системы к настоящему моменту достигают 40−50%.

«Когда ИИ-системы начинают блестяще справляться с тестами, возникает соблазн думать, что они приближаются к человеческому интеллекту, — говорит один из участников проекта, профессор Техасского университета A&M Тунг Нгуен, написавший 73 вопроса для экзамена. — Но HLE напоминает нам, что интеллект — это не только распознавание закономерностей. Это еще и глубина, контекст и специализированная экспертиза».
Несмотря на драматичное название, экзамен не призван доказать, что люди «устаревают». Наоборот, он подчеркивает, сколько знаний и опыта остается уникально человеческим. «Это не гонка против ИИ, — поясняет Нгуен. — Это инструмент для понимания, в чем эти системы сильны, а в чем буксуют. Без точных инструментов оценки работы нейросетей, разработчики и пользователи рискуют неверно интерпретировать, что ИИ на самом деле умеет».
Часть вопросов опубликована открыто, но большинство скрыто, чтобы модели не могли просто «заучить» ответы в процессе собственного обучения. «Пока “Последний экзамен человечества” остается одной из самых ясных оценок разрыва между ИИ и человеческим интеллектом, — подчеркивает Нгуен, — и, несмотря на стремительный прогресс технологий, этот разрыв по-прежнему велик».
Ранее мы рассказывали о том, как ИИ формирует свои сообщества.

