Тест состоял из 35 вопросов, а каждая модель прошла его дважды для уменьшения погрешности.
Абсолютным лидером в противостоянии стала модель Claude-3 от компании Anthropic — она набрала 101 балл, ответив правильно на 18.5 из 35 вопросов теста. В то же время, актуальная модель ChatGPT-4 от OpenAI набрала на 16 баллов меньше, оказавшись примерно на уровне Claude-2 (85 баллов против 82).
Примечательно, что Bing Copilot, созданный на основе ChatGPT-4, оказался на 6 очков «глупее» своего прародителя, набрав 79 баллов. ИИ ответил правильно лишь на 11 из 35 вопросов.
Менее успешно справились с тестом Llama-2 от Meta (67 баллов) и Gemini от Google (77.5 баллов). Это меньше, чем IQ среднестатистического человека, который, как правило, равен 100 баллам (с отклонением в обе стороны ~15 баллов).
Заменит ли ИИ людей?
Интересно, как быстро генеративный ИИ добился когнитивных навыков обычного человека. Конечно, это все еще не позволяет подобным системам вести осмысленный диалог или самостоятельно рассуждать и задавать вопросы, однако с каждым новым обновлением эффективность моделей в прикладных задачах становится все выше.
Простая экстраполяция позволяет предположить, что уже через полтора-два года обычные языковые модели вроде Claude-5 или ChatGPT-6 (как бы они ни назывались) окажутся сообразительнее абсолютного большинства людей.
Это по-прежнему не гарантирует возможности появления у моделей нового поколения собственного «я» и не сделает их самостоятельными существами, поскольку для этого требуется нечто большее, чем просто совокупность данных и набор навыков для их обработки, однако однозначно изменит мир, в котором мы живем.
О необычном сбое в работе Bing Copilot читайте в нашем материале.