Команда исследователей из США и Великобритании разработала новый эталонный тест под названием FrontierMath для проверки способностей систем искусственного интеллекта в решении сложнейших математических задач.
За последние несколько лет большие языковые модели (LLM), такие как ChatGPT, достигли значительного прогресса в обработке и генерации текста. Модели стали настолько продвинутыми, что их ответы иногда создают впечатление высокого уровня «интеллекта». Однако, как отмечают специалисты, решение сложных математических задач остается одной из слабых сторон современных моделей. Несмотря на серьезные успехи в обучении и способности решать математические задачи начального и среднего уровня, когда дело доходит до задач высшей математики, ИИ демонстрирует ограниченные возможности.
Для того чтобы оценивать прогресс языковых моделей, ученые используют различные эталонные тесты, или бенчмарки, которые позволяют измерить, насколько хорошо ИИ решает поставленные задачи. Среди самых популярных тестов на сегодняшний день MATH и GSM8K. На этих тестах многие передовые языковые модели уже показывают результаты, близкие к 90% правильных ответов. Однако, как подчеркивают авторы новой разработки, такие тесты имеют ограниченную сложность и не позволяют в полной мере оценить способности ИИ. Для выявления по-настоящему высокого уровня понимания математики исследователям понадобился более сложный бенчмарк. Так появился FrontierMath.
В ходе подготовки нового теста эксперты обратились к выдающимся математикам, чтобы те предоставили свои самые трудные задачи, которые не публиковались ранее и требовали значительных усилий и глубоких знаний для их решения. В результате ученые получили сотни задач, каждая из которых проверяет не только базовые знания, но и требует глубокого понимания предмета. Некоторые из задач настолько сложны, что на их решение у человека может уйти несколько дней.
Особенностью FrontierMath является широкий охват тем — от теории чисел до алгебраической геометрии. Такой подход исключает возможность использования ИИ простых алгоритмов перебора и требует глубоких знаний. Поэтому модели, рассчитывающие на успех в этом тесте, должны обладать не только большим количеством данных, но и способностью к анализу и творческому решению задач.
Предварительные испытания показали, насколько сложен FrontierMath для современных ИИ. Модели, которые демонстрировали высокие результаты на предыдущих тестах, не смогли набрать в новом тесте более 2% правильных ответов. Этот результат демонстрирует, что текущий уровень ИИ все еще далек от возможности успешно решать самые сложные задачи, требующие значительного уровня математического мышления.
Эксперты отмечают, что появление FrontierMath станет важным шагом на пути к развитию ИИ, способного работать со сложными математическими задачами. Этот бенчмарк дает возможность глубже оценить способности ИИ к решению задач, которые включают креативность и аналитическое мышление, и выявить области, требующие дальнейших улучшений. В перспективе, тесты такого рода помогут разработчикам создать более интеллектуальные системы, способные решать сложные задачи и применять математические методы в различных областях, от научных исследований до технологий будущего.
Ранее ученые отметили замедление развития ИИ-технологий и назвали причину этого.