Новая модель искусственного интеллекта от OpenAI, o3, продемонстрировала буквально «человеческий» уровень интеллекта, показав 85% точности в тесте ARC-AGI. Этот результат значительно превосходит предыдущий рекорд среди ИИ в 55% и находится на уровне средней оценки человека. Успех o3 вызвал горячие споры в научном сообществе и подогрел дискуссии о приближении к созданию общего искусственного интеллекта (AGI).
ARC-AGI — это тест, разработанный для оценки способности ИИ адаптироваться к новым задачам с ограниченным количеством примеров. Он проверяет так называемую «эффективность выборки», то есть насколько быстро система может обучиться, увидев всего несколько образцов. В отличие от таких моделей, как ChatGPT (GPT-4), которые требуют миллионы примеров для построения вероятностных «правил», o3 демонстрирует впечатляющую способность к генерализации — ключевую черту интеллекта.
Тесты ARC-AGI включают задачи с сетками, где ИИ необходимо выявить закономерность, чтобы преобразовать одну сетку в другую. Например, система получает три примера для изучения правил преобразования, а затем применяет их к новому случаю. Эти задачи напоминают тесты на IQ, знакомые многим людям.
Основной секрет успеха o3, по мнению специалистов, кроется в умении находить «слабейшие» правила — простейшие обобщения, которые охватывают заданные примеры и позволяют легко адаптироваться к новым ситуациям. Чем проще правило, тем выше его потенциал для генерализации. Однако остается неизвестным, как именно OpenAI удалось достичь такого уровня адаптации.
Модель o3 была специально натренирована для прохождения тестов ARC-AGI, хотя ее базовые возможности остаются загадкой. Французский исследователь Франсуа Шолле, создатель ARC-AGI, предполагает, что o3 использует методику поиска «цепочек размышлений» — последовательностей шагов, ведущих к решению задачи. Затем система выбирает лучший вариант, основываясь на эвристике — приблизительном правиле выбора.
Подобный подход уже применялся в других проектах. Например, система AlphaGo от Google, обыгравшая мирового чемпиона по го, использовала эвристику для оценки последовательностей ходов. В случае o3 такая эвристика, возможно, позволяет выбирать наиболее простые или общие программы, соответствующие примерам.
Несмотря на впечатляющие результаты, остается открытым вопрос, действительно ли o3 приблизил нас к AGI. Если успех основан на специализированной настройке модели под конкретный тест, то ее общий потенциал может быть не намного выше, чем у предыдущих систем. В таком случае мы видим скорее оптимизацию подхода, чем революцию в ИИ.
OpenAI пока не раскрывает всех деталей работы o3. На данный момент доступ к системе ограничен для узкого круга специалистов и организаций, занимающихся безопасностью ИИ. Полное понимание возможностей o3 потребует дополнительных исследований, включая оценку ее надежности, частоты ошибок и способности решать задачи разного уровня сложности.
Если o3 действительно обладает адаптивностью на уровне среднего человека, это может привести к революционным изменениям в экономике и технологиях, открывая эпоху самосовершенствующегося интеллекта. Однако даже если модель окажется менее универсальной, ее достижения уже устанавливают новые стандарты в развитии ИИ.
Появление o3 подчеркивает необходимость разработки новых критериев оценки AGI и пересмотра подходов к управлению такими мощными системами.
Тем временем нейросети помогли создать «наноклетки»: узнайте, зачем они нужны.