
Как оказалось, современные системы ИИ с трудом справляются с задачами, которые для большинства людей являются элементарными — определением времени по аналоговым часам или вычислением дня недели по дате. Несмотря на потрясающие воображение достижения в генерации текстов, написании программного кода, создании фотореалистичных изображений и даже в узкоспециализированных вопросах, связанных с космосом или медициной, нейросети регулярно ошибаются в, казалось бы, простейших повседневных задачах, не требующих специальной подготовки.
В ходе своего эксперимента команда ученых из университета Эдинбурга использовала специально созданный набор данных, который включил в себя изображения аналоговых часов и календарей. Эти изображения «скормили» нескольким современным мультимодальным языковым моделям, способным работать как с текстом, так и с визуальной информацией, в том числе, GPT-4o, Claude 3.5 Sonnet, Gemini 2.0 и Llama 3.2-Vision.

Результаты оказались весьма скромными. Модели смогли правильно определить время по изображению часов только в 38,7% случаев, а дату — всего в 26,3%. Это удивительно низкий показатель для систем, которые позиционируются как вершина развития современных ИИ. Исследователи объясняют это тем, что такие задачи требуют пространственного мышления, а не просто сопоставления с обучающими примерами. Распознать, что на изображении изображены часы, ИИ может без особого труда. Но чтобы понять, где именно находятся стрелки, под каким углом они пересекаются и что это означает, — требуется умение интерпретировать отношение предметов в пространстве, чего ИИ пока явно не хватает.
Особенно ярко это проявилось в задачах на определение дня недели по порядковому номеру в году. Вопросы наподобие «Какой день недели приходится на 153-й день года?» оказались слишком сложными для моделей. Это связано с тем, что ИИ, в отличие от традиционных компьютеров, не использует для точных вычислений алгоритмы. Вместо этого он опирается на вероятностные прогнозы на основе ранее увиденных данных. Поэтому, как подчеркивает автор работы Рохит Саксена, даже в задачах, где требуется элементарная арифметика, ИИ часто оказывается ненадежен.

Это исследование — очередное подтверждение того, насколько сильно отличается «понимание» мира искусственным интеллектом от человеческого. Модели великолепно справляются с тем, что часто повторяется в обучающих данных, но теряются при столкновении с абстрактной логикой или редкими случаями, например, високосными годами или календарями нестандартного формата. Ученые подчеркивают, что эти пробелы необходимо учитывать при интеграции ИИ в сферы, где требуется высокая точность, особенно в задачах, связанных с расписанием, планированием и автоматизацией. Более того, такие результаты наглядно показывают, что слепое доверие к выводам ИИ может быть опасным.
Авторы исследования убеждены, что для преодоления этих ограничений нужно не только расширять обучающие выборки, включая больше задач, требующих пространственного и логического мышления, но и пересматривать сам подход к обучению моделей. Пока этого не произойдет, во многих случаях все-таки будет надежнее положиться на человека.
Недавно ученые раскрыли еще одну проблему ИИ: оказалось, что визуальные языковые модели не понимают слова «нет».