В основе исследования лежит концепция истинного интеллекта, которая предполагает то, что человек и другие разумные существа способны к логическому анализу, в ходе которого разделяется важная и несущественная информация. Авторы работы отмечают, что понимание сути вопроса, умение игнорировать несущественные детали и фокусировать свое внимание на главном — ключевые характеристики интеллекта. Команда ученых предположила, что языковые модели, несмотря на их способность обрабатывать огромные массивы текстов, лишены такой способности.
Для проверки своей гипотезы исследователи разработали эксперимент, в котором использовали вопросы для LLM с добавлением несущественной информации. Эти вопросы в прошлом уже применялись для тестирования языковых моделей, но в новой версии к ним добавляли лишние детали, которые не имели отношения к поставленной задаче. Основная цель эксперимента состояла в том, чтобы проверить, смогут ли LLM не реагировать на отвлекающие элементы и давать правильные ответы.
Результаты эксперимента продемонстрировали, что языковые модели нередко фокусируются на лишних деталях, что приводит к ошибочным ответам. В тех случаях, когда модели ранее правильно отвечали на вопросы без лишней информации, добавление ненужных данных приводило к снижению качества их ответов. Это, как полагают эксперты, является признаком того, что LLM не обладают способностью к глубокому погружению в суть задачи и логическому мышлению.
Специалисты также отметили склонность LLM давать ответы, которые лишь выглядят правдоподобно, но в ходе более детального анализе оказываются неверными. Например, когда языковым моделям задают вопросы о том, что они «чувствуют», их ответы могут предполагать наличие сознания и чувств, хотя на самом деле они не обладают такими способностями. Это создает иллюзию осведомленности и разумности, хотя фактически речь идет лишь о статистической обработке текстов и выявлении шаблонов.
На основании проведенного исследования ученые из Apple пришли к выводу, что современные языковые модели, такие как ChatGPT, не обладают настоящим интеллектом. Они работают, выявляя статистические зависимости в данных, а не понимая смысл вопросов. Это открытие подчеркивает ограниченность LLM в задачах, требующих истинного понимания, и ставит вопрос о границах их применения в задачах, связанных с логическим анализом и критическим мышлением.
Работа экспертов Apple стала важным вкладом в понимание природы искусственного интеллекта и его ограничений. Это открытие подчеркивает, что, несмотря на впечатляющие достижения LLM в создании текстов и ответов, развитие технологий, позволяющих моделям достигать уровня настоящего интеллекта, все еще требует значительных усилий.
Кстати, недавно ученые разработали тест для определения «катастрофического ущерба» от перспективных моделей искусственного интеллекта. С его помощью будут выявляться модели с самыми высокими способностями в отношении их самостоятельного развития.