
Ученые обнаружили, что крупные языковые модели (LLM) и чат-боты демонстрируют признаки «когнитивного ухудшения» по мере их устаревания. Проще говоря, у нейросетей, как и у людей, с годами ухудшаются когнитивные функции. В ходе исследования специалисты протестировали популярные LLM-чат-боты, включая ChatGPT, Sonnetc и Gemini. Анализ проводился с использованием Монреальской когнитивной оценки (MoCA) — стандартного теста, который применяется для выявления ранних признаков деменции и болезни Альцгеймера у людей. Тест позволяет оценить внимание, память, язык, пространственные навыки и исполнительные функции.
Результаты показали, что, хотя последние версии ИИ и уверенно справляются с заданиями на внимание, язык и абстрактное мышление, их пространственные и исполнительные способности оставляют желать лучшего. Например, последняя версия ChatGPT-4 набрала 26 из 30 возможных баллов — это соответствует нормальному когнитивному уровню человека. При этом более старая модель Gemini 1.0 показала значительно худший результат — всего 16 баллов. Это натолкнуло ученых на мысль, что при устаревании у ИИ появляется «ухудшение» когнитивных способностей, подобное их снижению у пожилого человека.
Неожиданные результаты исследования вызвали бурную дискуссию в научном сообществе. Некоторые специалисты посчитали некорректным применение MoCA к искусственному интеллекту. Доктор Ая Авад из Массачусетской больницы общего профиля отметила, что тест разработан исключительно для людей и оценивает способности, не свойственные текстовым языковым моделям. В частности, в MoCA входят задания на пространственное ориентирование и визуальное восприятие, которые попросту не имеют смысла для языковых моделей, чья работа ограничивается обработкой текста.

Дополнительную критику вызвал тот факт, что ученые протестировали ИИ всего один раз, а не оценили изменения в его «когнитивных функциях» на протяжении определенного промежутка времени. Аарон Стерлинг, генеральный директор EMR Data Cloud, и профессор биомедицинских наук из Стэнфорда Роксана Данешжу отметили, что для полноценной оценки необходимо было повторно тестировать модели после значительных обновлений.
В ответ на критику автор исследования, доктор Рой Даян из Медицинского центра Хадасса в Иерусалиме, заявил, что форма подачи результатов работы ученых была несколько юмористической, поскольку статья была опубликована в рождественском выпуске BMJ. Однако суть работы остается серьезной: важно помнить о том, что ИИ тоже может делать ошибки. Даян обеспокоен тем, что в научном сообществе то и дело звучат слишком оптимистичные прогнозы, согласно которым LLM-модели уже скоро смогут заменить врачей. Однако, как показало очередное исследование, такие системы имеют серьезные ограничения, особенно в задачах, требующих визуального и логического мышления.
Поэтому, внедряя нейросети в клиническую практику, нужно сохранять критический подход и продолжать исследования, которые помогут понять, как лучше применять новые технологии в науке и медицине. На данный момент, ИИ — прекрасный инструмент для анализа медицинских данных, но заменить человеческий разум в диагностике он не в силах.
Ранее ученые научили ИИ бегло читать мысли человека.