
Впрочем, далеко не все ученые разделяют оптимизм относительно таких систем. Специалисты Университета Эксетера предупреждают, что в экологии и смежных науках назревает «кризис переносимости» моделей машинного обучения, — то есть их неспособность работать за пределами условий, где они были обучены.
Суть проблемы заключается в том, что большие языковые модели надежно работают только в тех условиях, на которых были обучены. Стоит сменить окружающую среду, освещение или вид объектов на изображениях — и точность снижается в разы. «Например, модель, обученная распознавать кошек по стоковым фотографиям, покажет отличные результаты на тестовом наборе других стоковых фотографий кошек, но это не означает, что она будет эффективно обнаруживать кошек в дикой природе», — поясняет автор исследования, доктор Томас О’Ши-Уэллер.
Особенно тревожным ученые считают то, как оцениваются модели. Стандартные тесты производительности — так называемые бенчмарки — часто составлены из произвольных категорий изображений и не отражают реальных задач, которые впоследствии ставятся перед нейросетью. Тем не менее, именно на их основе делаются громкие заявления о том, что очередная модель не уступает человеку или превосходит его. «Несмотря на статус “золотого стандарта”, тесты производительности не дают надежного представления об истинных способностях ИИ-моделей», — подчеркивает О’Ши-Уэллер.

Ситуацию усугубляет еще одна особенность: когда модель ошибается, она не сообщает об этом пользователю. «В случае с определением видов животных можно получить систему, которая работает плохо, но при этом выглядит очень уверенной в своих выводах. Проще говоря, ИИ ошибается, но делает это настолько уверенно, что вы можете не сразу понять, что что-то идет не так», — говорит соавтор работы Кэти Мюррей.
Специалисты подчеркивают, что проблема не в самой технологии, а в том, как ее применяют. В экологии некорректная работа моделей искусственного интеллекта может серьезно навредить мониторингу видов и охране природы, в медицине цена ошибок нейросетей еще выше: на них ложится ответственность за здоровье и даже жизнь пациентов. «Пожалуй, самое опасное в этом то, что когда модель дает сбой, это часто обнаруживается лишь после того, как ее неправильные выводы уже успели нанести значительный ущерб», — предупреждает О’Ши-Уэллер.
Авторы призывают с осторожностью интерпретировать результаты бенчмарков и не использовать их для оценки универсальных способностей моделей. Единственный надежный способ понять, как модель будет работать, — протестировать ее в конкретных условиях реального применения.
Ранее ученые обнаружили еще одну серьезную проблему: ИИ становится умнее, но не мудрее.

