Популярные нейросети проверили на знание российской культуры

Отечественные специалисты выяснили, как ИИ-модели справляются с генерацией изображений борща и российских автомобилей. Рассказываем об итогах эксперимента.
Редактор новостей Hi-Tech Mail
Храм Василия Блаженного в ночное время
Храм Василия БлаженногоИсточник: Unsplash / CC0

Российские специалисты провели исследование, которое помогло проверить популярные нейросети на знание отечественного культурного кода. Проект провели Сбер и российские университеты. Статья опубликована на сайте препринтов arXiv.

Во введении ученые отметили, что ИИ-модели нередко «демонстрируют сильную предвзятость в отношении англоязычных культур». Из-за этого нейросети игнорируют или искажают особенности других стран и языков. Специалисты решили создать бенчмарк RusCode, с помощью которого можно было бы проверить, как искусственный интеллект работает с российской культурой. 

ВАЗ-2101 по версии нейросетей
Сравнение генерации изображения автомобиля ВАЗ-2101Источник: arXiv

Авторы исследования дали нейросетям промпты, согласно которым нужно было визуализировать популярные образы. Например, в одной случае речь шла о балалайке, которая лежит на столе, накрытая скатертью с вышивкой. Другой запрос был посвящен борщу со сметаной, налитом в миску с хохломой. Помимо этого, нейросети генерировали различные категории, городские пейзажи, портреты известных личностей. В каждом эксперименте было подготовлено референсное изображение, по которому можно было оценить качество генераций.

Согласно итогам, ИИ-модель YandexART 2.0 превзошла популярные нейросети Stable Diffusion 3 и DALL-E 3 в создании изображений, связанных с культурой России. В частности, она оказалась более точной в создании человеческих лиц и портретов. Помимо этого, нейросеть смогла опередить Kandinsky 3.1 в категориях «Национальная кухня», «Литература», «Наука».

график сравнения нейросетей
Сравнение работы нейросетей в бенчмарке RusCodeИсточник: arXiv

Ранее Сбер представил свою продвинутую нейросеть GigaChat 2.0. Разработчики сообщили, что она оказалась сильнейшей, согласно данным бенчмарка MERA для русского языка. Однако в «Яндексе» уточнили, что их нейросети не участвуют в таком тестировании. Подробнее о том, что из себя представляет GigaChat 2.0, зачем компании нужны три версии нейросети и на что они способны, можно в материале Hi-Tech Mail.

Однако ИИ-модели не всегда хорошо реагируют на запросы. Недавно Cursor.AI предложила пользователю самостоятельно научиться писать код, а не просить об этом умный сервис.