Популярную платформу для бенчмаркинга обвинили в фальсификациях

Популярная платформа для бенчмаркинга LM Arena, оказалась в центре неприятного скандала: исследователи обвиняют ее в предвзятости и создании неравных условий для тестирования ИИ-моделей.
Автор новостей
Одним из важных пунктов оценки работы LLM является их сравнение при помощи специальных платформ для бенчмаркинга
Одним из важных пунктов оценки работы LLM является их сравнение при помощи специальных платформ для бенчмаркингаИсточник: livescience.com

Новое исследование показало, что система, которая изначально задумывалась как объективный инструмент оценки больших языковых моделей (LLM), может фактически давать преимущества крупным технологическим корпорациям, среди которых OpenAI, Google, Meta и Amazon, в ущерб независимым разработчикам.

LM Arena работает по принципу соревнования между двумя анонимными языковыми моделями, каждая из которых отвечает на заданный пользователем запрос. Участники выбирают, какой ответ им нравится больше, и на основе их голосов формируется рейтинг. Однако авторы исследования утверждают, что некоторые модели, особенно те, что принадлежат крупным компаниям, получают непропорционально большое количество тестов и имеют доступ к внутреннему тестированию до официального релиза. Это, по их словам, дает крупным компаниям возможность «переобучать» свои модели, что потенциально повышает их производительность на платформе по сравнению с конкурентами и повышает их позицию в рейтинге, который в итоге далеко не всегда отражает реальное качество моделей.

Более широкий доступ крупных компаний к тестам позволяет им «подогнать» свои модели под условия и нюансы LM Arena, что далеко не всегда повышает реальное качество моделей
Более широкий доступ крупных компаний к тестам позволяет им «подогнать» свои модели под условия и нюансы LM Arena, что далеко не всегда повышает реальное качество моделейИсточник: Московский комсомолец

В частности, исследование выявило, что OpenAI и Google получили 20,4% и 19,2% всех данных LM Arena соответственно, тогда как 83 открытые модели в совокупности получили лишь около 30%. Ученые также сообщили, что перед запуском Llama-4 компания Meta протестировала на платформе 27 внутренних вариантов своей модели, а только лучший из них был внесен в публичный список. Подобная практика, по мнению исследователей, не просто нарушает научную объективность, но создают «асимметрию доступа к данным», которая в результате искажает восприятие качества ИИ.

Представители LM Arena уже отреагировали на критику в социальной сети X. В заявлении они утверждают, что платформа старается обрабатывать все запросы на оценку моделей по мере поступления и никому не предоставляет привилегий. Кроме того, они отвергли обвинения в манипуляции результатами, утверждая, что на лидерборд попадают только результаты официально выпущенных моделей, а не предварительные или отобранные вручную итерации. Разработчики также отметили, что каждый поставщик ИИ сам решает, сколько тестов отправлять, и это не является проявлением предвзятости со стороны платформы.

ИИ становится все более значимой частью жизни каждого из нас, поэтому вопросы реальной и беспристрастной оценки моделей — далеко не праздные
ИИ становится все более значимой частью жизни каждого из нас, поэтому вопросы реальной и беспристрастной оценки моделей — далеко не праздныеИсточник: Freepik

Тем не менее, у специалистов остаются сомнения, и они заставляют всех нас задуматься о том, как индустрия искусственного интеллекта должна подходить к оценке моделей. Число генеративных ИИ неуклонно растет, а вместе с ним растет и их влияние на самые разные сферы нашей жизни. И научному сообществу для оценки таких моделей нужны четкие, прозрачные, независимые и воспроизводимые методы тестирования. Все больше ученых призывают к созданию новых стандартов и более справедливых условий, особенно для открытых и некоммерческих проектов, которые не располагают такими же техническими и научными ресурсами, как гиганты технологического рынка.

В условиях все более активного развития искусственного интеллекта ситуация с LM Arena из спора о доступности тестов превращается в глобальную дискуссию о будущем объективной оценки ИИ и роли независимой экспертизы в ней.

Тем временем ученые обнаружили серьезную опасность ИИ: он становится все более популярным каналом утечек данных.