
Новое исследование показало, что система, которая изначально задумывалась как объективный инструмент оценки больших языковых моделей (LLM), может фактически давать преимущества крупным технологическим корпорациям, среди которых OpenAI, Google, Meta и Amazon, в ущерб независимым разработчикам.
LM Arena работает по принципу соревнования между двумя анонимными языковыми моделями, каждая из которых отвечает на заданный пользователем запрос. Участники выбирают, какой ответ им нравится больше, и на основе их голосов формируется рейтинг. Однако авторы исследования утверждают, что некоторые модели, особенно те, что принадлежат крупным компаниям, получают непропорционально большое количество тестов и имеют доступ к внутреннему тестированию до официального релиза. Это, по их словам, дает крупным компаниям возможность «переобучать» свои модели, что потенциально повышает их производительность на платформе по сравнению с конкурентами и повышает их позицию в рейтинге, который в итоге далеко не всегда отражает реальное качество моделей.

В частности, исследование выявило, что OpenAI и Google получили 20,4% и 19,2% всех данных LM Arena соответственно, тогда как 83 открытые модели в совокупности получили лишь около 30%. Ученые также сообщили, что перед запуском Llama-4 компания Meta протестировала на платформе 27 внутренних вариантов своей модели, а только лучший из них был внесен в публичный список. Подобная практика, по мнению исследователей, не просто нарушает научную объективность, но создают «асимметрию доступа к данным», которая в результате искажает восприятие качества ИИ.
Представители LM Arena уже отреагировали на критику в социальной сети X. В заявлении они утверждают, что платформа старается обрабатывать все запросы на оценку моделей по мере поступления и никому не предоставляет привилегий. Кроме того, они отвергли обвинения в манипуляции результатами, утверждая, что на лидерборд попадают только результаты официально выпущенных моделей, а не предварительные или отобранные вручную итерации. Разработчики также отметили, что каждый поставщик ИИ сам решает, сколько тестов отправлять, и это не является проявлением предвзятости со стороны платформы.

Тем не менее, у специалистов остаются сомнения, и они заставляют всех нас задуматься о том, как индустрия искусственного интеллекта должна подходить к оценке моделей. Число генеративных ИИ неуклонно растет, а вместе с ним растет и их влияние на самые разные сферы нашей жизни. И научному сообществу для оценки таких моделей нужны четкие, прозрачные, независимые и воспроизводимые методы тестирования. Все больше ученых призывают к созданию новых стандартов и более справедливых условий, особенно для открытых и некоммерческих проектов, которые не располагают такими же техническими и научными ресурсами, как гиганты технологического рынка.
В условиях все более активного развития искусственного интеллекта ситуация с LM Arena из спора о доступности тестов превращается в глобальную дискуссию о будущем объективной оценки ИИ и роли независимой экспертизы в ней.
Тем временем ученые обнаружили серьезную опасность ИИ: он становится все более популярным каналом утечек данных.