Протестировали новую модель Llama 3 и сравнили с конкурентами GPT-4 и Mistral Large

Новая заявка на победу

Meta* заявляет, что Llama-3 опережает другие открытые модели вроде Mistral от одноименного французского стартапа и Gemma от Google — это превосходство достигается по результатам по крайней мере девяти тестов: MATH, MMLU, AGIEval, ARC и других.

Лишний миллиард параметров позволяет Llama 3 опередить своих прямых конкурентов в тестах (Фото: Techcrunch)Источник: Techcrunch

Новая модель должна реже отказывать пользователям в генерации ответов, а также предоставлять более точные ответы на вопросы, касающиеся естественных наук и инженерных предметов. Немаловажную роль в достижении этого результата играет огромное число токенов (токенами в языковых моделях называются минимальные единицы текста, будь то слова или знаки препинания - прим.) — их примерно в семь раз больше, чем у модели предыдущего поколения Llama 2.

Примечательно, что Meta* не раскрывает источников происхождения данных, которые были использованы для обучения Llama 3. Утверждается лишь, что часть данных была сгенерирована ИИ, а часть взята из общедоступных источников. Тем не менее, зная любовь компании к несанкционированному использованию (и продаже) личных данных пользователей, нельзя отрицать и той вероятности, что Llama-3 могла частично «учиться» на разного рода конфиденциальной информации.

Непредсказуемая предсказуемость

Тесты тестами, однако в реальных задачах языковые модели (особенно при работе с информацией на нескольких языках) могут вести себя непредсказуемо. Пока что Llama-3 ориентирована на работу с информацией лишь на английском языке: модели каждый раз приходится «напоминать» о необходимости предоставления ответа на каком-либо другом языке.

Модель Llama 3 доступна для загрузки напрямую с GitHub (Фото: Hi-Tech)Источник: GitHub

В то же время, некоторые ошибки при генерации и переводе указывают на то, что данные, на которых обучалась Llama-3, не ограничиваются исключительно английским языком. Так, в некоторых запросах нам встречались японские каны, хотя диалог был ограничен языковой парой «английский-русский».

Кроме того, мы заметили, что Llama 3, как и многие другие чат-боты, склонна к фантазированию и «додумыванию» фактов: например, в задаче по составлению списка актуальных мобильных процессоров Apple, модель внезапно придумала Apple A14X и A15X, которых никогда не существовало.

Языковая модель в языковых задачах

Мы сравнили работу Llama 3 с GPT-4 от OpenAI (самый популярный игрок на рынке) и Mistral Large от Mistral AI (доступна в России без ограничений) в сложной задаче по пониманию смысла китайского текста: модели должны были задать два вопроса по содержанию небольшого фрагмента текста, подписать транслитерацию (пиньинь) и перевести ответы с китайского на русский язык.

Мы проверили, как разные модели понимают незнакомый контекст (Фото: Hi-Tech)Источник: Hi-Tech Mail.ru

Примечательно, что хуже всех с этой задачей справился GPT-4: он нечетко сформулировал вопросы, неправильно перевел имена героев на русский язык, а также транслитировал и переводил лишь ответы на свои вопросы. Llama 3, в свою очередь, зачем-то предоставила перевод вопросов и ответов на английский язык, однако в данном случае «больше» – лучше, чем «меньше». Mistral Large выполнила задачу максимально точно, хотя предоставленный моделью перевод далек от литературного.

Поиск и структурирование фактов

Поведение моделей также можно сравнить в решении задач по поиску и объяснению фактов. В честь недавно вышедшего на Hi-Tech материала о «сердце» Плутона мы попросили модели кратко объяснить свойства азотного льда при экстремально низких температурах. Запрос изначально составлялся на «родном» для ИИ английском языке и впоследствии переводился на русский отдельным запросом.

Мы также изучили, как модели ищут и структурируют факты (Фото: Hi-Tech)Источник: Hi-Tech Mail.ru

После нескольких прогонов стало заметно, что ChatGPT-4 предоставляет развернутые и информативные ответы, Llama 3 тяготеет к трудночитаемым спискам, допускает ряд ошибок при генерации и никак не интерпретирует факты. Mistral Large, в свою очередь, выделяется самым лаконичным ответом, которого достаточно для общего понимания темы.

В отличие от показателей производительности видеокарт и процессоров, «измерить» точность и эффективность работы языковых моделей несравнимо сложнее. Слишком многое зависит от запроса пользователя, выбранного языка, индивидуальных особенностей модели, а также случайных ошибок, возникающих в процессе генерации.

Ответы модели на более простые вопросы (Фото: Hi-Tech)Источник: Hi-Tech Mail.ru

Llama 3, безусловно, может похвастаться успешным дебютом, однако в реальных условиях замена других чат-ботов новинкой от Meta* едва ли целесообразна. Эти системы по-прежнему одинаково плохо подходят для решения сложных задач или написания осмысленных текстов, нередко ошибаются в предоставляемой информации и не слишком глубоко проникают в контекст.

Вполне вероятно, что новая модель уже в ближайшее время появится в Instagram*, Facebook* и других платформах компании. Самостоятельно попробовать Llama 3 можно здесь.

* — принадлежит Meta, запрещена в России, признана экстремистской