Nvidia выкатила нейросеть Nemotron-4 340B — настоящую «убийцу» GPT-4o

Это бесплатное семейство нейросетей, которое найдет широкое применение, в том числе для обучения генеративного ИИ.
электронный мозг
Источник: Unsplash

14 июня компания Nvidia представила серию открытых моделей Nemotron-4 340B, которые разработчики могут использовать для создания синтетических данных. Они предназначены для применения в коммерции, включая здравоохранение, финансы, производство и розничную торговлю. Качественные обучающие данные — ключевой фактор для эффективной работы LLM, но надёжные наборы данных могут быть слишком дорогими и труднодоступными. Nemotron-4 340B даёт разработчикам бесплатный и масштабируемый способ создания синтетических данных.

Ее обучали на более чем 50 языках естественного общения и свыше 40 языках программирования — всего на 9 трлн токенах. Архитектура языковой модели основана на двух методах: Grouped-Query Attention (GQA) и Rotary Position Embeddings (RoPE). Однако длина контекста в модели ограничена 4096 токенами.

Сравнение Nemotron-4 340B с другими большими языковыми моделями
Сравнение Nemotron-4 340B с другими большими языковыми моделямиИсточник: Nvidia

Модель представлена в виде Nemotron-4−340B-Base, Nemotron-4−340B-Instruct и Nemotron-4−340B-Reward, где:

  • Base — отвечает за генерацию синтетических данных;
  • Instruct — отвечает за ведение чата и выполнение инструкций;
  • Reward — base-модель с дополнительным линейным слоем для обучения с использованием нового reward-подхода.

Семейство моделей Nemotron-4 340B включает базовые, инструкционные и вознаграждающие модели. Они образуют конвейер для генерации синтетических данных для обучения и уточнения LLM. Модели оптимизированы для работы с платформой NVIDIA NeMo и вывода с помощью библиотеки TensorRT-LLM с открытым исходным кодом.

Сравнение Nemotron-4 340B с GPT-4-1106
Сравнение Nemotron-4 340B с GPT-4-1106Источник: Nvidia

Системные требования и доступность

Семейство Nemotron-4 340B уже доступно для загрузки с сайта Hugging Face. В скором времени разработчики смогут получить доступ к этим моделям на сайте ai.nvidia, где они будут представлены в виде микросервиса NVIDIA NIM со стандартным интерфейсом прикладного программирования. 

По системным требованиям ситуация такая (+ цена оборудования для запуска Nemotron-4 340B): 

  • 8x H200 (1x H200 node) — около $289 000 (~25,8 млн рублей);
  • 16x H100 (2x H100 nodes) — около $500 000 (~44,5 млн рублей);
  • 16x A100 80GB (2x A100 80GB nodes) — около 36,5 млн рублей.

Тем временем YouTube внедряет функцию «Заметки». С ее помощью пользователи смогут делиться важной информацией с другими пользователями.