Кристалл Blackwell B200 содержит 208 миллиардов транзисторов и обеспечивает до 20 петафлопс вычислительной мощности (FP4).
Тем не менее, эти процессоры не предназначены для того, чтобы работать в одиночку, поэтому Nvidia выпустила специальный ускоритель GB200, состоящий из двух графических процессоров Blackwell B200 и центрального процессора Grace (144 ядра ARM Neoverse V2).
Производитель утверждает, что такой трехчиповый модуль обеспечивает до 30 раз большую производительность в задачах LLM, а также до 25 раз сократить стоимость и энергопотребление по сравнению с H100.
Примечательно, что немаловажную роль в росте энергоэффективности сыграли не столько сами чипы, сколько обновленные интерфейсы NVLink, пропускная способность которых достигает 1,8 терабит (1800 гигабит) в секунду. Таким образом, это значительно сократит время синхронизации и передачи данных — ранее на это уходило до 60% времени работы систем.
Nvidia также представила специальные вычислительные станции GB200 NVL72, состоящая из 72 графических процессоров B200. Такие системы обеспечивают порядка 1,4 экзафлопс вычислительной мощности в задачах обучения ИИ и могут поддерживать языковые модели с 27 триллионами параметров (для сравнения, новая модель Grok от xAI содержит лишь 314 миллиардов параметров.
Вишенка на торте — система DGX Superpod с восемью модулями NVL72 (11,5 экзафлопс, 240 ТБ памяти, 576 чипов B200). Тем не менее, производитель подчеркивает, что это далеко не предел и разработчики могут масштабировать свои системы, соединяя в одну сеть десятки тысяч модулей GB200.
Уже в скором времени GB200 и масштабируемые системы на базе этих модулей появятся на рынке. Интересно, какие новые модели и технологии появятся на рынке благодаря такому продвинутому аппаратному обеспечению.
Об одной из самых мощных генеративных ИИ-моделей Grok читайте в нашем материале.