Графический процессор NVIDIA Blackwell побил мировой рекорд скорости вывода LLM

Компания NVIDIA объявила о значительном достижении: ее новый графический процессор Blackwell установил мировой рекорд скорости вывода больших языковых моделей (LLM). Рекорд поставили на модели Meta* Llama 4 Maverick, содержащей 400 миллиардов параметров.

Согласно данным, предоставленным организацией Artificial Analysis, занимающейся тестированием производительности систем искусственного интеллекта, графическому процессору NVIDIA Blackwell впервые удалось преодолеть порог в 1000 токенов в секунду (TPS) на одного пользователя. Это было достигнуто путем настройки узла DGX B200, оснащенного восемью графическими процессорами Blackwell.

Технологические детали достижения

Команда технических специалистов NVIDIA применила ряд оптимизаций, используя программный стек TensorRT-LLM. Они также использовали технологию EAGLE-3 для обучения модели спекулятивного декодирования, что позволило увеличить производительность в 4 раза по сравнению с исходным уровнем до оптимизации. В результате, вся серверная система достигла пиковой пропускной способности в 72 000 токенов в секунду.

LiveCodeBenchAIME 2024GPQA DiamondMATH-500
Эталон 
Llama 4 Maverick (BF16)
0.3970.390.6710.889
Оптимизировано
Llama 4 Maverick (FP8)
0.3830.400.6860.876

Спекулятивное декодирование: ключ к ускорению

NVIDIA пояснила, что спекулятивное декодирование — это метод, направленный на ускорение генерации текста. Он заключается в использовании небольшой и быстрой «черновой» модели для предварительного предсказания последовательности токенов.

Затем эти предсказания параллельно проверяются более крупной и точной целевой LLM. Преимущество этого подхода состоит в том, что за одну итерацию можно сгенерировать несколько токенов, компенсируя дополнительные вычислительные затраты «черновой» модели.

Архитектура EAGLE-3: синергия с аппаратным обеспечением

Для достижения этого прорыва применили программную архитектуру, основанную на EAGLE-3. Эту архитектуру специально разработали для ускорения логических выводов на основе больших языковых моделей и обеспечивает оптимальное взаимодействие с аппаратной архитектурой графического процессора.

Обзор оптимизации ядра и слияния, использованных в Llama 4 Maverick
Оптимизация ядра и слияние, использованные в Llama 4 Maverick

Результаты тестирования показали, что архитектура Blackwell полностью адаптирована для работы с большими языковыми моделями, такими как Llama 4 Maverick.

Точность и отзывчивость: оптимизация формата данных

NVIDIA также сообщила о значительном улучшении производительности при сохранении высокой отзывчивости системы. По многочисленным показателям, точность использования формата данных FP8 сопоставима с точностью ручного анализа BF16, что демонстрирует эффективность оптимизации.

*Meta — признана экстремистской организацией на территории РФ.

4

Анатолий Пшеницын
Перейти в профиль Анатолий Пшеницын

С самого детства начал интересоваться электроникой и техникой. Застал времена первых компьютерных клубов, где открыл для себя культовые игры на легендарной платформе ZX Spectrum. Своими руками собирал акустические системы, занимался ремонтом кассетных плееров и игровых консолей Sega. С тех пор с большим интересом слежу за последними достижениями в мире электроники, технических новинок и программного обеспечения. Уже более пяти лет занимаюсь техно-журналистикой, отбирая лучшее из бесконечного разнообразия технологических устройств и помогая другим сделать осознанный выбор. От игровых консолей и смартфонов до профессиональных видеокамер и устройств для умного дома – я и команда сайта daboom.ru всегда к вашим услугам, чтобы помочь сделать правильный выбор.

Мы будем рады вашему мнению

      Оставьте отзыв

      Присоединяйся:

      В Контакте
      Telegram
      Discord
      X
      info@daboom.ru

      Полезные ссылки:

      Как это работает
      Контакты
      Пользовательское соглашение
      Политика конфиденциальности
      Участники сообщества
      О нас

      Обратите внимание

      Вся информация о товарах или услугах, содержащаяся на данном сайте, является субъективным мнением ее автора. На сайте могут содержаться партнёрские материалы и ссылки.ционный характер и не является публичной офертой, определяемой положениями ст.437 (2) ГК РФВся информация о товарах или услугах, содержащаяся на данном сайте, является субъективным мнением ее автора.

      2018 - 2025 daboom.ru. На сайте могут содержаться партнёрские материалы и ссылки.
      daboom.ru
      Logo
      Создание нового аккаунта
      Этот сайт защищен reCAPTCHA от Google. Я принимаю Политику Конфиденциальности и Условия использования. Отправляя форму вы соглашаетесь на обработку персональных данных.