
Компания NVIDIA объявила о значительном достижении: ее новый графический процессор Blackwell установил мировой рекорд скорости вывода больших языковых моделей (LLM). Рекорд поставили на модели Meta* Llama 4 Maverick, содержащей 400 миллиардов параметров.
Согласно данным, предоставленным организацией Artificial Analysis, занимающейся тестированием производительности систем искусственного интеллекта, графическому процессору NVIDIA Blackwell впервые удалось преодолеть порог в 1000 токенов в секунду (TPS) на одного пользователя. Это было достигнуто путем настройки узла DGX B200, оснащенного восемью графическими процессорами Blackwell.
Технологические детали достижения
Команда технических специалистов NVIDIA применила ряд оптимизаций, используя программный стек TensorRT-LLM. Они также использовали технологию EAGLE-3 для обучения модели спекулятивного декодирования, что позволило увеличить производительность в 4 раза по сравнению с исходным уровнем до оптимизации. В результате, вся серверная система достигла пиковой пропускной способности в 72 000 токенов в секунду.
| LiveCodeBench | AIME 2024 | GPQA Diamond | MATH-500 | |
| Эталон Llama 4 Maverick (BF16) | 0.397 | 0.39 | 0.671 | 0.889 |
| Оптимизировано Llama 4 Maverick (FP8) | 0.383 | 0.40 | 0.686 | 0.876 |
Спекулятивное декодирование: ключ к ускорению
NVIDIA пояснила, что спекулятивное декодирование — это метод, направленный на ускорение генерации текста. Он заключается в использовании небольшой и быстрой «черновой» модели для предварительного предсказания последовательности токенов.
Затем эти предсказания параллельно проверяются более крупной и точной целевой LLM. Преимущество этого подхода состоит в том, что за одну итерацию можно сгенерировать несколько токенов, компенсируя дополнительные вычислительные затраты «черновой» модели.
Архитектура EAGLE-3: синергия с аппаратным обеспечением
Для достижения этого прорыва применили программную архитектуру, основанную на EAGLE-3. Эту архитектуру специально разработали для ускорения логических выводов на основе больших языковых моделей и обеспечивает оптимальное взаимодействие с аппаратной архитектурой графического процессора.

Результаты тестирования показали, что архитектура Blackwell полностью адаптирована для работы с большими языковыми моделями, такими как Llama 4 Maverick.
Точность и отзывчивость: оптимизация формата данных
NVIDIA также сообщила о значительном улучшении производительности при сохранении высокой отзывчивости системы. По многочисленным показателям, точность использования формата данных FP8 сопоставима с точностью ручного анализа BF16, что демонстрирует эффективность оптимизации.
*Meta — признана экстремистской организацией на территории РФ.
