Сравнение видеокарт по производительности nvidia: Сравнение всех видеокарт NVIDIA GeForce

Содержание

Сравнение видеокарт Nvidia GeForce RTX 3090, 3080, 3070 и 3060 — РІО Бердичів


Середа, 2 Листопада

УвійтиРеєструйся!

Графические адаптеры Nvidia 3000-й серии отличаются рекордной производительностью. Их единственный недостаток — дефицит плат на рынке. Некоторые геймеры также называют минусом сложность выбора. Сравнение видеокарт поможет вам найти оптимальный вариант для сборки игрового компьютера.

Технические характеристики базового модельного ряда

Самый простой способ провести сравнение видеокарт GeForce RTX 3000-series — представить их основные параметры в таблице. Объектами нашего исследования стали базовые версии без увеличенного объёма памяти, заводского разгона и приставки Ti — это самые популярные и самые доступные модели.

Разбираемся в терминологии

Для сравнения производительности видеокарт нужно понимать, что означают ключевые технические характеристики:

  1. Ядра CUDA — универсальные потоковые процессоры. Они работают параллельно, позволяя видеокарте выполнять большой объём задач за единицу времени. Чем больше число этих логических блоков, тем выше суммарная мощность графического адаптера.

  2. Разгонная частота особенно важна для геймеров. Это предельный показатель, которого удаётся достичь при максимальной нагрузке на компьютер. Чем выше значение, тем быстрее будет обрабатываться игровая графика, если система охлаждения работает достаточно эффективно.

  3. Пропускная способность памяти влияет на скорость обработки информации. Чем больше объём и чем лучше скоростные характеристики чипов, тем выше будет показатель FPS в играх с детализированной графикой.

  4. Собственная мощность видеокарты показывает, какая нагрузка будет приходиться на одну электрическую линию при максимальной отдаче. Выбирая графический адаптер, нужно также учитывать требования производителя к блоку питания компьютера.

Возможности видеокарт 3000-й серии

Сравнение видеокарт Nvidia показывает, что любая модель линейки поддерживает технологию трассировки лучей второго поколения. Она увеличивает нагрузку на железо, позволяя получить более реалистичные отражения, взрывы, зеркальные поверхности и другие спецэффекты. Чтобы компенсировать повышенные требования, производитель добавил функцию интеллектуального масштабирования DLSS 2.0. Она улучшает детализацию текстур, одновременно увеличивая скорость анимации — в обзорах часто демонстрируются хорошие результаты тестов при ультра-детализации.

Все видеокарты в списке поддерживают технологии ShadowPlay, FreeStyle и Highlights, улучшающие качество изображения. Функция GPU boost помогает добиться максимальной отдачи графического процессора, а G-Sync предотвращает появление помех в динамичных сценах игр. Платы, участвующие в сравнении, совместимы с гарнитурами виртуальной реальности. Порты HDMI 2.1 позволяют им передавать на экран картинку с разрешением 8K, хотя результаты в бенчмарках показывают, что эффективно работать с ней могут только старшие модели.

Сравнение видеокарт Nvidia GeForce RTX 3000

  1. Nvidia RTX 3090 — топовая модель, возможности которой удастся полностью реализовать только в ААА-играх с разрешением не ниже 4K, трассировкой лучей и максимальными настройками графики. Её главный недостаток — высокая цена. Модель стоит дороже системного блока, собранного на базе более доступного графического адаптера. Учитывая возможность объединения в SLI-массив и поддержку драйверов профессионального уровня, такую видеокарту можно рекомендовать скорее разработчикам игр и специалистам по трёхмерной анимации, чем рядовым геймерам.

  2. Nvidia RTX 3080 — оптимальный выбор для мощных игровых компьютеров. Её производительности достаточно для 4K-гейминга со стабильным FPS. Теоретически, вы можете выбирать и разрешение 8K, хотя вам придётся делать выбор между трассировкой лучей или высокой детализацией текстур. Видеокарта занимает много места и потребляет более 300 Вт электричества, поэтому ей понадобятся крупногабаритный корпус и мощный блок питания.

  3. Nvidia RTX 3070 — графический адаптер для геймплея с разрешением 2K 1440p. Можно повысить детализацию и до 4K, но тогда придётся ограничиваться 30–50 FPS в зависимости от конкретной игры. Видеокарта интересна относительно доступной ценой и скромным энергопотреблением по сравнению со старшими моделями.

  4. Nvidia RTX 3060 — карта, которая позволяет вам выбирать ультра-настройки графики при разрешении Full HD. Несмотря на принадлежность к бюджетному сегменту, она предлагает весь набор фирменных технологий, включая трассировку лучей и интеллектуальное масштабирование. Благодаря малым размерам видеокарту можно использовать в составе компактных экономичных компьютеров с минимальным уровнем шума.

Заключение

Правила просты — чем больше вы инвестируете в видеокарту, тем лучше будет качество изображения в требовательных играх. Обновляя графический адаптер до следующей модели, вы не только улучшаете настройки графики, но и переходите на новый уровень разрешения, сохраняя комфортный FPS. Все видеокарты, участвующие в сравнении, представлены в каталоге интернет-магазина CompX. Вы можете заказать их в составе готовой конфигурации, получив 12-месячную гарантию на всё железо.


Здійснено за підтримки Асоціації “Незалежні регіональні видавці України” в рамках реалізації грантового проєкту Хаб підтримки регіональних медіа. Погляди авторів не обов’язково збігаються з офіційною позицією партнерів.

Ще в цій категорії:

« Что такое анализатор спектра?

Современный телевизор Samsung: какой он и где его выгодно купить? »

Наверх









«Листопад 2022»
ПнВтСрЧтПтСбНд
 123456
78910111213
14151617181920
21222324252627
282930    







Онлайн казино Германии на сайте Casino Zeus: лицензирование,.

..



24 жовтня 2022





Тютюн «4:20»: що відомо про український муасель



20 жовтня 2022





Не слотами одними: незвичайні азартні ігри різних країн



19 жовтня 2022





Як новачку почати вигідну гру в онлайн-рулетку в казино: кор…



19 жовтня 2022

Сравниваем прирост производительности между поколениями nVIDIA.

Хуанговские штучки — Железо на DTF

{«id»:3947,»url»:»\/distributions\/3947\/click?bit=1&hash=92f6a9de4ae6be1d0b1e1bed28ae8b1536aa7088c6fcd98e2fb7ee00d990c93a»,»title»:»\u041a\u0443\u0434\u0430 \u043d\u0430\u0436\u0430\u0442\u044c, \u0447\u0442\u043e\u0431\u044b \u043f\u043e\u043b\u0443\u0447\u0430\u0442\u044c \u0431\u043e\u043b\u044c\u0448\u0435 \u0437\u0430\u043a\u0430\u0437\u043e\u0432 \u043d\u0430 \u00ab\u041c\u0430\u0440\u043a\u0435\u0442\u0435\u00bb»,»buttonText»:»\u0423\u0437\u043d\u0430\u0442\u044c»,»imageUuid»:»5856fa46-a174-5a03-a362-42bf404e7174″,»isPaidAndBannersEnabled»:false}

6524
просмотров

Владелец и главный редактор портала AdoredTV на своем YouTube канале разместил интересное видео, которое показывает реальный отрыв из поколения в поколение между флагманами nVIDIA . Для своего исследования автор использовал базы данных ведущих тех-порталов среди которых TechPowerUp, TomsHardware, ComputerBase, The Guru of 3D.

График прироста производительности между поколениями
AdoredTV

Некоторые заметят на графиках отсутствие 600 линейки. Это не ошибка. По мнению автора GTX680 не является флагманом, так как была основана на средне-размерном (mid-range) чипе Kepler gk104.

Результаты интересные. Так абсолютным лидером по приросту является видеокарта GTX 780 Ti с удвоенной производительностью, а на втором месте легендарная GTX 1080 Ti.

Любимая многими видеокарта GTX 1080 Ti сделанная по 16 нм тех.процессу компании TSMC показала прирост в 85% и на много лет вперед опередила конкурента, до сих пор остается актуальной в играх и приложениях.

Так например выпущенная на 2 года позже видеокарта AMD Radeon VII основанная на новейшем 7нм тех. процессе компании TSMC так и не смогла догнать GTX 1080 Ti в среднем уступая ей 18%.

После выхода столь удачной архитектуры nVIDIA второй раз подряд и третий раз за всю историю выпускает карту с худшим приростом к производительности.

Сначала вышла архитектура Turing (RTX 2080 Ti) с самым большим количеством изменений, но с самым маленьким приростом в 39%. Хотя как мы помним такой незначительный прирост не помешал компании почти в 2 раза повысить цену на свою продукцию.

А затем архитектура Ampere (RTX 3090) ,флагман которой показал 46% прироста.

Далее автор предлагает посмотреть на график соотношения цены к производительности между поколениями

Соотношение цены к производительности
AdoredTV

Как видно GTX 1080 Ti одна из лучших, чего нельзя сказать о RTX 2080 Ti и RTX 3090. Ситуация несколько улучшилась в этом поколении, но автор просит не забывать о том, цена 3080 хорошая, только по причине того, что RTX 2080 Ti была самой дорогой картой для потребительского сегмента в истории.

А теперь посмотрим на график соотношения производительности к энергоэффективности.

Энергоэффективность AdoredTV

Энергоэффективность пожалуй самое слабое место нового поколения Amper. Все во многом из-за того, что в этот раз nVIDIA выбрала не самый новый 8нм тех.процесс от компании Samsung.

Автор завершает свое исследованием графиком «ценности», который формируется из 3 составляющих: Цена, Производительность, Энергоэффективность.

RTX 2080 Ti на последнем месте, а RTX 3090 на предпоследнем. 2 раза подряд, по меркам самой компании, Turing и Amper одни из самых худших поколений от nVIDIA.

Эталонные тесты GPU для глубокого обучения

Подпишитесь на консультационные услуги по машинному обучению, чтобы получить мгновенный доступ к нашим исследователям и инженерам машинного обучения.

Скорость обучения/логического вывода графического процессора с использованием PyTorch/TensorFlow для компьютерного зрения (CV), НЛП, преобразования текста в речь (TTS) и т. д.

Визуализация

Метрическая система

Точность

Количество графических процессоров

Модель

Визуализация

Метрика

Точность

Количество графических процессоров

Модель

Визуализация

Метрическая система

Точность

Методы

Модель

Чтобы измерить относительную эффективность графических процессоров при обучении нейронных сетей, мы выбрали пропускную способность обучения в качестве мерила. Пропускная способность обучения измеряет количество выборок (например, токенов, изображений и т. д.), обрабатываемых графическим процессором в секунду.

Использование пропускной способности вместо числа операций с плавающей запятой в секунду (FLOPS) переносит производительность графического процессора на уровень обучения нейронных сетей. Пропускная способность обучения сильно коррелирует со временем до решения, поскольку при высокой пропускной способности обучения графический процессор может быстрее запускать набор данных через модель и быстрее обучать ее.

Чтобы максимизировать производительность обучения, важно насыщать ресурсы графического процессора большими пакетами, переключаться на более быстрые графические процессоры или распараллеливать обучение с несколькими графическими процессорами. Кроме того, также важно тестировать пропускную способность с использованием современных реализаций моделей (SOTA) в разных платформах, поскольку на нее может повлиять реализация модели.

TensorFlow

Мы работаем над новыми тестами, используя одну и ту же версию программного обеспечения для всех графических процессоров. Код теста Lambda TensorFlow доступен здесь.

RTX A6000 был протестирован с использованием образа докера TensorFlow 20.10 от NGC с использованием Ubuntu 18.04, TensorFlow 1.15.4, CUDA 11.1.0, cuDNN 8.0.4, драйвера NVIDIA 455.32 и официальных реализаций моделей Google.

Тестирование A100, RTX 3090 и RTX 3080 проводилось с использованием Ubuntu 18.04, TensorFlow 1.15.4, CUDA 11.1.0, cuDNN 8.0.4, драйвера NVIDIA 455.45.01 и официальных реализаций моделей Google.

Графические процессоры Pre-ampere были протестированы с использованием TensorFlow 1.15.3, CUDA 10.0, cuDNN 7.6.5, драйвера NVIDIA 440.33 и официальных реализаций моделей Google.

PyTorch

Мы работаем над новыми эталонными тестами, используя одну и ту же версию программного обеспечения для всех графических процессоров. Код теста Lambda PyTorch доступен здесь.

RTX A6000, A100s, RTX 3090 и RTX 3080 были протестированы с использованием образа докера NGC PyTorch 20.10 с Ubuntu 18.04, PyTorch 1.7.0a0+7036e91, CUDA 11.1.0, cuDNN 8.0.4, драйвером NVIDIA .040. Оптимизированные реализации моделей NVIDIA.

Графические процессоры Pre-ampere были протестированы с использованием образа докера NGC PyTorch 20.01 с Ubuntu 18.04, PyTorch 1.4.0a0+a5b4d78, CUDA 10.2.89, cuDNN 7.6.5, драйвера NVIDIA 440.33 и реализации оптимизированной модели NVIDIA.

YoloV5

YOLOv5 — это семейство архитектур и моделей обнаружения объектов SOTA, предварительно обученных Ultralytics. В этом репозитории мы используем реализацию с открытым исходным кодом, чтобы сравнить время ожидания моделей YOLOv5 для различных типов графических процессоров и форматов моделей (PyTorch, TorchScript, ONNX, TensorRT, TensorFlow, TensorFlow GraphDef). Подробную информацию о входном разрешении и точности модели можно найти здесь.

Сравнение графических процессоров NVIDIA GeForce и Tesla

Этот ресурс был подготовлен Microway на основе данных, предоставленных NVIDIA и надежных медиа-источников. Все графические процессоры NVIDIA поддерживают вычисления общего назначения (GPGPU), но не все графические процессоры обеспечивают одинаковую производительность или поддерживают одинаковые функции. Потребительская линейка потребительских графических процессоров GeForce и RTX может быть привлекательной для некоторых приложений с ускорением на графическом процессоре. Тем не менее, разумно помнить о различиях между продуктами. Многие функции доступны только на профессиональных графических процессорах Datacenter, RTX Professional и Tesla.

FP64 64-разрядные (двойной точности) вычисления с плавающей запятой

Многие приложения требуют более точных математических вычислений. В этих приложениях данные представляются в два раза большими значениями (используя 64 двоичных бита вместо 32 бит). Эти большие значения называются двойной точностью (64-разрядные). Менее точные значения называются одинарной точностью (32-разрядные). Хотя почти все продукты NVIDIA GPU поддерживают вычисления как с одинарной, так и с двойной точностью, производительность для значений с двойной точностью значительно ниже на большинстве графических процессоров GeForce потребительского уровня. Вот сравнение производительности вычислений двойной точности с плавающей запятой между графическими процессорами GeForce и Tesla/Quadro:

Модель графического процессора NVIDIA Производительность операций с плавающей запятой двойной точности (64 бита)
GeForce GTX Titan X Maxwell до 0,206 терафлопс
GeForce GTX 1080 Ti до 0,355 терафлопс
GeForce Titan XP до 0,380 терафлопс
GeForce Титан V до 6,875 терафлопс
GeForce RTX 2080 Ti оценка ~0,44 TFLOPS
Титан RTX оценка ~0,51 терафлопс
РТХ 4090 ~1,29 терафлопс
Тесла К80 1,87+ терафлопс
Тесла Р100* 4,7 ~ 5,3 терафлопс
Quadro GP100 5,2 терафлопс
Тесла V100* 7 ~ 7,8 терафлопс
Quadro GV100 7,4 терафлопс
Quadro RTX 6000 и 8000 ~ 0,5 терафлопс
Тесла Т4 оценка ~0,25 TFLOPS
NVIDIA A100 9,7 TFLOPS
19,5 TFLOPS FP64 Tensor Core Operations

* Точное значение зависит от SKU PCI-Express или SXM2

FP16 16-бит (половина точности) вычисления с плавающей точкой использует HPC).

Поддержка операций половинной точности FP16 была введена в графических процессорах поколения «Pascal». Ранее это был стандарт для вычислений глубокого обучения/ИИ; однако рабочие нагрузки глубокого обучения перешли к более сложным операциям (см. TensorCores ниже). Хотя все графические процессоры NVIDIA «Pascal» и более поздние поколения поддерживают FP16, производительность многих графических процессоров, ориентированных на игры, значительно ниже. Вот сравнение производительности вычислений с плавающей запятой половинной точности между графическими процессорами GeForce и Tesla/Quadro:

NVIDIA GPU Model Производительность операций с плавающей запятой половинной точности (16 бит)
GeForce GTX Titan X Maxwell Н/Д
GeForce GTX 1080 Ti менее 0,177 терафлопс
GeForce Titan XP менее 0,190 терафлопс
GeForce Титан V ~27,5 терафлопс
GeForce RTX 2080 Ti 28,5 терафлопс
Титан RTX до 32,6 терафлопс**
RTX 4090 до 82,6 терафлопс
Тесла К80 Н/Д
Тесла Р100* 18,7 ~ 21,2 терафлопс*
Quadro GP100 20,7 терафлопс
Тесла V100* 28 ~31,4 терафлопс*
Quadro GV100 29,6 терафлопс
Quadro RTX 6000 и 8000 32,6 терафлопс
Тесла Т4 16,2 терафлопс
NVIDIA A100 78 терафлопс

* Точное значение зависит от SKU PCI-Express или SXM2. специализированный модуль Tensor Core был представлен с графическими процессорами поколения «Volta». Он объединяет умножение двух единиц FP16 (в продукт полной точности) с операцией накопления FP32 — точными операциями, используемыми в вычислениях Deep Learning Training. NVIDIA теперь измеряет графические процессоры с тензорными ядрами по новому показателю производительности глубокого обучения: новый блок под названием TensorTFLOPS.

Тензорные ядра доступны только на графических процессорах Volta или новее. Для справки, мы , обеспечивающие максимальную известную производительность глубокого обучения с любой точностью , если нет значения TensorFLOPS. Мы считаем очень плохой научной методологией сравнивать производительность с разной точностью; тем не менее, мы также осознаем желание увидеть сравнение производительности хотя бы на порядок между производительностью глубокого обучения различных поколений графических процессоров.

Модель графического процессора NVIDIA TensorFLOPS
(или максимальная производительность DL)
GeForce GTX Titan X Maxwell Н/Д TensorTFLOPS
~6,1 TFLOPS FP32
GeForce GTX 1080 Ti Н/Д TensorTFLOPS
~11,3 TFLOPS FP32
GeForce Titan XP Н/Д TensorTFLOPS
~12,1 TFLOPS FP32
GeForce Титан V 110 тензорных TFLOPS
GeForce RTX 2080 Ti 56,9 TensorTFLOPS
455,4 TOPS INT4 для вывода
Титан RTX 130 TensorTFLOPS
520 TOPS INT4 для вывода
RTX 4090 660,6/1321,2 FP8 TensorTFLOPS***
1321,2/2642,4 TOPS INT4*** для вывода
Тесла К80 Н/Д TensorTFLOPS
5,6 TFLOPS FP32
Тесла Р100* Н/Д TensorTFLOPS
18,7 ~ 21,2 TFLOPS FP16
Quadro GP100 Н/Д TensorTFLOPS
20,7 TFLOPS FP16
Тесла V100* 112 ~ 125 тензорных TFLOPS
Quadro GV100 118,5 тензорных TFLOPS
Quadro RTX 6000 и 8000 130,5 TensorTFLOPS
522 TOPS INT4 для вывода
Тесла Т4 65 TensorTFLOPS
260 TOPS INT4 для вывода
NVIDIA A100 312 FP16 TensorTFLOPS
1248 TOPS INT4 для вывода

* Точное значение зависит от артикула PCI-Express или SXM2

*** Значение указано с функцией разреженности и без нее

Обнаружение и исправление ошибок

На графическом процессоре, на котором запущена компьютерная игра, одна ошибка памяти обычно не вызывает проблем (например, цвет одного пикселя может быть неправильным для одного кадра). ). Пользователь вряд ли даже знает о проблеме. Однако приложения для технических вычислений полагаются на точность данных, возвращаемых графическим процессором. Для некоторых приложений одна ошибка может привести к тому, что симуляция будет грубо и явно неправильной. Для других однобитовую ошибку может быть не так просто обнаружить (возвращение неправильных результатов, которые кажутся разумными). Графические процессоры Titan не включают функции исправления или обнаружения ошибок. Ни графический процессор, ни система не могут предупредить пользователя об ошибках в случае их возникновения. Обнаружение ошибок (независимо от того, вызывают ли они сбои приложений, явно неправильные данные или слегка неверные данные) зависит от пользователя. Такие проблемы не редкость — наши технические специалисты регулярно сталкиваются с ошибками памяти на потребительских игровых графических процессорах. Графические процессоры NVIDIA Tesla способны исправлять однобитовые ошибки, а также обнаруживать и предупреждать о двухбитовых ошибках. В новейших графических процессорах NVIDIA A100, Tesla V100, Tesla T4, Tesla P100 и Quadro GV100/GP100 поддержка ECC включена в основную память HBM2, а также в файлы регистров, общую память, кэш L1 и кэш L2.

Гарантия и лицензионное соглашение с конечным пользователем

В гарантии NVIDIA на продукты GeForce GPU прямо указано, что продукты GeForce не предназначены для установки на серверы. Запуск графических процессоров GeForce в серверной системе аннулирует гарантию на графический процессор, и пользователь действует на свой страх и риск. С веб-сайта гарантии производителя NVIDIA:

Продукт, на который распространяется гарантия, предназначен только для конечных пользователей и не предназначен для использования в центрах обработки данных и/или в коммерческих развертываниях кластера графических процессоров («Корпоративное использование»). Любое использование Гарантированного продукта для корпоративного использования аннулирует эту гарантию.

В лицензионном соглашении, прилагаемом к программному драйверу для продуктов NVIDIA GeForce, частично указано:

Нет развертывания центра обработки данных. ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ не лицензировано для развертывания в центре обработки данных, за исключением того, что разрешена обработка блокчейна в центре обработки данных.

Производительность памяти графического процессора

Для приложений с интенсивными вычислениями требуются высокопроизводительные вычислительные блоки, но быстрый доступ к данным также имеет решающее значение. Для многих приложений HPC увеличение производительности вычислений не поможет, если не будет также улучшена производительность памяти. По этой причине графические процессоры Tesla обеспечивают лучшую реальную производительность, чем графические процессоры GeForce:

Модель графического процессора NVIDIA Пропускная способность памяти графического процессора
GeForce GTX Titan X Maxwell 336 ГБ/с
GeForce GTX 1080 Ti 484 ГБ/с
GeForce Titan XP 548 ГБ/с
GeForce Титан V 653 ГБ/с
GeForce RTX 2080 Ti 616 ГБ/с
Титан RTX 672 ГБ/с
RTX 4090 1008 ГБ/с
Тесла К80 480 ГБ/с
Тесла Р40 346 ГБ/с
Тесла P100 12 ГБ 549 ГБ/с
Тесла P100 16 ГБ 732 ГБ/с
Квадро GP100 717 ГБ/с
Тесла V100 16 ГБ/32 ГБ 900 ГБ/с
Quadro GV100 870 ГБ/с
Quadro RTX 6000 и 8000 624 ГБ/с
Тесла Т4 320 ГБ/с
NVIDIA A100 1555 ГБ/с для 40 ГБ
2039 ГБ/с для 80 ГБ

 

Объем памяти графического процессора

Как правило, чем больше памяти в системе, тем быстрее она будет работать. Для некоторых приложений высокопроизводительных вычислений даже невозможно выполнить одиночный запуск, если нет достаточного объема памяти. Для других качество и достоверность результатов будут ухудшаться, если не будет достаточно памяти. Графические процессоры Tesla предлагают в два раза больше памяти, чем графические процессоры GeForce:

Графический процессор NVIDIA Модель Объем памяти графического процессора
GeForce GTX 1080 Ti 11 ГБ
GeForce Titan XP 12 ГБ
GeForce GTX Titan V 12 ГБ
GeForce RTX 2080 Ti 11 ГБ
Титан RTX 24 ГБ
RTX 4090 24 ГБ
Тесла К80 24 ГБ
Тесла Р40 24 ГБ
Тесла Р100 12 ГБ или 16 ГБ *
Quadro GP100 16 ГБ *
Тесла V100 16 ГБ или 32 ГБ *
Quadro GV100 32 ГБ *
Quadro RTX 6000 24 ГБ *
Quadro RTX 8000 48 ГБ *
Тесла Т4 16 ГБ *
NVIDIA A100 40 или 80 ГБ *

* обратите внимание, что унифицированная память Tesla/Quadro позволяет графическим процессорам совместно использовать память друг друга для загрузки еще больших наборов данных самые большие потенциальные узкие места связаны с ожиданием передачи данных на графический процессор. Дополнительные узкие места возникают при параллельной работе нескольких графических процессоров. Более быстрая передача данных напрямую приводит к более высокой производительности приложений. Графические процессоры GeForce подключаются через PCI-Express, теоретическая пиковая пропускная способность которого составляет 16 ГБ/с. Графические процессоры NVIDIA Tesla/Quadro с NVLink могут использовать гораздо более быстрое подключение. NVLink в поколении NVIDIA Pascal позволяет каждому графическому процессору обмениваться данными со скоростью до 80 ГБ/с (160 ГБ/с в обоих направлениях). NVLink 2.0 в поколении NVIDIA «Volta» позволяет каждому графическому процессору обмениваться данными со скоростью до 150 ГБ/с (300 ГБ/с в обоих направлениях). NVLink 3-го поколения в поколении NVIDIA Ampere позволяет каждому графическому процессору обмениваться данными со скоростью до 300 ГБ/с (600 ГБ/с в обоих направлениях). Соединения NVLink поддерживаются между графическими процессорами, между графическими процессорами и коммутаторами NVIDIA NVSwitch, а также между процессорами и графическими процессорами на поддерживаемых платформах OpenPOWER.

Поддержка прикладного программного обеспечения

В то время как некоторые программы могут работать на любом графическом процессоре, поддерживающем CUDA, другие разработаны и оптимизированы для серии профессиональных графических процессоров. Большинство профессиональных программных пакетов официально поддерживают только графические процессоры NVIDIA Tesla и Quadro. Использование графического процессора GeForce возможно, но не будет поддерживаться поставщиком программного обеспечения. В других случаях приложения вообще не будут работать при запуске на GPU GeForce (например, программные продукты от Schrödinger, LLC).

Поддержка операционной системы

Хотя драйверы графических процессоров NVIDIA достаточно гибкие, драйверов GeForce для операционных систем Windows Server нет. Графические процессоры GeForce поддерживаются только в Windows 7, Windows 8 и Windows 10. Группам, использующим Windows Server, следует обратить внимание на профессиональные продукты NVIDIA Tesla и Quadro GPU. С другой стороны, драйверы Linux поддерживают все графические процессоры NVIDIA.

Жизненный цикл продукта

Из-за характера рынка потребительских графических процессоров продукты GeForce имеют относительно короткий жизненный цикл (обычно не более года между выпуском продукта и окончанием производства). В проектах, требующих более длительного срока службы продукта (например, в которых может потребоваться замена деталей через 3 и более года после покупки), следует использовать профессиональный графический процессор. Профессиональные продукты NVIDIA Tesla и Quadro GPU имеют увеличенный жизненный цикл и долгосрочную поддержку от производителя (включая уведомление об окончании срока службы продукта и возможности последней покупки до остановки производства). Кроме того, профессиональные графические процессоры проходят более тщательное тестирование и проверку во время производства.

Энергоэффективность

Графические процессоры GeForce предназначены для потребительского использования в играх и обычно не рассчитаны на энергоэффективность. Напротив, графические процессоры Tesla предназначены для крупномасштабного развертывания, где важна энергоэффективность. Это делает графические процессоры Tesla лучшим выбором для более крупных установок. Например, GeForce GTX Titan X популярен для рабочих нагрузок глубокого обучения настольных компьютеров. В серверных развертываниях графический процессор Tesla P40 обеспечивает аналогичную производительность и удваивает объем памяти. Однако, если поставить их бок о бок, Tesla потребляет меньше энергии и выделяет меньше тепла.

Механизмы DMA

Механизм прямого доступа к памяти (DMA) графического процессора обеспечивает быструю передачу данных между системной памятью и памятью графического процессора. Поскольку такие передачи являются частью любого реального приложения, производительность имеет жизненно важное значение для ускорения GPU. Медленная передача приводит к тому, что ядра графического процессора простаивают до тех пор, пока данные не поступят в память графического процессора. Аналогично, медленные возвраты заставляют ЦП ждать, пока ГП не закончит возвращать результаты.

Продукты GeForce оснащены одним модулем прямого доступа к памяти* , который может передавать данные в одном направлении за раз. Если данные загружаются в графический процессор, любые результаты, вычисленные графическим процессором, не могут быть возвращены до завершения загрузки. Точно так же результаты, возвращаемые графическим процессором, блокируют любые новые данные, которые необходимо загрузить в графический процессор. Продукты Tesla GPU оснащены двумя DMA Engine , чтобы устранить это узкое место. Данные могут передаваться в GPU и из GPU одновременно.

* одна модель графического процессора GeForce, GeForce GTX Titan X, оснащена двумя ядрами прямого доступа к памяти

GPU Direct RDMA

Технология NVIDIA GPU-Direct позволяет значительно повысить скорость передачи данных между графическими процессорами. Различные возможности подпадают под зонтик GPU-Direct, но возможность RDMA обещает наибольший прирост производительности. Традиционно для отправки данных между графическими процессорами кластера требовалось 3 копии памяти (один раз в системную память графического процессора, один раз в системную память процессора и один раз в память драйвера InfiniBand). GPU Direct RDMA удаляет копии системной памяти, позволяя графическому процессору напрямую отправлять данные через InfiniBand в удаленную систему. На практике это привело к сокращению задержки на 67 % и увеличению пропускной способности на 430 % для небольших размеров сообщений MPI [1]. В версии CUDA 8.0 NVIDIA представила GPU Direct RDMA ASYNC , что позволяет графическому процессору инициировать передачу RDMA без какого-либо взаимодействия с ЦП.

Графические процессоры GeForce не поддерживают GPU-Direct RDMA . Хотя вызовы MPI по-прежнему будут успешно возвращаться, передачи будут выполняться по стандартным путям копирования памяти. Единственная форма GPU-Direct, которая поддерживается картами GeForce, — это GPU Direct Peer-to-Peer (P2P). Это позволяет быстро передавать данные в пределах одного компьютера, но ничего не делает для приложений, работающих на нескольких серверах/вычислительных узлах. Графические процессоры Tesla полностью поддерживают GPU Direct RDMA и различные другие возможности GPU Direct . Они являются основной целью для этих возможностей и, таким образом, чаще всего тестируются и используются в полевых условиях.

Hyper-Q

Hyper-Q Proxy для потоков MPI и CUDA позволяет нескольким потокам или процессам ЦП запускать работу на одном графическом процессоре. Это особенно важно для существующих параллельных приложений, написанных с помощью MPI, поскольку эти коды были разработаны для использования преимуществ нескольких ядер ЦП. Разрешение GPU принимать работу от каждого из потоков MPI, работающих в системе, может обеспечить потенциально значительный прирост производительности. Кроме того, это может сократить объем перепроектирования исходного кода, необходимого для добавления ускорения графического процессора в существующее приложение. Однако единственная форма Hyper-Q, которая поддерживается графическими процессорами GeForce, — это Hyper-Q для потоков CUDA. Это позволяет GeForce эффективно принимать и выполнять параллельные вычисления с отдельных ядер ЦП, но приложения, работающие на нескольких компьютерах, не смогут эффективно запускать работу на графическом процессоре.

Возможности мониторинга и управления состоянием графического процессора

Многие возможности мониторинга состояния и управления графическим процессором (которые жизненно необходимы для обслуживания систем с несколькими графическими процессорами) поддерживаются только профессиональными графическими процессорами Tesla. Функции Health, которые не поддерживаются графическими процессорами GeForce, включают:

  • NVML/nvidia-smi для мониторинга и управления состоянием и возможностями каждого графического процессора. Это обеспечивает поддержку графического процессора рядом сторонних приложений и инструментов, таких как Ganglia. Также доступны привязки Perl и Python. 909:40
  • OOB (внеполосный мониторинг через IPMI) позволяет системе отслеживать состояние графического процессора, регулировать скорость вращения вентилятора для надлежащего охлаждения устройств и отправлять оповещения при обнаружении проблемы
  • InfoROM (постоянная конфигурация и данные о состоянии) предоставляет системе дополнительные данные о каждом графическом процессоре
  • Утилита NVHealthmon предоставляет администраторам кластера готовый к использованию инструмент проверки работоспособности графического процессора
  • TCC позволяет специально настраивать графические процессоры для режимов только отображения или только вычислений 909:40
  • ECC (обнаружение и исправление ошибок памяти)

Инструменты кластера полагаются на возможности, предоставляемые NVIDIA NVML. Примерно 60% возможностей недоступны на GeForce — в этой таблице представлено более подробное сравнение функций NVML, поддерживаемых графическими процессорами Tesla и GeForce:

Feature Тесла Geforce
Название продукта да да
Показать количество GPU да да
Поколение PCI-Express (например, 2. 0 против 3.0) да
Ширина канала PCI-Express (например, x4, x8, x16) да
Текущая скорость вентилятора да да
Текущая температура да да*
Текущее состояние производительности 9
Поддержка обнаружения/исправления ошибок ECC да
Список удаленных страниц да
Текущая потребляемая мощность да
Установка предела потребляемой мощности да
Текущая тактовая частота GPU да
Текущая тактовая частота памяти да
Показать доступные тактовые частоты да
Показать доступные скорости памяти да
Установить ускорение GPU (тактовая частота ядра и памяти) да
Показать текущие вычислительные процессы да
Серийный номер карты да
Изображение и объекты InfoROM да
Возможности учета (использование ресурсов на процесс) да
Идентификаторы PCI-Express да да
Версия драйвера NVIDIA да да
Версия NVIDIA VBIOS да да

* Считывание температуры недоступно для системной платформы, что означает невозможность регулировки скорости вращения вентилятора. 9GPU Boost отключен во время вычислений с двойной точностью. Кроме того, в определенных сценариях тактовые частоты GeForce будут автоматически снижены.

GPU Boost

Все новейшие продукты NVIDIA GPU поддерживают GPU Boost, но их реализации различаются в зависимости от предполагаемого сценария использования. Карты GeForce созданы для интерактивного использования на рабочем столе и игр. Графические процессоры Tesla созданы для интенсивной и постоянной обработки чисел, при этом стабильность и надежность стоят на первом месте. Учитывая различия между этими двумя вариантами использования, GPU Boost работает на Tesla иначе, чем на GeForce.

Как работает GPU Boost на потребительских графических процессорах GeForce/RTX

В случае Geforce видеокарта автоматически определяет тактовую частоту и напряжение на основе температуры графического процессора. Температура является подходящей независимой переменной, поскольку тепловыделение влияет на скорость вращения вентилятора. Для менее требовательных к графике игр или для обычного использования рабочего стола конечный пользователь может наслаждаться более тихой работой. Однако при игре в игры, требующие серьезных вычислений графического процессора, GPU Boost автоматически увеличивает напряжение и тактовую частоту (в дополнение к увеличению шума).

Как работает ускорение графического процессора на Tesla

С другой стороны, уровень усиления графического процессора Tesla также может динамически определяться напряжением и температурой, как и в потребительских графических процессорах, но не обязательно всегда работать таким образом.

При желании, boost может быть указан системным администратором или пользователем вычислений — желаемая тактовая частота может быть установлена ​​на определенную частоту. Вместо плавания тактовой частоты на различных уровнях желаемая тактовая частота может поддерживаться статически, пока не будет достигнуто пороговое значение энергопотребления (TDP).

Читайте также: