Сравнительное тестирование видеокарт: Valheim. Сравнительное тестирование видеокарт / Overclockers.ua

Новинки IT-индустрии, обзоры и тесты компьютеров и комплектующих

  • ПК и комплектующие
    • Настольные ПК и моноблоки
    • Портативные ПК
    • Серверы
    • Материнские платы
    • Корпуса
    • Блоки питания
    • Оперативная память
    • Процессоры
    • Графические адаптеры
    • Жесткие диски и SSD
    • Оптические приводы и носители
    • Звуковые карты
    • ТВ-тюнеры
    • Контроллеры
    • Системы охлаждения ПК
    • Моддинг
    • Аксессуары для ноутбуков
  • Периферия
    • Принтеры, сканеры, МФУ
    • Мониторы и проекторы
    • Устройства ввода
    • Внешние накопители
    • Акустические системы, гарнитуры, наушники
    • ИБП
    • Веб-камеры
    • KVM-оборудование
  • Цифровой дом
    • Сетевые медиаплееры
    • HTPC и мини-компьютеры
    • ТВ и системы домашнего кинотеатра
    • Технология DLNA
    • Средства управления домашней техникой
  • Гаджеты
    • Планшеты
    • Смартфоны
    • Портативные накопители
    • Электронные ридеры
    • Портативные медиаплееры
    • GPS-навигаторы и трекеры
    • Носимые гаджеты
    • Автомобильные информационно-развлекательные системы
    • Зарядные устройства
    • Аксессуары для мобильных устройств
  • Фото и видео
    • Цифровые фотоаппараты и оптика
    • Видеокамеры
    • Фотоаксессуары
    • Обработка фотографий
    • Монтаж видео
  • Программы и утилиты
    • Операционные системы
    • Средства разработки
    • Офисные программы
    • Средства тестирования, мониторинга и диагностики
    • Полезные утилиты
    • Графические редакторы
    • Средства 3D-моделирования
  • Мир интернет
    • Веб-браузеры
    • Поисковые системы
    • Социальные сети
    • «Облачные» сервисы
    • Сервисы для обмена сообщениями и конференц-связи
    • Разработка веб-сайтов
    • Мобильный интернет
    • Полезные инструменты
  • Безопасность
    • Средства защиты от вредоносного ПО
    • Средства управления доступом
    • Защита данных
  • Сети и телекоммуникации
    • Проводные сети
    • Беспроводные сети
    • Сетевая инфраструктура
    • Сотовая связь
    • IP-телефония
    • NAS-накопители
    • Средства управления сетями
    • Средства удаленного доступа
  • Корпоративные решения
    • Системная интеграция
    • Проекты в области образования
    • Электронный документооборот
    • «Облачные» сервисы для бизнеса
    • Технологии виртуализации

Наш канал на Youtube

Архив изданий

1999123456789101112
2000123456789101112
2001123456789101112
2002123456789101112
2003123456789101112
2004123456789101112
2005123456789101112
2006123456789101112
2007123456789101112
2008123456789101112
2009123456789101112
2010123456789101112
2011123456789101112
2012123456789101112
2013123456789101112
  • О нас
  • Размещение рекламы
  • Контакты

Популярные статьи

Моноблок HP 205 G4 22 AiO — одно из лучших решений для офисной и удаленной работы

В настоящем обзоре мы рассмотрим модель моноблока от компании HP, которая является признанным лидером в производстве компьютеров как для домашнего использования, так и для офисов. Моноблок HP 205 G4 22 — модель нового семейства, которая построена на базе процессоров AMD последнего поколения и отличается неплохой производительностью вкупе с привлекательной ценой

Logitech G PRO X Superlight — легкая беспроводная мышь для профессиональных киберспортсменов

Швейцарская компания Logitech G представила беспроводную игровую мышь Logitech G PRO X Superlight. Новинка предназначена для профессиональных киберспортсменов, а слово Superlight в ее названии указывает на малый вес этой модели, который не превышает 63 г. Это почти на четверть меньше по сравнению с анонсированным пару лет тому назад манипулятором Logitech G PRO Wireless

Материнская плата для домашнего майнинга ASRock h210 Pro BTC+

Как показало недавнее исследование Кембриджского университета — количество людей, которые пользуются сегодня криптовалютами, приближается к размеру населения небольшой страны и это только начало, мир меняется. Поэтому компания ASRock разработала и выпустила в продажу весьма необычную материнскую плату — h210 PRO BTC+, которую мы и рассмотрим в этом обзоре

Верхняя панель клавиатуры Rapoo Ralemo Pre 5 Fabric Edition обтянута тканью

Компания Rapoo анонсировала в Китае беспроводную клавиатуру Ralemo Pre 5 Fabric Edition. Новинка выполнена в формате TKL (без секции цифровых клавиш) и привлекает внимание оригинальным дизайном. Одна из отличительных особенностей этой модели — верхняя панель, обтянутая тканью с меланжевым рисунком

Изогнутый экран монитора MSI Optix MAG301 CR2 обеспечит максимальное погружение в игру

Линейку компьютерных мониторов MSI пополнила модель Optix MAG301 CR2, адресованная любителям игр. Она оборудована ЖК-панелью типа VA со сверхширокоформатным (21:9) экраном изогнутой формы (радиус закругления — 1,5 м). Его размер — 29,5 дюйма по диагонали, разрешение — 2560×1080 пикселов

Комплект SilverStone MS12 позволяет превратить SSD типоразмера M.2 2280 в портативный накопитель

Каталог продукции компании SilverStone пополнил комплект MS12. Он позволяет создать портативный накопитель на базе стандартного SSD типоразмера M.2 2280 с интерфейсом PCI Express

SSD-накопители ADATA XPG Spectrix S20G сочетают производительность с эффектным дизайном

Компания ADATA Technology анонсировала твердотельные накопители серии XPG Spectrix S20G. Они предназначены для оснащения игровых ПК и, как утверждают их создатели, сочетают высокую производительность и эффектный внешний вид

Видеокарта ASUS GeForce RTX 3070 Turbo оснащена системой охлаждения с одним центробежным вентилятором

Линейку видеоадаптеров ASUS на базе графических процессоров NVIDIA пополнила модель GeForce RTX 3070 Turbo (заводской индекс TURBO-RTX3070-8G), предназначенная для оснащения игровых ПК. Одной из особенностей новинки является конструкция системы охлаждения

КомпьютерПресс использует

Сравнительное тестирование и обзор видеокарт на базе GeForce 4 Titanium 4200

Сравнительное тестирование и обзор видеокарт на базе GeForce 4 Titanium 4200

Видеокарты на базе Nvidia GeForce 4 Ti 4200 действительно стали народными, а если не стали, то в ближайшее время станут. На данном чипе было представлено много различных видеокарт от различных производителей. Прежде, чем перейти к рассмотрению отдельных моделей видеокарт, давайте напомним для тех, кто забыл, и расскажем для тех, кто не знает, что из себя представляет графический процессор Nvidia GeForce 4 Ti 4200.

GPU Nvidia GeForce 4 Ti 4200
Чип имеет кодовое название NV25. Чип довольно большой (больше, чем NV20, приблизительно на 5%), хоть и сделан по тому же технологическому процессу (0.15 микрон). Второй блок программы построения теней (second vertex shader unit) занимает приличную часть графического процессора (GPU). При этом чип только на 5% больше своего предшественника. В чипе применена Архитектура Памяти II (Lightspeed).
Посмотрим, что унаследовал чип от предшественника.
Это, прежде всего, перекрестная архитектура памяти.

Далее: четыре независимых регулятора памяти, каждый с собственной специализированной 32-разрядной шиной памяти.
В GeForce 4 применена такая технология как Quad Cache, предназначенная для простых геометрических элементов изображения, вершины, текстуры и кэшей пикселя. Размер Quad Cache не был изменен по сравнению с GeForce 3. Надо сказать, что GeForce 4 — не единственный чип, использующий эту технологию. Похожая технология применена в Radeon 8500 от ATI.
В GeForce 4 применен все тот же Z-Buffer. Он остался неизменным. Напомним, что технология Z-Buffer использует специальный компрессионный алгоритм, позволяющий сжимать данные без потери качества. Степень сжатия может достигнуть 4:1 на z-буфере данных. Также он унаследовал от предшественника технологию Z-clear. Она предназначена для того, чтобы заставлять все значения в z-буфере устанавливаться на нуль.
Почти 13% от чипа занимает блок с технологией Accuview AA Engine. Новый AA-движок поддерживает модификацию 4X AA под приложениями Direct3D. Разница между 4X и 4XS — то, что последний предлагает большее количество образцов текстуры в пиксель, чтобы генерировать лучше просмотр AA-изображения.

Одна из наиболее полезных особенностей NV25-ядра — включение nView многократного ядра дисплея. Первоначально была применена технология TwinView в GeForce2 MX. Технология nView — это расширенная технология TwinView с намного большей гибкостью. NV25 показывает двойной 350 MHz RAMDAC. У GeForce 4 имеется поддержка двух внешних TMDS-передатчиков, чтобы управлять двойными цифровыми индикаторными панелями. Остановимся поподробней на технологии nView. Видеокарта обладает теперь двумя выходами, подключив к которым по монитору, вы сможете удвоить рабочую область экрана. В режиме дублирования оба монитора будут транслировать одинаковое изображение. Нам же наиболее интересен другой режим — когда второй монитор расширяет интерактивную область. В таком случае вы сможете, например, переводить курсор с одного экрана на другой или смотреть на одном мониторе фильм, а на втором лазить по Интернету. Очень удобно, не правда ли?
Это то, что касается семейства GeForce 4 Ti в целом. Что касается GeForce 4 Ti 4200, то от своего старшего брата GeForce 4 Ti 4600 он отличается лишь частотами чипа и памяти, которые у Ti 4200 составляют 250 MHz и 250 (500) MHz соответственно.

ASUS V8420
Видеокарта от известного производителя первого звена.
Видеокарта имеет почти стандартный дизайн, за исключением системы охлаждения. Кулер, использованный на V8420, имеет хорошее качество изготовления и необычный и неординарный дизайн. На видеокарте распаян стандартный набор выходов: стандартный аналоговый, цифровой (DVI), а также TV-OUT, который реализован посредством чипа Philips SAA7104E. Данный чип неплохо себя зарекомендовал и дает довольно неплохое качество изображения, по сравнению с конкурентами, для данного класса устройств. Стандартный аналоговый выход реализован посредством встроенного RAMDAC, а DVI-выход реализован посредством второго встроенного RAMDAC и дополнительного трасмиттера Silicon Image. Видеокарта оснащена 128 мегабайтами набортной памяти производства Samsung со временем выборки 4.0 наносекунды. Частоты чипа и памяти у данной платы составляют 250 MHz и 445 MHz (DDR) соответственно, что является вполне стандартным для 128-мегабайтной версии Ti 4200.
Видеокарта поставляется в красочной коробке. Комплект поставки, как и у всех видеокарт от ASUS, очень богат: сама видеокарта ASUS V8420, шнур для подключения к телевизору, переходник DVI на DVI+аналоговый выход, инструкция по эксплуатации на английском языке, мини-инструкция на русском, диск с драйверами и утилитами, диск с программой ASUSDVD 2000, диск с лицензионной версией игры Aquanox, диск с лицензионными версиями Midnight GT и Rage Rally, а также диск с демонстрационными версиями различных игр.

Chaintech GT 21 Special Edition
Видеокарта от производителя средней руки. Имеет нестандартный и очень привлекательный дизайн. Плата выполнена на текстолите черного цвета вкупе с золотистыми кулером и радиаторами на чипах памяти, выглядит просто замечательно. Компания Chaintech сделала довольно грамотное охлаждение, однако на задней панели чипы памяти были прикрыты радиаторами некачественно и неаккуратно, да и, кроме того, как выяснилось позже, данное грамотное охлаждение на данной видеокарте просто ни к чему. Видеоплата имеет стандартный набор выходов: стандартный аналоговый, цифровой (DVI) и TV-OUT. Также, как и у ASUS V8420, стандартный аналоговый выход реализован посредством встроенного RAMDAC, а DVI-выход реализован посредством второго встроенного RAMDAC и дополнительного трасмиттера Silicon Image. Данная видеокарта в отличие от V8420 поддерживает VIVO (Video in, Video Out) — ввод и вывод видео. Реализована эта возможность посредством кодека Philips SAA7108E, который в отличие от Philips SAA7104E поддерживает возможность оцифровки видеосигнала. Видеокарта несет 128 Mb видеопамяти на своем борту со временем цикла 4,0 наносекунды. Частоты у GT 21 составляют 249 MHz для чипа и 444 MHz (DDR), что является стандартом.
Платы поставляются в красочной золотистой коробке с прозрачным окошком и выглядят очень стильно и подарочно.
Комплект поставки, в отличие от стандартных плат от Chaintech, довольно богатый. Судите сами: сама видеокарта Chaintech GT 21 Special Edition, шнур для подключения к телевизору и для подключения внешнего видеосигнала, переходник DVI на аналоговый выход, инструкция по эксплуатации на английском языке, диск с драйверами и утилитами, диск с лицензионной версией игры Aquanox и диск с лицензионной версией игры MDK 2.

Sparkle SP7200T2 VIVO
Видеокарта от неизвестного производителя. Sparkle иногда даже относят к no-name-производителям. Однако, если внимательно посмотреть на изделия данной компании, то это далеко не no-name c его посредственным качеством, а вполне приличный за свои деньги продукт.
Видеокарта имеет стандартный дизайн. Sparkle SP7200T2 VIVO оснащена стандартным аналоговым, цифровым (DVI) выходами и TV-OUT. Так же, как и у двух рассмотренных выше плат, на Sparkle SP7200T2 VIVO стандартный аналоговый выход реализован посредством встроенного RAMDAC, а DVI-выход — посредством второго встроенного RAMDAC и дополнительного трасмиттера Silicon Image. SP7200T2 VIVO, как и Chaintech GT 21 Special Edition, имеет в своем составе кодек Philips SAA7108E, который поддерживает VIVO (Video in, Video Out) — ввод и вывод видео. Видеокарта оснащена 128 Mb видеопамяти, работающей на частоте 445,5 MHz. Память производства Samsung со временем доступа 4.0 наносекунды. Плата поставляется в коробке средних размеров, комплектация не сильно порадовала, хотя здесь есть все необходимое: сама видеокарта Sparkle SP7200T2 VIVO, шнур для подключения к телевизору и для подключения внешнего видеосигнала, инструкция по эксплуатации на английском языке, диск с драйверами и утилитами, диск с лицензионным софтом для работы с видео.

Разгон
Методика разгона

Видеокарты разгонялись при помощи утилиты Riva Tuner. Стабильность работы при разгоне проверялась с помощью бенчмарка GLMark, который прокручивался три раза. Если появлялись искажения на мониторе, то частоту памяти понижали на несколько мегагерц. Если компьютер зависал, то частоту графического ядра понижали на несколько мегагерц. Если же все три раза бенчмарк прокручивался нормально, то разгон удался. Никакого дополнительного охлаждения не применялось.
ASUS V8420 удалось разогнать до частот: 310 MHz для графического ядра и 620 (DDR) MHz для памяти, что является отличным результатом.
Chaintech GT 21 Special Edition запустился и стабильно работал лишь на частотах 290,3 MHz для графического ядра и 553,5 (DDR) MHz для памяти.
Sparkle SP7200T2 VIVO показал второй результат при разгоне и был разогнан до частот 290,3 MHz для графического ядра и 580,5 (DDR) MHz для памяти.

Тестирование

Тестовая система, операционная система, драйверы, тестовые программы и утилиты

Центральный процессор AMD Duron 750 MHz
Системная плата FIC AD 11 (AMD 761 + VIA 686B)
Память 128 Mb PC2100 CL2 (PC1600) Nanya DDR SDRAM
Жесткий диск Quantum Fireball LX 20 Gb (5400 rpm), Ultra ATA/66
CD-Rom Toshiba 32X
Видеокарты ASUS V8420, Chaintech GT 21 Special Edition, Sparkle SP7200T2 VIVO
Звуковая плата ESS Alegro 1989
Модем Acorp M-56PIM
Операционная система Microsoft Windows XP Professional
Драйверы AMD AGP Miniport driver 533, VIA 4 in 1 4. 38, Nvidia DetonatorXP 29,42
Тестовые программы и утилиты 3DMark 2001, Quake 3 Arena, Unreal Tournament, Serious Sam The second encounter, Comanche, Max Payne, DronezMark, GLMark.

Результаты тестирования
MadOnion 3DMark 2001

1024x768x32 ASUS V8420б Chaintech GT 21 Special Edition Sparkle SP7200T2 VIVO
Scores 3701 3478 3650
Game 1 Car Chase (Low Detail), fps 60,8 56,9 60,7
Game 1 Car Chase (High Detail), fps 19,3 19,3 19,3
Game 2 Dragothic (Low Detail), fps 52,8 49,2 53,0
Game 2 Dragothic (High Detail), fps 40,9 38,3 39,0
Game 3 Lobby (Low Detail), fps 49,7 45,9 47,4
Game 3 Lobby (High Detail), fps 26,1 24,5 25,1
Game 4 Nature, fps 17,7 15,8 17,3
FillRate (Single Texturing), MTexels/s 226,2 204,4 225,5
FillRate (Multi Texturing), MTexels/s 567,1 510,8 565,8
High Polygon Count (1 Light) 26,9 26,0 26,9
High Polygon Count (8 Light) 8,6 8,5 8,6
Environmental Mapped BumpMapping, fps 36,7 36,7 34,1
Dot3 Bump Mapping, fps 22,3 21,3 21,7
Vertex Shader, fps 30,7 29,5 30,5
Pixel Shader, fps 32,1 31,1 31,5
Point Samples, MSprites/s 6,3 6,2 6,2
1280x1024x32
Scores 2267 2056 2242
Game 1 Car Chase (Low Detail), fps 34,6 31,5 34,5
Game 1 Car Chase (High Detail), fps 17,2 17,0 17,7
Game 2 Dragothic (Low Detail), fps 29,7 26,1 29,0
Game 2 Dragothic (High Detail), fps 25,1 22,4 24,6
Game 3 Lobby (Low Detail), fps 27,4 24,2 26,8
Game 3 Lobby (High Detail), fps 15,1 13,3 14,8
Game 4 Nature, fps 10,1 9,1 9,9
FillRate (Single Texturing), MTexels/s 219,3 194,7 215,0
FillRate (Multi Texturing), MTexels/s 555,6 491,9 545,0
High Polygon Count (1 Light) 20,1 18,6 19,7
High Polygon Count (8 Light) 7,8 7,5 7,7
Environmental Mapped BumpMapping, fps 36,7 32,6 35,8
Dot3 Bump Mapping, fps 22,3 19,7 21,7
Vertex Shader, fps 30,7 27,5 30,1
Pixel Shader, fps 32,1 30,2 31,6
Point Samples, MSprites/s 6,3 5,5 6,1

В 3DMark’е лидером оказалась плата от Asus из-за того, что на ней установлена лучшая память, нежели на Chaintech GT 21 Special Edition и Sparkle SP7200T2 VIVO.

Реальные игровые приложения

1024x768x32 ASUS V8420б Chaintech GT 21 Special Edition Sparkle SP7200T2 VIVO
Quake 3 Arena, fps 82,6 82,1 83,6
Unreal Tournament, fps 32,66 31,55 32,86
Serious Sam The second encounter (Direct3D), fps 30,3 30,2 37,6
Serious Sam The second encounter (OpenGL), fps 53,6 51,7 54,1
Comanche, fps 17,63 17,50 17,65
Max Payne, fps 34,70 34,68 34,01
DronezMark, fps 46,89 46,58 46,58
GLMark, fps 46,9 46,6 47,0
1280x1024x32
Quake 3 Arena, fps 79,9 79,1 77,7
Unreal Tournament, fps 31,81 31,38 32,09
Serious Sam The second encounter (Direct3D), fps 27,2 26,2 28,1
Serious Sam The second encounter (OpenGL), fps 39,5 37,6 38,7
Comanche, fps 15,81 15,15 15,79
Max Payne, fps 33,40 32,60 33,04
DronezMark, fps 46,73 46,17 46,24
GLMark, fps 40,4 39,8 40,6

В 3DMark’е лидером оказалась плата от Asus из-за того, что на ней установлена лучшая память, нежели на Chaintech GT 21 Special Edition и Sparkle SP7200T2 VIVO.
В реальных игровых приложениях все платы показали равный результат. Расхождение в 1-2 fps’а можно списать на погрешность тестирования.

Оценки

Видеокарты ASUS V8420 Chaintech GT 21 Special Edition Sparkle SP7200T2 VIVO
Качество изготовления 5 — отличное 3 — среднее: радиаторы на памяти приклеены очень криво 4 — нормально
Дизайн 5 — довольно интересный и привлекательный кулер 5 — замечательный дизайн и привлекательность за счет золотистого кулера и радиаторов на чипах памяти 4 — стандартный
Производительность 5 — отличная, выше, чем у конкурентов 4 — стандарт 4 — стандарт
Система охлаждения 4 — хороший кулер, но радиаторы на чипах памяти отсутствуют 5 — продуманная система охлаждения, но это не помогает Chaintech GT 21 Special Edition при разгоне 4 — стандартное охлаждения, но с вполне хорошим кулером
Разгон 5 — замечательно: 310 MHz для графического ядра и 620 (DDR) MHz для памяти 2 — плохо: 290,3 MHz для графического ядра и 553,5 (DDR) MHz для памяти 3 — посредственно: 290,3 MHz для графического ядра и 580,5 (DDR) MHz для памяти
Комплектация и упаковка 5 — богатая комплектация 5 — богатая комплектация 4 — все необходимое присутствует
Цена 3 — дорого 3 — дорого 5 — отличная цена
Общая оценка 4 3,375 3,5

Вывод
ASUS V8420 — замечательная видеокарта с отличным качеством изготовления, хорошей разгоняемостью и отличной производительность, но с непривлекательной высокой ценой.
Chaintech GT 21 Special Edition — привлекательная видеокарта со стандартной разгоняемостью и производительностью, но опять-таки нестандартной ценой. Ее цена находится в районе ASUS V8420.
Sparkle SP7200T2 VIVO — совершенно стандартная видеокарта на базе Nvidia GeForce 4 Ti 4200 с неплохим качеством изготовления, стандартной производительностью, средней разгоняемостью и привлекательной низкой ценой.

Семенков Артем aka ZeroCooL [email protected]

Видеокарты ASUS V8420, Chaintech GT 21 Special Edition и Sparkle SP7200T2 VIVO предоставлены для тестирования фирмой «Ронгбук»

Компьютерная газета. Статья была опубликована в номере 41 за 2002 год в рубрике hard :: video

Сравнительное тестирование GPU-серверов с новыми видеокартами NVIDIA RTX30 в задачах AI/ML

Обновлено 19.11.2021

Разумный ценник на GPU-серверы для вычислений AI/ML

NVIDIA RTX 30xx: золотая середина?
Пример из практики
: реконструкция лица

Практическое исследование: обучение GAN

Практические исследования: обучение и выводы в задачах зрения

Тестирование: Обучение классификации

Тестирование: вывод о классификации

Обучение обнаружению

Выводы

Разумная цена на GPU-серверы для вычислений AI/ML

В начале сентября 2020 года NVIDIA представила второе поколение видеокарт семейства GeForce RTX 30 с архитектурой Ampere RTX. NVIDIA нарушила традицию, когда ее карты нового поколения продавались дороже своих предшественников, а значит, стоимость обучающих моделей осталась примерно на том же уровне.

В этот раз NVIDIA установила цену на новые и более популярные карты на уровне карт предыдущего поколения на момент продажи. Для разработчиков ИИ это событие знаковое — по сути, карты RTX 30 открывают доступ к производительности, сравнимой с Titan RTX, но с гораздо более легким ценником. Разработчики, занимающиеся наукой о данных, теперь могут быстрее обучать модели без увеличения затрат.

Аренда GPU-серверов с мгновенным развертыванием или сервера с индивидуальной конфигурацией с картами NVIDIA RTX 5500/5000/A4000 профессионального уровня. Также доступны VPS с выделенными картами GPU. Карта GPU предназначена для виртуальной машины и не может использоваться другими клиентами. Производительность графического процессора на виртуальных машинах соответствует производительности графического процессора на выделенных серверах.

Флагманские карты новой серии — GeForce RTX 3090, получили 10 496 ядер NVIDIA CUDA с тактовой частотой 1,44 ГГц (разгон до 1,71 ГГц), 328 тензорных ядер третьего поколения и 24 ГБ 384-битной графической памяти GDDR6X . Еще более доступная GeForce RTX 3080 оснащена 8704 ядрами CUDA с той же тактовой частотой, 272 тензорными ядрами и 10 ГБ 320-битной памяти GDDR6X.

Несмотря на нехватку новых видеокарт (NVIDIA даже пришлось извиняться перед рынком за возникшую нехватку карт при запуске), в начале октября в продуктовых линейках хостинг-провайдеров появились первые GPU-серверы. Голландский провайдер HOSTKEY — один из первых европейских провайдеров, который протестировал и представил GPU-серверы на базе новых карт GIGABYTE RTX3090/3080 TURBO. С 26 октября всем клиентам Hostkey в их дата-центрах в Нидерландах и Москве стали доступны конфигурации на базе RTX 3090/Xeon E-2288G и RTX 3080/AMD Ryzen 9 3900X.

NVIDIA RTX 30: золотая середина?

Карты RTX3090/3080 позиционируются производителем как более производительное решение для замены карт серии RTX 20 с предыдущей архитектурой Turing. И, конечно же, новые карты гораздо эффективнее имеющихся «народных» GPU-серверов на базе видеокарт GTX1080/GTX1080 Ti. Подходят они и для работы с нейросетями и других задач машинного обучения — хоть и с оговорками, но при этом доступны по весьма «демократичным» ценам.

Над серией NVIDIA RTX 30 расположены мощные решения на базе карт A100/A40 (Ampere) с 432 тензорными ядрами третьего поколения, Titan RTX/T4 (Turing) с 576 тензорными ядрами второго поколения, и V100 (Volta) с 640 тензорными ядрами первого поколения.

Ценник на эти мощные карты, а также на аренду GPU-серверов с ними значительно превышает листинги на RTX 30, поэтому особенно интересно на практике оценить разрыв в производительности в задачах AI/ML.

Case Study: Face Reenactment

Одним из рабочих исследований для эксплуатационного тестирования серверов GPU на базе новых карт RTX 3090 и RTX 3080 был процесс Face Reenactment для нейронной сети U-Net + ResNet с пространственно-адаптивным SPADE нормализация и дискриминатор патчей. Facebook PyTorch версии 1.6 со встроенным режимом Automated Mixed Precision (AMP) и режимом флага torch.backend.cudnn.benchmark = True использовался в качестве основы.

Для сравнения, тот же тест был запущен на GPU-сервере с картой GeForce GTX 1080 Ti, но без AMP, что только замедлило бы процесс, а также на машине с картой Titan RTX.
Ради чистоты эксперимента следует упомянуть, что в тесте с картой Titan RTX система с процессором Intel Core i9Использовался процессор –10920X, тогда как остальные GPU-серверы со всеми остальными картами работали с Xeon E-2288G.

Конечно, важно сравнивать при классификации одних и тех же процессоров, так как они часто являются узким местом, ограничивающим производительность системы. Так что относиться к результатам теста GPU с недоверием в данном случае вполне уместно.

Мы получили следующие результаты:

Минимальная разница между RTX 3090 и Titan RTX особенно впечатляет, если учесть огромный разрыв в цене между двумя решениями. В следующем тесте RTX 3090 заслуживает как минимум полного, глубокого сравнения с GPU-сервером на базе одной и двух карт RTX 2080.

Отставание RTX 3080 от RTX 3090 понятно, учитывая существенную разницу в объеме памяти — 10 Гб против 24 Гб, разница в архитектурах также накладывала отпечаток на соответствующее двух- и трехкратное отставание GTX 1080 Ти.

Если смотреть на эти результаты с практической точки зрения с точки зрения оценки финансовых затрат на обучение модели в случае аренды GPU-сервера, то чаша весов окончательно склоняется в пользу выбора системы с RTX 3090. Именно эта карта обеспечит лучший расход бюджета как для недельного, так и для месячного тарифного плана.

Практическое исследование: обучение GAN

Во втором тестовом задании, которое заключалось в обучении генеративно-состязательной сети (GAN) с помощью пакета PyTorch, было интересно не только сравнить производительность карт разных поколений, но и отслеживать влияние состояния флага torch. backends.cudnn.benchmark на конечные результаты. При обучении архитектуры GAN установка флага в значение True дает прирост производительности, но может пострадать воспроизводимость результатов.

Эти результаты еще раз доказывают, что карта RTX 3090 с 24 ГБ памяти GDDR6X — лучший выбор для решения тяжелых задач обработки изображений — как по производительности (улучшение на 65 % по сравнению с RTX 3080), так и по затратам на обучение при аренде ГП-сервер.

Несмотря на то, что RTX 3080 значительно опережала GTX 1080 Ti при любой установке флага, и это при примерном паритете по объему памяти, следует также помнить, что при обучении архитектуры GAN включение torch.backends.cudnn. флаг теста = True дает прирост производительности, но может пострадать воспроизводимость результатов. Поэтому аренда более доступного GPU-сервера с картами GTX 1080 Ti при некоторых условиях может быть разумным выбором или, по крайней мере, сравнимым по бюджету с учебными моделями с RTX 30809. 0003

К сожалению, прогнать этот меш через Titan RTX уже не осталось времени, но с большой долей вероятности картина в этом случае осталась бы неизменной.

Практическое исследование: обучение и вывод в задачах зрения

В следующем тестовом задании по обучению сетей в задачах зрения производительность видеокарт RTX 3090 и RTX 3080 сравнивалась с возможностями самых мощных ( и еще очень дорого) «ветеран» Tesla V100 с 16 ГБ памяти HBM2.

Тесты проводились с использованием последней версии фреймворка NVIDIA PyTorch (20.09-py3 от 24 октября). К сожалению, данная версия не скомпилирована под архитектуру Ampere, поэтому для полноценной поддержки видеокарт RTX 30 пришлось использовать ночную версию сборки PyTorch, а именно 1.8.0.dev20201017+cu110. У серии RTX 30 также есть некоторые проблемы с torch.jit, но проблема полностью снимается при сборке PyTorch для конкретной карты.

Во всех тестах PyTorch использовался с автоматизированным сценарием Mixed Precision с включенным по умолчанию флагом torch. backend.cudnn.benchmark = True. Были протестированы пять моделей классификации для обнаружения объектов со следующими настройками обучения: модель вперед + среднее (без потерь) + назад.
Стоит упомянуть о некоторых нюансах этого сравнения. В частности, использовался не самый быстрый V100, так как он работал внутри виртуальной машины. Из-за этого могут быть некоторые потери, которые, вполне возможно, можно было бы оптимизировать с помощью лучшей настройки. Кроме того, в процессе тестирования не была задействована вся доступная видеопамять, что позволило бы еще больше ускорить расчеты.

Тестирование: Классификационное обучение

Задача обучения сложных моделей нейронных сетей является основной задачей для GPU-серверов на базе карт NVIDIA, что иногда позволяет на порядки сократить время обучения алгоритмов глубокого обучения.

>

>

>

>

При запуске задачи на получение результатов бенчмарка передача обнаружения объектов выполнялась без НМС, а передача для обучения не включала сопоставление целей. Другими словами, на практике скорость обучения, вероятно, снизится на 10–20 %, а скорость вывода снизится примерно на 20–30 %.

Тестирование: Классификационный вывод

В данном случае под выводом понимается процесс получения прогнозов путем прогона изображений через готовую нейросеть, вполне подходящую для развертывания на удаленном GPU-сервере.

>

>

>

>

В целом можно сказать, что в задачах обучения и сетевого вывода в задачах Vision карта RTX 3090 всего на 15–20% медленнее, чем Tesla V100 в среднем , и это очень впечатляет, особенно учитывая разницу в цене.

Показателен и тот факт, что RTX 3080 отстает от RTX 3090 относительно немного — по крайней мере значительно меньше, чем при выполнении других задач. На практике это означает, что даже при относительно небольшом бюджете, выделенном на аренду GPU-сервера на базе RTX 3080, можно добиться достаточно высокой производительности лишь при незначительном увеличении времени обработки данных.

Обучение обнаружению

Тестирование RetinNet с помощью ResNet50FPN для обнаружения объектов проводилось со следующими параметрами PyTorch (20.09-py3 от 24 октября), с флагом torch.backend.cudnn.benchmark = True и с настройками обучения модели вперед + среднее (без потерь) + обратное.

>

Здесь отставание карт серии RTX30 уже минимально, что говорит о несомненных преимуществах новой архитектуры Ampere для доставки подобных решений. Карта RTX 3090 на самом деле просто исключительна и оказалась «бриллиантом в необработанном виде».

Относительно небольшое отставание бюджетной карты говорит о том, что благодаря отличному соотношению цена/производительность RTX 3080 должна быть желательным выбором для задач прототипирования с ограниченным бюджетом. После того, как прототип будет готов, модель можно развернуть в более крупном масштабе, например, на серверах с графическим процессором с RTX 309.0 карт.

Выводы

По результатам тестирования новых графических решений семейства GeForce RTX 30 можно с уверенностью утверждать, что NVIDIA блестяще справилась с задачей выпуска доступных видеокарт с тензорными ядрами, достаточно мощных для быстрого ИИ. вычисления. В некоторых задачах обучения сети, таких как работа с разреженными сетями, преимущества архитектуры Ampere по сравнению с поколением RTX20 позволяют сократить время процесса вдвое.

Преимущества использования GPU-серверов с картами GeForce RTX 3090 особенно очевидны в задачах, где обучение модели связано с повышенными требованиями к памяти — при анализе медицинских изображений, современном компьютерном зрении и везде, где есть необходимость обработки очень больших изображений — для например, при работе с архитектурами GAN.

В то же время RTX 3080 с его 10 ГБ видеопамяти вполне подходит для работы с задачами глубокого машинного обучения, так как достаточно уменьшить размер сетей или использовать более мелкие изображения на входе, чтобы изучить основы большинства архитектур, а затем, при необходимости, масштабировать модель до требуемых параметров на более мощных GPU-серверах.

Принимая во внимание, что память HBM, используемая в картах класса A100, вряд ли в ближайшем будущем существенно подешевеет, можно сказать, что карты RTX 3090/RTX 3080 будут весьма эффективным вложением на ближайшие несколько лет.

Аренда GPU-серверов с мгновенным развертыванием или сервера с индивидуальной конфигурацией с картами NVIDIA RTX 5500/5000/A4000 профессионального уровня. Также доступны VPS с выделенными картами GPU. Карта GPU предназначена для виртуальной машины и не может использоваться другими клиентами. Производительность графического процессора на виртуальных машинах соответствует производительности графического процессора на выделенных серверах.

платформ GPU | Документация Compute Engine


Compute Engine предоставляет графические процессоры (GPU), которые вы можете
добавить к экземплярам вашей виртуальной машины (ВМ). Вы можете использовать эти графические процессоры для ускорения
определенные рабочие нагрузки на ваших виртуальных машинах, такие как машинное обучение и данные
обработка.

Compute Engine предоставляет графические процессоры NVIDIA для ваших виртуальных машин в
транзитный режим, чтобы ваши виртуальные машины могли напрямую контролировать графические процессоры и их
связанная память.

Если у вас есть рабочие нагрузки с интенсивным использованием графики, такие как 3D-визуализация,
3D-рендеринг или виртуальные приложения, вы можете использовать виртуальную NVIDIA RTX.
рабочие станции (ранее известные как NVIDIA GRID).

В этом документе представлен обзор различных моделей графических процессоров,
доступны на Compute Engine.

Чтобы просмотреть доступные регионы и зоны для графических процессоров в Compute Engine, см.
Регионы GPU и доступность зон.

Графические процессоры NVIDIA для вычислительных рабочих нагрузок

Для вычислительных рабочих нагрузок доступны следующие модели графических процессоров:

  • NVIDIA L4: общедоступный
  • NVIDIA A100
    • NVIDIA A100 40 ГБ: общедоступный
    • NVIDIA A100 80 ГБ: общедоступный
  • NVIDIA T4: nvidia-tesla-t4 : общедоступный
  • NVIDIA V100: nvidia-tesla-v100 : общедоступный
  • NVIDIA P100: nvidia-tesla-p100 : общедоступный
  • NVIDIA P4: nvidia-tesla-p4 : общедоступный
  • NVIDIA K80: nvidia-tesla-k80 : Общедоступный . Видеть
    Конечный срок службы NVIDIA K80.

Графические процессоры NVIDIA L4

Для запуска графических процессоров NVIDIA L4 необходимо использовать
Оптимизированный ускоритель G2
тип аппарата.

Каждый тип машины G2 имеет фиксированное количество графических процессоров NVIDIA L4
и vCPU подключены. Каждый тип машины G2 также имеет память по умолчанию и
диапазон памяти. Пользовательский диапазон памяти определяет объем памяти,
вы можете выделить своей виртуальной машине для каждого типа машины. Вы можете указать свой собственный
памяти при создании ВМ.

Модель графического процессора Тип машины графических процессора Память графического процессора виртуальных ЦП Память по умолчанию Пользовательский диапазон памяти Максимальное количество поддерживаемых локальных твердотельных накопителей
NVIDIA L4 g2-стандарт-4 1 ГП 24 ГБ GDDR6 4 виртуальных ЦП 16 ГБ 16–32 ГБ 375 ГБ
g2-стандарт-8 1 ГП 24 ГБ GDDR6 8 виртуальных ЦП 32 ГБ 32–54 ГБ 375 ГБ
g2-стандарт-12 1 ГП 24 ГБ GDDR6 12 виртуальных ЦП 48 ГБ 48–54 ГБ 375 ГБ
g2-стандарт-16 1 ГП 24 ГБ GDDR6 16 виртуальных ЦП 64 ГБ 54–64 ГБ 375 ГБ
g2-стандарт-24 2 графических процессора 48 ГБ GDDR6 24 виртуальных ЦП 96 ГБ 96–108 ГБ 750 ГБ
g2-стандарт-32 1 ГП 24 ГБ GDDR6 32 виртуальных ЦП 128 ГБ 96–128 ГБ 375 ГБ
g2-стандарт-48 4 графических процессора 96 ГБ GDDR6 48 виртуальных ЦП 192 ГБ 192–216 ГБ 1500 ГБ
g2-стандарт-96 8 GPU 192 ГБ GDDR6 96 виртуальных ЦП 384 ГБ 384 — 432 ГБ 3000 ГБ

Графические процессоры NVIDIA A100

Для запуска графических процессоров NVIDIA A100 необходимо использовать
Оптимизированный ускоритель A2
тип аппарата.

Каждый тип машины A2 имеет фиксированное количество GPU, количество виртуальных ЦП и объем памяти.

A100 40 ГБ

Модель графического процессора Тип машины GPU Память графического процессора Доступные виртуальные ЦП Доступная память Поддерживается локальный SSD
NVIDIA A100 40 ГБ а2-хайгпу-1г 1 ГП 40 ГБ HBM2 12 виртуальных ЦП 85 ГБ Да
а2-хайгпу-2г 2 графических процессора 80 ГБ HBM2 24 виртуальных ЦП 170 ГБ Да
а2-хайгпу-4г 4 графических процессора 160 ГБ HBM2 48 виртуальных ЦП 340 ГБ Да
а2-хайгпу-8г 8 графических процессоров 320 ГБ HBM2 96 виртуальных ЦП 680 ГБ Да
а2-мегагпу-16g 16 графических процессоров 640 ГБ HBM2 96 виртуальных ЦП 1360 ГБ Да

A100 80 ГБ

Модель графического процессора Тип машины графических процессора Память графического процессора Доступные виртуальные ЦП Доступная память Поддерживается локальный SSD
NVIDIA A100 80 ГБ а2-ультрагпу-1г 1 ГП 80 ГБ HBM2e 12 виртуальных ЦП 170 ГБ В комплекте (375 ГБ)
а2-ультрагпу-2г 2 графических процессора 160 ГБ HBM2e 24 виртуальных ЦП 340 ГБ В комплекте (750 ГБ)
а2-ультрагпу-4г 4 графических процессора 320 ГБ HBM2e 48 виртуальных ЦП 680 ГБ В комплекте (1,5 ТБ)
а2-ультрагпу-8г 8 графических процессоров 640 ГБ HBM2e 96 виртуальных ЦП 1360 ГБ В комплекте (3 ТБ)

Графические процессоры NVIDIA T4

ВМ с меньшим количеством графических процессоров ограничены максимальным числом виртуальных ЦП.
В целом более высокое число
GPU позволяет создавать инстансы с большим количеством виртуальных ЦП и
Память.

Модель графического процессора Тип машины графических процессора Память графического процессора Доступные виртуальные ЦП Доступная память Поддерживается локальный SSD
NVIDIA T4 Серия машин N1, кроме N1 с общим ядром 1 ГП 16 ГБ GDDR6 1–48 виртуальных ЦП 1 — 312 ГБ Да
2 графических процессора 32 ГБ GDDR6 1–48 виртуальных ЦП 1 — 312 ГБ Да
4 графических процессора 64 ГБ GDDR6 1–96 виртуальных ЦП 1 — 624 ГБ Да

Графические процессоры NVIDIA P4

Для графических процессоров P4 локальный SSD поддерживается только в некоторых регионах, см.
Локальная доступность SSD по регионам и зонам GPU.

Модель графического процессора Тип машины графических процессора Память графического процессора Доступные виртуальные ЦП Доступная память Поддерживается локальный SSD
NVIDIA P4 Серия машин N1, кроме N1 с общим ядром 1 ГП 8 ГБ GDDR5 1–24 виртуальных ЦП 1 — 156 ГБ Да
2 графических процессора 16 ГБ GDDR5 1–48 виртуальных ЦП 1 — 312 ГБ Да
4 графических процессора 32 ГБ GDDR5 1–96 виртуальных ЦП 1 — 624 ГБ Да

Графические процессоры NVIDIA V100

Для графических процессоров V100 локальный SSD поддерживается только в некоторых регионах, см.
Локальная доступность SSD по регионам и зонам GPU.

Модель графического процессора Тип машины графических процессора Память графического процессора Доступные виртуальные ЦП Доступная память Поддерживается локальный SSD
NVIDIA V100 Серия машин N1, кроме N1 с общим ядром 1 ГП 16 ГБ HBM2 1–12 виртуальных ЦП 1 — 78 ГБ Да
2 графических процессора 32 ГБ HBM2 1–24 виртуальных ЦП 1 — 156 ГБ Да
4 графических процессора 64 ГБ HBM2 1–48 виртуальных ЦП 1 — 312 ГБ Да
8 графических процессоров 128 ГБ HBM2 1–96 виртуальных ЦП 1 — 624 ГБ Да

Графические процессоры NVIDIA P100

Для некоторых графических процессоров P100 максимальное количество ЦП и памяти, доступное для некоторых
конфигурации зависит от зоны, в которой работает ресурс GPU.

Модель графического процессора Тип машины графических процессора Память графического процессора Доступные виртуальные ЦП Доступная память Поддерживается локальный SSD
NVIDIA P100 Серия машин N1, кроме N1 с общим ядром 1 ГП 16 ГБ HBM2 1–16 виртуальных ЦП 1 — 104 ГБ Да
2 графических процессора 32 ГБ HBM2 1–32 виртуальных ЦП 1 — 208 ГБ Да
4 графических процессора 64 ГБ HBM2

1–64 виртуальных ЦП
(us-east1-c, europe-west1-d, europe-west1-b)

1–96 виртуальных ЦП
(все зоны P100)

1–208 ГБ
(США-восток1-c, Европа-Запад1-D, Европа-Запад1-b)

1 — 624 ГБ
(все зоны P100)

Да

Графические процессоры NVIDIA K80

Внимание! Срок службы графических процессоров NVIDIA K80 истекает 1 мая 2024 г. Подробнее
информацию см. в NVIDIA K80 EOL. Платы

NVIDIA K80 содержат по два графических процессора каждая. Цена на К80
Графические процессоры — это отдельные графические процессоры, а не плата.

Модель графического процессора Тип машины графических процессора Память графического процессора Доступные виртуальные ЦП Доступная память Поддерживается локальный SSD
NVIDIA K80 Серия машин N1, кроме N1 с общим ядром 1 ГП 12 ГБ GDDR5 1–8 виртуальных ЦП 1–52 ГБ Да
2 графических процессора 24 ГБ GDDR5 1–16 виртуальных ЦП 1 — 104 ГБ Да
4 графических процессора 48 ГБ GDDR5 1–32 виртуальных ЦП 1 — 208 ГБ Да
8 графических процессоров 96 ГБ GDDR5 1–64 виртуальных ЦП

1 — 416 ГБ
(Азия-восток1-a и США-восток1-d)

1 — 208 ГБ
(все зоны K80)

Да

Если у вас есть графические рабочие нагрузки, такие как 3D-визуализация, вы можете
создавать виртуальные рабочие станции, которые используют
Виртуальные рабочие станции NVIDIA RTX (vWS) (ранее известные как NVIDIA GRID). Когда вы создаете виртуальный
рабочая станция, автоматически добавляется лицензия на виртуальную рабочую станцию ​​NVIDIA RTX (vWS).
к вашей ВМ.

Информацию о ценах на виртуальные рабочие станции см.
Страница с ценами на GPU.

Для графических рабочих нагрузок доступны модели виртуальных рабочих станций NVIDIA RTX (vWS)
на следующих этапах:

  • Виртуальные рабочие станции NVIDIA L4: nvidia-l4-vws : общедоступные
  • Виртуальные рабочие станции NVIDIA T4: nvidia-tesla-t4-vws : общедоступные
  • Виртуальные рабочие станции NVIDIA P100: nvidia-tesla-p100-vws : Общедоступный
  • Виртуальные рабочие станции NVIDIA P4: nvidia-tesla-p4-vws : общедоступный

Графический процессор NVIDIA L4 vWS

Модель графического процессора Тип машины графических процессора Память графического процессора виртуальных ЦП Память по умолчанию Пользовательский диапазон памяти Максимальное количество поддерживаемых локальных твердотельных накопителей
Виртуальная рабочая станция NVIDIA L4 g2-стандарт-4 1 ГП 24 ГБ GDDR6 4 виртуальных ЦП 16 ГБ 16–32 ГБ 375 ГБ
g2-стандарт-8 1 ГП 24 ГБ GDDR6 8 виртуальных ЦП 32 ГБ 32–54 ГБ 375 ГБ
g2-стандарт-12 1 ГП 24 ГБ GDDR6 12 виртуальных ЦП 48 ГБ 48–54 ГБ 375 ГБ
g2-стандарт-16 1 ГП 24 ГБ GDDR6 16 виртуальных ЦП 64 ГБ 54–64 ГБ 375 ГБ
g2-стандарт-24 2 графических процессора 48 ГБ GDDR6 24 виртуальных ЦП 96 ГБ 96–108 ГБ 750 ГБ
g2-стандарт-32 1 ГП 24 ГБ GDDR6 32 виртуальных ЦП 128 ГБ 96–128 ГБ 375 ГБ
g2-стандарт-48 4 графических процессора 96 ГБ GDDR6 48 виртуальных ЦП 192 ГБ 192 — 216 ГБ 1500 ГБ
g2-стандарт-96 8 графических процессоров 192 ГБ GDDR6 96 виртуальных ЦП 384 ГБ 384 — 432 ГБ 3000 ГБ

Графические процессоры NVIDIA T4 vWS

Модель графического процессора Тип машины графических процессора Память графического процессора Доступные виртуальные ЦП Доступная память Поддерживается локальный SSD
Виртуальная рабочая станция NVIDIA T4 Серия машин N1, кроме N1 с общим ядром 1 ГП 16 ГБ GDDR6 1–48 виртуальных ЦП 1 — 312 ГБ Да
2 графических процессора 32 ГБ GDDR6 1–48 виртуальных ЦП 1 — 312 ГБ Да
4 графических процессора 64 ГБ GDDR6 1–96 виртуальных ЦП 1 — 624 ГБ Да

Графические процессоры NVIDIA P4 vWS

Для графических процессоров P4 локальный SSD поддерживается только в некоторых регионах, см.
Локальная доступность SSD по регионам и зонам GPU.

Модель графического процессора Тип машины графических процессора Память графического процессора Доступные виртуальные ЦП Доступная память Поддерживается локальный SSD
Виртуальная рабочая станция NVIDIA P4 Серия машин N1, кроме N1 с общим ядром 1 ГП 8 ГБ GDDR5 1–16 виртуальных ЦП 1 — 156 ГБ Да
2 графических процессора 16 ГБ GDDR5 1–48 виртуальных ЦП 1 — 312 ГБ Да
4 графических процессора 32 ГБ GDDR5 1–96 виртуальных ЦП 1 — 624 ГБ Да

Графические процессоры NVIDIA P100 vWS

Модель графического процессора Тип машины графических процессора Память графического процессора Доступные виртуальные ЦП Доступная память Поддерживается локальный SSD
Виртуальная рабочая станция NVIDIA P100 Серия машин N1, кроме N1 с общим ядром 1 ГП 16 ГБ HBM2 1–16 виртуальных ЦП 1 — 104 ГБ Да
2 графических процессора 32 ГБ HBM2 1–32 виртуальных ЦП 1 — 208 ГБ Да
4 графических процессора 64 ГБ HBM2

1–64 виртуальных ЦП
(us-east1-c, europe-west1-d, europe-west1-b)

1–96 виртуальных ЦП
(все зоны P100)

1–208 ГБ
(США-восток1-c, Европа-Запад1-D, Европа-Запад1-b)

1 — 624 ГБ
(все зоны P100)

Да

Общая сравнительная таблица

В следующей таблице описаны объем памяти графического процессора, доступность функций,
и идеальные типы рабочих нагрузок различных моделей графических процессоров, доступных на
Вычислительный движок.

Модель графического процессора Память Межблочное соединение Виртуальная рабочая станция NVIDIA RTX (vWS) поддерживает Лучше всего использовать для
A100 80 ГБ 80 ГБ HBM2e при 1,9 ТБ/с Полноячеистая сеть NVLink @ 600 ГБ/с Большие модели с массивными таблицами данных для обучения машинному обучению, логических выводов, высокопроизводительных вычислений и т. д.
БЕРТ, DLRM
A100 40 ГБ 40 ГБ HBM2 при 1,6 ТБ/с Полноячеистая сеть NVLink @ 600 ГБ/с Обучение машинному обучению, Инференс, HPC
L4 24 ГБ GDDR6 при 300 ГБ/с н/д ML Inference, Training, удаленные рабочие станции визуализации,
Транскодирование видео, HPC
Т4 16 ГБ GDDR6 при 320 ГБ/с н/д ML Inference, Training, Remote Visualization Workstations, Video Transcoding
В100 16 ГБ HBM2 при 900 ГБ/с Кольцо NVLink @ 300 ГБ/с Обучение машинному обучению, Инференс, HPC
Р4 8 ГБ GDDR5 при 192 ГБ/с н/д Рабочие станции удаленной визуализации, вывод машинного обучения и транскодирование видео
Р100 16 ГБ HBM2 при 732 ГБ/с н/д ML Training, Inference, HPC, удаленные рабочие станции визуализации
К80 EOL 12 ГБ GDDR5 при 240 ГБ/с н/д ML Инференс, Обучение, HPC

Чтобы сравнить цены на GPU для различных моделей GPU и регионов,
доступно на Compute Engine, см. цены на GPU.

Сравнительная таблица производительности

В следующей таблице описаны характеристики производительности различных графических процессоров.
моделей, доступных на Compute Engine.

Производительность вычислений

Модель графического процессора ФП64 ФП32 ФП16 INT8
A100 80 ГБ 9,7 терафлопс 19,5 терафлопс
A100 40 ГБ 9,7 терафлопс 19,5 терафлопс
L4 0,5 терафлопс * 30,3 терафлопс
Т4 0,25 терафлопс * 8,1 терафлопс
В100 7,8 терафлопс 15,7 терафлопс
Р4 0,2 терафлопс * 5,5 терафлопс 22 ВЕРХА
Р100 4,7 терафлопс 9,3 терафлопс 18,7 терафлопс
К80 EOL 1,46 терафлопс 4,37 терафлопс

* Чтобы код FP64 работал корректно, небольшое количество FP64
аппаратные блоки включены в архитектуру GPU T4, L4 и P4.

тераопераций в секунду.

Производительность тензорного ядра

Модель графического процессора ФП64 ТФ32 Смешанная точность FP16/FP32 INT8 INT4 ФП8
A100 80 ГБ 19,5 терафлопс 156 терафлопс 312 терафлопс * 624 ВЕРХ 1248 ВЕРХ
A100 40 ГБ 19,5 терафлопс 156 терафлопс 312 терафлопс * 624 ВЕРХ 1248 ВЕРХ
L4 60,6 терафлопс 121 терафлопс 242 ВЕРХА 485 ВЕРХ 242 терафлопс
Т4 65 терафлопс 130 ТОП 260 ТОП
В100 125 терафлопс
Р4
Р100
К80 EOL

* Для обучения смешанной точности NVIDIA A100 также поддерживает
bfloat16 тип данных.

Читайте также: