Видеокарты по возрастанию nvidia: Сравнение всех видеокарт NVIDIA GeForce
Более глубокий взгляд на видеопамять на видеокартах серии GeForce RTX 40 | GeForce News
Мы получаем много вопросов о графической памяти, также известной как кадровый буфер, видеопамять или «VRAM», поэтому, представляя наше новое семейство видеокарт GeForce RTX 4060, мы хотели поделиться некоторыми мыслями. , чтобы геймеры могли принимать наилучшие решения о покупке для своих игровых потребностей.
Что такое VRAM?
VRAM — это высокоскоростная память, расположенная на вашей видеокарте. Это один из компонентов более крупной подсистемы памяти, которая помогает убедиться, что ваш графический процессор имеет доступ к данным, необходимым для плавной обработки и отображения изображений.
В этой статье мы расскажем об инновациях в подсистеме памяти в нашей архитектуре графического процессора Ada Lovelace последнего поколения, а также о том, как скорость и размер кэш-памяти графического процессора и видеопамяти влияют на производительность и игровой процесс.
Видеокарты серии GeForce RTX 40 Подсистема памяти: повышение производительности и эффективности
Современные игры представляют собой графические демонстрации, и размер их установки теперь может превышать 100 ГБ. Доступ к этому огромному объему данных происходит с разной скоростью, определяемой спецификациями графического процессора и, в некоторой степени, другими компонентами вашей системы.
На видеокартах серии GeForce RTX 40 новые инновации ускоряют процесс для плавного игрового процесса и более высокой частоты кадров, помогая вам избежать потока текстур или других сбоев.
Важность кэш-памяти
Графические процессоры содержат высокоскоростные кэш-памяти, расположенные рядом с вычислительными ядрами графического процессора, в которых хранятся данные, которые могут понадобиться. Если графический процессор может извлекать данные из кешей, а не запрашивать их из видеопамяти (еще дальше) или системной памяти (еще дальше), данные будут доступны и обработаны быстрее, что повысит производительность и плавность игрового процесса, а также снизит энергопотребление. .
Графические процессоры GeForce имеют кэш-память уровня 1 (L1) (ближайший и самый быстрый кэш) в каждом потоковом мультипроцессоре (SM), до двенадцати таких кэшей можно найти в каждом кластере графической обработки (GPC) серии GeForce RTX 40. За ним следует быстрый, более крупный общий кэш уровня 2 (L2), к которому можно получить быстрый доступ с минимальной задержкой.
При доступе к каждому уровню кэша возникает задержка, а компромиссом является увеличение емкости. При разработке графических процессоров серии GeForce RTX 40 мы обнаружили, что один большой кэш L2 работает быстрее и эффективнее, чем другие альтернативы, например, с небольшим кэшем L2 и большим кэшем L3 с более медленным доступом.
Графические процессоры GeForce предыдущего поколения имели намного меньший кэш L2, что приводило к снижению производительности и эффективности по сравнению с современными графическими процессорами серии GeForce RTX 40.
Во время использования GPU сначала ищет данные в кэше данных L1 внутри SM, и если данные найдены в L1, нет необходимости обращаться к кэшу данных L2. Если данные не найдены в L1, это называется «промахом кеша», и поиск продолжается в кеше L2. Если данные находятся в L2, это называется «попаданием в кэш» L2 (см. индикаторы «H» на приведенной выше диаграмме), и данные передаются в L1, а затем в процессорные ядра.
Если данные не найдены в кеше L2, «промах кеша L2», GPU теперь пытается получить данные из VRAM. Вы можете увидеть количество промахов кэша L2 на приведенной выше диаграмме, которая изображает нашу предыдущую архитектуру подсистемы памяти, которая вызывает ряд обращений к VRAM.
Если данные отсутствуют в VRAM, GPU запрашивает их из памяти вашей системы. Если данные не находятся в системной памяти, их обычно можно загрузить в системную память с устройства хранения, такого как SSD или жесткий диск. Затем данные копируются в VRAM, L2, L1 и, в конечном итоге, передаются процессорным ядрам. Обратите внимание, что существуют различные аппаратные и программные стратегии для хранения наиболее полезных и повторно используемых данных в кэшах.
Каждая дополнительная операция чтения или записи данных в иерархии памяти снижает производительность и потребляет больше энергии, поэтому, увеличивая частоту попаданий в кэш, мы увеличиваем частоту кадров и эффективность.
По сравнению с графическими процессорами предыдущего поколения со 128-битным интерфейсом памяти подсистема памяти новой архитектуры NVIDIA Ada Lovelace увеличивает размер кэша L2 в 16 раз, что значительно увеличивает количество попаданий в кэш. В приведенных выше примерах, представляющих 128-битные графические процессоры от Ada и архитектуры предыдущего поколения, частота совпадений с Ada намного выше. Кроме того, пропускная способность кэша L2 в графических процессорах Ada была значительно увеличена по сравнению с предыдущими графическими процессорами. Это позволяет как можно быстрее передавать больше данных между ядрами и кешем L2.
Как показано на диаграмме ниже, инженеры NVIDIA протестировали RTX 4060 Ti с 32 МБ кэш-памяти второго уровня в сравнении со специальной тестовой версией RTX 4060 Ti, использующей только 2 МБ кэш-памяти второго уровня, что соответствует размеру кэша L2 128-битных графических процессоров предыдущего поколения. (где на каждый 32-битный контроллер памяти было привязано 512 КБ кэша L2).
При тестировании с различными играми и синтетическими тестами 32 МБ кэш-памяти второго уровня снизили трафик шины памяти в среднем чуть более чем на 50% по сравнению с производительностью 2-МБ кэш-памяти второго уровня. См. уменьшенный доступ к VRAM на диаграмме подсистемы памяти Ada выше.
Сокращение трафика на 50 % позволяет графическому процессору использовать пропускную способность памяти в 2 раза эффективнее. В результате в этом сценарии, изолированном для производительности памяти, графический процессор Ada с пиковой пропускной способностью памяти 288 ГБ/с будет работать аналогично графическому процессору Ampere с пиковой пропускной способностью памяти 554 ГБ/с. Во множестве игр и синтетических тестов значительно увеличенная частота попаданий повышает частоту кадров до 34%.
Ширина шины памяти — один из аспектов подсистемы памяти
Исторически ширина шины памяти использовалась как важная метрика для определения скорости и класса производительности нового графического процессора. Однако ширина шины сама по себе не является достаточным показателем производительности подсистемы памяти. Вместо этого полезно понимать более широкую структуру подсистемы памяти и ее общее влияние на игровую производительность.
Благодаря достижениям в архитектуре Ada, в том числе новым ядрам RT и Tensor, более высоким тактовым частотам, новому движку OFA и возможностям Ada DLSS 3, GeForce RTX 4060 Ti работает быстрее, чем 256-битные GeForce предыдущего поколения. Видеокарты RTX 3060 Ti и RTX 2060 SUPER при меньшем энергопотреблении.
В целом, технические характеристики обеспечивают отличный графический процессор класса 60 с высокой производительностью для геймеров 1080p, которые составляют большинство пользователей Steam.
Объем видеопамяти зависит от архитектуры графического процессора
Геймеры часто задаются вопросом, почему видеокарта имеет определенный объем видеопамяти.
Память GDDR6X и GDDR6 текущего поколения поставляется с плотностью 8 ГБ (1 ГБ данных) и 16 ГБ (2 ГБ данных) на чип. Каждая микросхема памяти может использовать либо два отдельных 16-битных канала для подключения к одному 32-битному контроллеру памяти, либо два 8-битных канала, поэтому две микросхемы памяти могут подключаться к одному 32-битному контроллеру памяти. Это позволяет 128-битному графическому процессору поддерживать либо 4, либо 8 микросхем памяти.
Производство чипов большей емкости обходится дороже, поэтому для оптимизации цен необходим баланс.
В наших новых графических процессорах GeForce RTX 4060 Ti со 128-битной шиной памяти в модели 8 ГБ используются четыре микросхемы памяти GDDR6 по 16 ГБ, а в модели 16 ГБ — восемь микросхем по 16 ГБ. Смешивание плотностей невозможно, что не позволяет, например, создать модель на 12 ГБ. Именно поэтому у GeForce RTX 4060 Ti есть вариант с большим объемом памяти (16 ГБ), чем у GeForce RTX 4070 Ti и 4070, которые имеют 192-битный интерфейс памяти и, следовательно, 12 ГБ видеопамяти.
Наши графические процессоры класса 60 были тщательно разработаны для обеспечения оптимального сочетания производительности, цены и энергоэффективности, поэтому мы выбрали 128-битный интерфейс памяти.
Короче говоря, более производительные графические процессоры с той же шириной шины всегда имеют удвоенный объем памяти.
Инструменты экранного меню (OSD) Точно сообщают об использовании VRAM?
Геймеры часто ссылаются на показатель «Использование видеопамяти» в инструментах измерения производительности экранного меню. Но это число не совсем точное, так как все игры и игровые движки работают по-разному.
В большинстве случаев игра выделяет VRAM для себя, говоря вашей системе: «Я хочу это, если мне это нужно». Но то, что он содержит видеопамять, не означает, что ему действительно нужно все это. На самом деле игры часто запрашивают больше памяти, если она доступна.
Из-за того, как работает память, невозможно точно знать, что активно используется, если вы не являетесь разработчиком игры и не имеете доступа к инструментам разработки. Некоторые игры предлагают руководство в меню параметров, но даже это не всегда точно.
Объем видеопамяти, который фактически необходим, будет меняться в реальном времени в зависимости от сцены и того, что видит игрок.
Кроме того, поведение игр может отличаться, когда VRAM действительно используется на максимум. В некоторых случаях память очищается, вызывая заметное снижение производительности, когда текущая сцена перезагружается в память. В других будут загружаться и выгружаться только выбранные данные без видимых последствий. А в некоторых случаях новые активы могут загружаться медленнее, поскольку теперь они загружаются из системной оперативной памяти.
Для геймеров игра — единственный способ по-настоящему понять поведение игры. Кроме того, геймеры могут просматривать показатели частоты кадров «1% низкая», которые могут помочь проанализировать реальный игровой процесс. инструменты — измеряет среднее значение 1% самых медленных кадров за определенный период времени
Автоматизируйте выбор настроек с помощью GeForce Experience и загрузите последние исправления
В последнее время для некоторых новых игр были выпущены исправления, улучшающие управление использованием памяти без ухудшения визуального качества. Не забудьте получить последние исправления для новых запусков, так как они обычно исправляют ошибки и оптимизируют производительность вскоре после запуска.
Кроме того, GeForce Experience поддерживает большинство новых игр, предлагая оптимизированные настройки для каждой поддерживаемой конфигурации графического процессора GeForce и видеопамяти, предоставляя геймерам наилучшие впечатления за счет баланса между производительностью и качеством изображения.
Если вы не знакомы с жаргоном игровых опций и просто хотите наслаждаться играми с той же секунды, как вы их загружаете, GeForce Experience может автоматически настраивать игровые настройки для получения наилучших впечатлений каждый раз.
Технологии NVIDIA могут помочь разработчикам сократить использование видеопамяти
Игры богаче и детализированнее, чем когда-либо прежде, что требует установки более 100 ГБ. Чтобы помочь разработчикам оптимизировать использование памяти, у NVIDIA есть несколько бесплатных инструментов и SDK для разработчиков, в том числе:
- NVIDIA RTX Memory Utility (RTXMU): для трассировки лучей требуется дополнительная видеопамять. RTXMU может сократить это использование до 50%
- NVIDIA Micro-Mesh SDK: снижает использование памяти сложной геометрией, одновременно повышая производительность
- NVIDIA Texture Tools Exporter: создает сильно сжатые файлы текстур для уменьшения использования памяти и размера файлов игр
Это лишь некоторые из инструментов и технологий, которые NVIDIA бесплатно предоставляет разработчикам, чтобы помочь разработчикам оптимизировать свои игры для всех графических процессоров, платформ и конфигураций памяти.
Некоторые приложения могут использовать больше видеопамяти
Помимо игр, видеокарты GeForce RTX используются по всему миру для 3D-анимации, редактирования видео, анимации, фотографии, графического дизайна, архитектурной визуализации, STEM, вещания и искусственного интеллекта. Некоторые из приложений, используемых в этих отраслях, могут выиграть от дополнительной видеопамяти. Например, при редактировании таймлайнов 4K или 8K в Premiere или создании масштабной архитектурной сцены в D5 Render 9. 0123 .
Что касается игр, высокие разрешения также обычно требуют увеличения объема видеопамяти. Иногда игра может запускаться с дополнительным очень большим пакетом текстур и выделять больше видеопамяти. И есть несколько игр, которые лучше всего работают с предустановкой «Высокий» на 4060 Ti (8 ГБ) и максимальными настройками «Ультра» на 4060 Ti (16 ГБ). В большинстве игр обе версии GeForce RTX 4060 Ti (8 ГБ и 16 ГБ) могут работать на максимальных настройках и обеспечивают одинаковую производительность.
Преимуществом платформы ПК является ее открытость, возможность настройки и обновления, поэтому мы предлагаем две конфигурации памяти для GeForce RTX 4060 Ti; если вам нужна дополнительная видеопамять, она будет доступна в июле.
Графический процессор для каждого игрока
После запуска семейства GeForce RTX 4060 будут оптимизированы видеокарты для каждого из трех основных игровых разрешений. Как бы вы ни играли, все графические процессоры серии GeForce RTX 40 обеспечат лучшую в своем классе производительность, ведущую энергоэффективность, поддерживаемую широким спектром технологий, улучшающих игру, включая NVIDIA DLSS 3, NVIDIA Reflex, NVIDIA G-SYNC, NVIDIA.