Radeon 7970 какая карта сейчас. Asus AMD Radeon HD7970 - "темный рыцарь" игрового мира

Прошедший Новый год поставил перед журналистами непростую задачу. Видимо, производители, любящие преподносить сюрпризы именно в канун праздника, взяли за правило ежегодно дарить нам незабываемые моменты. В целом мне нравятся приятные неожиданности, тем более, от одного из лидеров графических технологий. Что ж, встречайте лидера игрового (и не только) мира - новую видеокарту Radeon HD 7970.

Технические характеристики

Наименование HD 6970 HD 7970 HD 6990 GTX 580 GTX 590
Кодовое имя Cayman XT Tahiti XT Antilles GF110 GF110
Техпроцесс, нм 40 28 40 40 40
Размер ядра/ядер, мм 2 389 378 389 x2 ~530 ~530 x2
Количество транзисторов, млн 2640 4300 2640 x2 3300 3300 x2
Частота ядра, МГц 2D 150 150 150 50 / 100 50 / 100
3D 880 925 830/880 772 / 1544 608/1216
Частота ядра OC, МГц 1000 1125 980 925 / 1850 650/1300
Напряжение на ядре, В 2D 0.90 0.90 0.90 0.96 0.95
3D 1.18 1.14 1.12/1.175 1.09 0.98
Число шейдеров (PS), шт. 1536 2048 1536x2 512 512 x2
Число блоков растеризации (ROP), шт. 32 32 32 x2 48 48 x2
Число текстурных блоков (TMU), шт. 96 128 96 x2 64 64 x2
Максимальная скорость закраски, Гпикс/с 28.2 29.6 53.1/56.3 37.1 58.4
Максимальная скорость выборки текстур, Гтекс/с 84.5 118.4 159.4/169 49.4 77.8
Версия пиксельных/вертексных шейдеров 5.0 / 5.0 5.0 / 5.0 5.0 / 5.0 5.0 / 5.0 5.0 / 5.0
Тип памяти GDDR5 GDDR5 GDDR5 GDDR5 GDDR5
Эффективная частота памяти, МГц 2D 300 300 300 67 67
3D 5500 5500 5000 4008 3420
Эффективная частота памяти OC, МГц 5800 6300 5800 4100 3600
Напряжение на памяти, В 2D 1.60 1.60 1.60 1.36 1.31
3D 1.60 1.60 1.60 1.62 1.53
Объём памяти, Мбайт 2048 3072 2048 x2 1536 1536 x2
Шина памяти, бит 256 384 256 x2 384 384 x2
Пропускная способность памяти, Гбайт/с 176 264 160 x2 192.4 164 х2
Потребляемая мощность, Ватт 2D 20 3 37 нд нд
3D 250 250 375 / 450 244 365
Crossfire/Sli да да да да да
Размер карты
ДхШхВ, мм
275x100x37 275x100x37 340x100x38 270x100x38 280x100x38
Рекомендованная цена, $ 369 549 699 499 699

Архитектура

Как и любое устройство, архитектура графического ядра начинается с небольших блоков, составляющих основу. Ядро Tahiti стало и проще, и сложнее одновременно. Сложнее, потому что теперь оно содержит 4.3 млрд транзисторов, что почти вдвое больше, чем ранее было в видеопроцессоре HD 5870. А проще, потому что теперь в единичном устройстве меньше логики.

Для сравнения приведу упрощенную схему трех GPU. В порядке последовательности идут: GTX 580, как наиболее производительное и современное решение NVIDIA, предыдущий лидер AMD – HD 6970, и соответственно само ядро Tahiti, дающее жизнь графическому ускорителю 7970.

  • GF110.

  • Cayman.

  • Tahiti.

Былое разнообразие типовых вычислительных юнитов превратилось в простой массив элементарных частиц под названием ALU. Одновременно увеличился объём кэш-памяти до шестнадцати единиц, а вся управляющая логика переместилась на один уровень выше.

  • GF110.

  • Cayman.

  • Tahiti.

Сделаем небольшую поправку на разные технологические нормы производства, ведь GTX 580 и HD 6970 используют 40 нм, а Tahiti - 28 нм. Архитектура GCN для AMD действительно стала новым шагом в сторону GPGPU вычислений. Ранее VLIW была оптимизирована для графических вычислений, но время не стоит на месте, и требуется все большая унификация в неграфических вычислениях и сложных универсальных задачах.

Посмотрите, как схематично изменился набор вычислительных юнитов в одном блоке. Правильным и одновременно своевременным стало событие, позволяющее AMD отдалиться от графического контента и приблизиться к смешанным вычислениям, где графическая часть больше не является первостепенной. Благодаря нескольким упрощениям архитектура GCN стала гибче и проще для программирования и использования. Но еще важнее то, что AMD наделила CU (Compute Unit) собственным планировщиком и позволила единому блоку работать самостоятельно. Теоретически, планировщик может выдавать до пяти задач, что должно равномернее загружать исполнительные модули.

Как-то раз между слов мне удалось добыть интересную информацию, говорящую о том, что средняя загрузка VLIW архитектуры не поднималась выше 3.6 ядер из 5 возможных. Нетрудно подсчитать, что процент бездействия непозволительно высок для современной архитектуры. Сейчас пользователям обещают практически 80-85% загрузки. А все благодаря тому, что блок GCN состоит из нескольких важных частей.

Векторные ALU объединены в ячейки по шестнадцать штук с собственной кэш-памятью, общей суммой в 64 ALU. Ячеек четыре штуки, и каждая способна работать с собственным потоком команд, плюс еще один важный модуль скалярных вычислений, также оснащенный кэш-памятью. Объединение скалярных и векторных модулей позволяет максимально упростить программную часть кода и разгрузить компилятор.

В VLIW архитектуре параллельность вычислений достигалась за счет нескольких операций в одной инструкции. С GCN параллельность задействована за счет нескольких ячеек из ALU юнитов. Производительность VLIW напрямую зависела от компилятора, передающего некоторое число кодированных скалярных операций в длинном коде на исполнение. Отдельный блок CU динамически распределяет нагрузку между объединёнными ALU блоками, которая состоит из 64 инструкций.

Для выполнения последовательности CU выделяется четыре цикла, но одновременно исполняется только 4х64 инструкции, еще 28х64 находятся во временном буфере, позволяющем планировщику динамически перераспределять нагрузку на исполнительные блоки. Таким образом, если одна из четырех частей массива ALU «буксует», то планировщик распределит нагрузку на другие блоки. Отдельный скалярный ALU предназначен для операций, не укладывающихся в 64 инструкции, или контролирует условные ветвления, переходы и прочее. Он физически ограничен одной операцией за такт работы.

Естественно не обошлось без увеличения объёмов кэш-памяти, что так хорошо реализовано в GF110 и чем обоснованно может гордиться NVIDIA. Каждый GCN оснащён двумя различными кэш-буферами: L1 16 Кбайт и локальным хранилищем данных 64 Кбайта, общим для четырех CU. Первый, L1 по праву может считаться полноценным: исполнительные модули не только читают, но и пишут в него. Помимо персонального хранилища промежуточных результатов GCN блок обращается и к общему хранилищу. Прибавьте сюда полностью когерентный кэш L2, поделенный на массивы по 64 Кбайта между двухканальными контроллерами памяти. Шины кэшей L1 и L2 получили разрядность 64 байта.

Система кэширования памяти подверглась модернизации и линейному расширению. В Tahiti внедрена двухуровневая адресация, и не только в режиме чтения, но и при записи с перекрестным обращением. Что это даёт? Многое, но отнюдь не все, ориентировочно аналогичная схема уже используется у NVIDIA, что даёт большую гибкость модулям и простор для обмена данными. Всего же в графическом ядре насчитывается 512 Кбайт L1 и 768 Кбайт L2. Каждый GCN блок обращается дифференцированно по 64 байта в L1 кэш или глобальную общую память, служащую для обмена данными между наборами команд. L2 также гранулирован наборами ячеек по 64 байта для блоков CGN, таким образом запись или чтение туда осуществляется аналогичными порциями.

Суммарная пропускная способность Tahiti увеличилась на 50% по сравнению с ядром Cayman. В составе GCN можно обнаружить полноценный текстурный конвейер, состоящий из четырех TMU. Все вместе это делает GCN самостоятельной единицей в архитектуре графического ядра. Нет, центральный планировщик никуда не пропал, но теперь его работа существенно облегчилась.

Схематический вид графических ядер:

  • GF110.

  • Cayman.

  • Tahiti.

С приходом демократии в блоки GCN планировщик организует потоки команд и распределяет их самостоятельно. Максимальное число достигает 32 массивов, по 64 инструкции. Немаловажно то, что теперь массивы планировщик может получать из разных адресных пространств, полностью защищённых и независимых друг от друга. Забавно наблюдать, как архитектурные улучшения AMD логично повторяют наработки NVIDIA, которые уже доказали свою эффективность в пересчете на один МГц частоты GPU. Само собой, скопирована только логика, что представляет собой не более 1% от всей сложности компоновки GPU, и говорить об аналогичности нужно очень осторожно.

Но, как можно заметить по схемам выше, один немаловажный аспект строения GF110 остался практически незамеченным. Блоки тесселяции у NVIDIA находятся в SM, в то время как AMD осталась верна собственным алгоритмам. С другой стороны, вычислительная мощность Tahiti сейчас предлагает невиданное количество исполнительных, независимых блоков, способных «перемолоть» массивы входных данных и выдать результат 3.79 ТФлоп. Архитектура, основанная на скалярном исполнении, позволяет упростить задачи по программированию, а также ликвидирует прямую зависимость и конфликты единственного планировщика в предыдущем решении.

А теперь несколько мнений, как мое, так и компетентных инженеров, где ядро Tahiti сравнивается с Fermi. На глобальном уровне у последней планировщик выстраивает потоки (kernels) для каждого блока SM. Алгоритм Tahiti немного иной, в блоке содержится большее число исполнительных единиц. Разработчики AMD поставили командный процессор (CP) во главу микросхемы, в которой содержится распределитель заданий, блок по обработке примитивов, пиксельный блок. Все эти устройства нагружены обработкой в большой степени, что скажется на эффективности обработки данных в остальных частях графического ядра. То есть предполагается, что именно на начальной стадии у новой архитектуры будут случаться задержки, возможно, и блоки ROP обслуживаются этим же глобальным устройством. Что опять же скажется на эффективности графического ядра в целом.

Планировщик Fermi теоретически может обработать и выдать шестнадцать независимых потоков, AMD пиковую производительность своего планировщика скромно умалчивает. Хотя известно, что ядро Tahiti содержит два ACE устройства (асинхронных вычислительных движка или Asynchronous Compute Engines).

Разделение ресурсов в CU и SM на чтение и запись также существенно отличается между Fermi и Tahiti. Количеством простых исполняющих устройств ALU и разной частотой, вы ведь помните, что у NVIDIA применена двойная частота для SM. Двойная частота – двойная эффективность при меньшем количестве простых ядер. Это означает то, что у её решений планирование и распределение заданий должно происходить быстрее.

Распределение кэшей так же получило ряд отличий. У Fermi пул из 64 Кбайт, делящийся на L1 и LDS (общей разделяемой памяти), а небольшой объём текстурной памяти как бы отделен. У Tahiti L1 и текстурная память составляют одно целое, а LDS находится в стороне. Отдельно расположенный SFU (Scalar) у Tahiti оснащен общей кэш-памятью только для чтения.

Два планировщика Fermi в SM блоке производят и отслеживают потоки из независимых адресных пространств, у Tahiti четыре планировщика, работающих на меньшей частоте. Они не могут наблюдать за независимыми потоками заданий. ALU Fermi сопряжены с единым 128 Kбайт буфером, для Tahiti он поделен на четыре блока по 64 Кбайта для каждого CU.

Tahiti ведет себя агрессивней при сохранении промежуточных результатов в общую кэш-память, Fermi делает запись только после полного выполнения заданий. У Fermi полиморфный и растровые блоки находятся в каждом SM и синхронизированы, что позволяет лучше справляться с упорядоченными параллельными задачами. AMD оставила аналогичные блоки за пределами CU, что делает подход к конструированию графического ядра более консервативным.

И, несмотря на кажущиеся большие отличия между GF110 и Tahiti, они все же похожи друг на друга =). Продолжим знакомство с нововведениями в Tahiti.

Количество геометрических блоков не изменилось - две штуки, официально AMD говорит о возросшей эффективности. Всего в Tahiti тридцать два GCN блока, в каждом по четыре TMU, итого 128 текстурных блоков, и это пока рекорд для единичной микросхемы. Модернизации подверглись и ROP блоки, больше не привязанные к каналам памяти. Теперь ROP отданы GCN модулям. Растущие потребности видеоигр и неграфических вычислений привели AMD к одному логичному пути, скорость микросхем растет, но не так быстро как рассчитывала компания, поэтому пришлось расширить ширину шины обмена данными до 384 бит. А заодно обновить внешнюю шину, до версии PCI-E 3.0.

В очередной раз улучшилось качество текстурной фильтрации, но отличить без визуального определения используемую графическую карту, думаю, не под силу даже специалисту. В динамике в части игр исчез «песок», но из-за тестовой версии драйверов появились мигающие текстуры.

Асинхронные командные движки призваны помочь наступлению AMD на фронт неграфических вычислений. Впрочем, я все еще помню её обещание открыть доступ к ним для программирования «напрямую» через OpenCL. Как только появится такая возможность, можно будет проверить эффективность некоторых частей графического ядра.

Не думаю, что стоит вам перечислять всевозможные улучшения GPGPU вычислений, так что остановлюсь на интересных физических особенностях новинки.

Контроль энергопотребления отныне внедрен в программную часть. Причем грамотно, а не для галочки, в чем пришлось убедиться, когда возникла необходимость разогнать и сравнить энергопотребление двух моделей: HD 6970 и HD 7970. PowerTune «калькулятор» достаточно шустро вычисляет энергопотребление видеокарты и в режиме реального времени устанавливает пиковые частоты. Но даже на частоте 1125 МГц в FurMark он не позволял сбрасывать частоты! В то же время при наличии возможности тактовая частота GPU увеличивается. Да здравствует динамический разгон видеокарт, пришедший к нам из страны CPU, что дальше? Ждем плавную Х-миграцию технологий.

Дополнительно AMD позволяет вентилятору полностью останавливаться, когда монитор отключается и переходит в режим сна. Последнее может быть очень полезным для любителей не выключать компьютер. 3 ватта в простое говорят как раз за такой режим работы видеокарты. Не обошли стороной и конфигурации Crossfire, и пусть PowerTune до них еще не добрался, но в 2D бездействующие видеокарты практически полностью отключаются, в том числе - с остановкой вентиляторов. Кроме того, ведущий ускоритель в CrossFire также будет переходить в режим сна при длительном простое.

В новой архитектуре нашлось место для очередного улучшения технологии AMD Eyefinity. Она получила большие разрешения, поддержку большего количества дисплеев и расширение гибкости. Eyefinity 2.0 поддерживает вывод изображения и в стереорежиме HD3D (до трех мониторов). Нашлось место применению формату пакетной передачи, в котором кадры для левого и правого глаза объединены в один массив, AMD Radeon HD 7970 передаёт его в виде HDMI 1.4a для вывода стереокартинки, и на каждый глаз приходится Full HD картинка с частотой 60 Гц.

Появилась возможность вывода звука на разные источники, теперь можно для каждого монитора задать тип аудиоданных. Полезно, когда к одной видеокарте подключен и монитор, и телевизор. Не забыты просьбы пользователей с разными диагоналями мониторов. Формат разрешений вырос до 16384?16384, используемые мониторы могут быть с разной диагональю, работающие в портретных и горизонтальных режимах. Доступны конфигурации как горизонтальные и вертикальные 5?1, так и на основе шести мониторов в виде 3?2.

В ближайшем будущем новые драйвера позволят изменять настройки размещения панели задач. Кроме того, поддерживаемые стандарты DisplayPort 1.2 HBR 2 и 3 ГГц HDMI потребуются для подключения дисплеев с разрешением 4096x2160. Расширившийся список мультимедийных возможностей достаточно велик, и наверняка оправдает надежды многих пользователей. Но на этом AMD обещала не останавливаться и продолжать совершенствование и улучшение потребительских свойств своих графических карт.

Внешний вид и размеры

A, мм B, мм C, мм D, мм A1, мм B1, мм C1, мм
AMD
HD 6970
266 95 34 65 273 97 39
AMD
HD 7970
266 98 34 71 277 98 39
NVIDIA
GTX 580
268 98 36 68 268 98 38
А - длина печатной платы, без учёта системы охлаждения и планки портов видеовыходов.
В - ширина печатной платы, без учёта контактов PCI-E и системы охлаждения.
С - высота, от горизонтальной плоскости печатной платы до уровня верхней поверхности системы охлаждения.
D - диаметр отверстий под вентиляторы.

А1 - длина печатной платы, с учётом системы охлаждения (если выходит за пределы печатной платы) до планки портов видеовыходов.
В1 - ширина печатной платы, без учёта контактов PCI-E, но с замером системы охлаждения (если выходит за пределы печатной платы).
С1 - высота, с учётом задней пластины (если есть)/винтов крепления радиатора до уровня верхней поверхности СО. Если она ниже высоты задней планки портов видеовыходов, то измеряется высота до верхней точки планки.

Длина печатной платы HD 7970 и HD 6970 одинакова. А вот ширина отличается на несколько миллиметров, у HD 7970 нет скошенного края, из-за плотной компоновки модулей памяти. Тип турбины остался прежним, но изменился профиль лопастей и их количество. Полная длина карты несколько увеличилась по сравнению как с HD 6970, так и с GTX 580, но пока не превышает разумные пределы.

На задней части видеокарты убрали один разъём DVI, высвободив место под отверстие системы охлаждения.

Печатная плата

Любая видеокарта начинается с дизайна печатной платы и качества используемых элементов. К моделям, относящимся к верхнему ценовому сегменту, требования предъявляются серьёзные. AMD применила ранее опробованную схему с раздельным питанием графического ядра и независимым питанием памяти (Vmem, Pll). Предыдущая схема выражается числами 6+2+1, нынешняя 6+1+1 (инженерные образцы), магазинные варианты довольствуются комбинацией 5+1+1.

Количество фаз питания GPU на видеокартах с черным цветом печатной платы (тех, что поступят в продажу) сократится на одну, вместо Volterra используются иные силовые ключи, аналогичные тем, что ставит на свои продукты серии Lightning MSI. Там они показали себя только с положительной стороны, но количество фаз у моделей MSI исчисляется десятками, а у HD 7970 только пять фаз.

Часть управляющей логики переместилась на обратную сторону платы. Временами даже не верится, что мощные интегрированные микросхемы Volterra заменили на вполне заурядные силовые цепи.

Поскольку ширина шины подросла до 384 бит, то и число модулей памяти увеличилось, расположены они по окружности вокруг GPU, последняя микросхема сильно смещена к слоту.

По пути к графическому ядру инженеры дополнительно предусмотрели фильтры в виде конденсаторов, что прежде не было видно, потому как конденсаторы были без оболочки. Присмотритесь, как близко расположены модули памяти к цепям питания.

Единые блоки дросселей заменили одиночными решениями. Ширина платы увеличилась из-за большего количества микросхем памяти.

Чтобы соблюсти правила одинаковой длины соединительных каналов памяти, последнюю микросхему развернули на 90 градусов.

Графическое ядро приобрело оригинальный панцирь. Вместо привычной рамки по бокам, защитная часть теперь частично закрывает подложку GPU. Маркировка наносится непосредственно на стороны рамки, а не на сам процессор.

С памятью все просто, как стояли микросхемы Hynix, рассчитанные на 6 ГГц, так и стоят. Как говорится - от добра добра не ищут. Частично, чтобы компенсировать свой выбор, была расширена граница разгона памяти в самих драйверах до 1575 МГц.

Переключатель BIOS остался на прежнем месте, но вторую микросхему перезаписать теперь невозможно. Она оставлена на всякий пожарный случай.

Система питания памяти.

  • HD 7970.

Выделенная фаза выглядит следующим образом.

С обратной стороны расположен ШИМ-контроллер, сама фаза занимает достаточно большое пространство.

  • HD 6970.

На Cayman схемотехника Volterra ничтожно мала по габаритам.

Новые топовые ускорители всегда выходят на рынок через какое-то время после анонса предыдущих, но в этот раз срок ожидания оказался более длительным, чем ранее. Однако сегодня мы все-таки можем лицезреть появление очередного лидера, ускорителя, способного взойти на вершину, превзойдя лидера прежнего - однопроцессорный Nvidia Geforce GTX 580. Правда, речь идет именно об однопроцессорных 3D-акселераторах: не забывайте, что двухпроцессорные находятся в особой нише, имея цену от 800 долларов и выше, а также свои нюансы. Можно предположить, что прирост производительности при смене поколений не превысит полтора раза, поэтому новинка уж точно не переплюнет двухпроцессорные ускорители предыдущего поколения.

Это все к тому, что читателям пора привыкнуть сравнивать однопроцессорные с однопроцессорными и не ждать, когда такой новый ускоритель поставит абсолютный рекорд по производительности. Вот когда на базе новых ядер появятся и соответствующие двухпроцессорные гиганты - они уже смогут штурмовать абсолютные значения, достигнутые прежними лидерами в 3D. А пока мы про двухпроцессорные модели с их очень далекими от народа ценами забываем.

Итак, Radeon HD 7970, он же Tahiti в кодовом именовании. Что дает нам выход этого решения? Чем порадует? Передаем слово Алексею Берилло, он расскажет о теории вопроса.

Часть 1: Теория и архитектура

Наконец-то это свершилось! Многомесячное ожидание новых GPU, произведённых по новым технологическим нормам 28 нм, закончилось под самый конец уходящего года. Мы неоднократно писали о проблемах, вызванных трудностями и задержками в освоении нового техпроцесса, компаниям AMD и Nvidia приходилось выпускать всё новые и новые модели видеокарт, основанных на старых GPU, и даже вносить корректировки в функциональные возможности промежуточных решений. Например, серия Radeon HD 6900 получилась переходной от архитектуры, начавшей свой путь в Radeon HD 5800, к анонсируемой сегодня совершенно новой.

Рано или поздно проблемы с новым производством обязаны были закончиться, и вот они если не исчезли совсем, то хотя бы позволяют анонсировать свежие решения и начать массовые (степень их массовости пока под вопросом, впрочем) поставки. Самое время - ведь рынок ПК-игр переживает очередной небольшой расцвет из-за устаревания аппаратной начинки игровых консолей, даже с учётом засилья мультиплатформенных проектов.

Если брать даже чисто финансовые показатели, то продажи на игровом рынке ПК превысили 15 миллиардов долларов в текущем году, а в течение двух лет аналитиками ожидается рост объёма рынка до 20 миллиардов в той же валюте. При этом есть и стремительно растущие рынки, вроде Китая, который является крупнейшим рынком ПК-игр - продажи на нём достигли 4,8 млрд. долларов в 2010 году. Да и российский рынок является одним из важнейших даже для западных компаний, достаточно вспомнить выпуск специальных видеокарт ограниченного выпуска, рассчитанных в т. ч. и на нашу страну.

Понятное дело, что даже с учётом того, что большинство игр мультиплатформенные, они становятся сложнее графически. ПК-версии многих проектов выглядят лучше консольных собратьев по нескольким показателям, и не только экстенсивным, вроде разрешения рендеринга и текстур. Например, известнейшая игра Battlefield 3 использует многие возможности DirectX 11 для того, чтобы улучшить качество рендеринга. Насколько это удаётся разработчикам и каким был прогресс в качестве изображения, компания AMD предлагает посмотреть по таким примерам, как сериалы Battlefield и Deus Ex:

Как видно даже по этим маленьким скриншотам, скачки в качестве за прошедшие несколько лет вполне себе ощутимы. Но ещё более значительными они становятся, если учитывать рост разрешения рендеринга за всё это время. Даже если взять ситуацию трёхлетней давности, то с тех пор рынок шагнул далеко вперёд. Так, если в 2008 году основными на рынке игровых мониторов были модели с размером экрана 22″ и разрешением 1680×1050 пикселей, то в 2011 году распространение получили 24″ модели с FullHD-разрешением 1920×1080.

Но самое интересное даже не в размере и разрешении экрана. Если в 2008 году цена такого дисплея была порядка $360, то цены 24″ моделей в нынешнем году начинаются от $170-180. То есть, покупатель теперь получает чуть больший физически экран, имеющий почти на 20% больше пикселей, меньше чем за половину цены трёхгодичной давности для гораздо худшего монитора. Именно поэтому устройства с FullHD-разрешением уже стали наиболее распространёнными на рынке - ведь они стоят совсем недорого.

Ещё одним модным веянием в последние годы стало повышение энергоэффективности. Пользователи голосуют за эффективные устройства, использующие как можно меньше электроэнергии. Они и меньше воздействуют на окружающую среду, что влияет на умы сознательных граждан Земли, и позволяют экономить деньги на счетах за электричество, что весьма важно для остальных людей, менее сознательных. И компания AMD уделяет особенное внимание повышению энергоэффективности своих GPU, а также видеокарт на их основе.

Ну и нельзя не отметить значительный сдвиг графических процессоров в сторону неграфических вычислений (GPGPU). Все современные графические чипы делаются теперь совсем не только для игр, но и ускорения требовательных к вычислительной мощи задач, которые хорошо поддаются распараллеливанию. И хотя главным движителем рынка в эту сторону является компания Nvidia, выпускающая для рынка ПК лишь графические чипы, AMD старается не отстать. Кроме того, по пиковой вычислительной мощности лидируют именно видеокарты этой компании. Рост теоретически достижимой производительности можно пронаблюдать на диаграмме:

Как видите, скачки пиковой скорости при каждом новом технологическом процессе достигаются весьма значительные. Нужно ещё учесть, что техпроцесс 28 нм только начал свой путь, и можно с уверенностью сказать, что в будущем цифра в 3,79 терафлопа значительно подрастёт.

К слову о техпроцессах - именно компания AMD является их первопроходцем на рынке графических процессоров. В последние несколько лет эта компания опережала своего единственного сильного конкурента - Nvidia - по внедрению всех новых техпроцессов. Вот и сейчас они первые успели анонсировать свой новый продукт ещё в уходящем 2011 году (фотографии кристаллов схематичны, к сожалению):

28 нм - наиболее совершенная технология производства чипов, массово доступная на сегодняшний день, и именно по этой технологии производятся анонсируемые сегодня видеочипы серии AMD Radeon HD 7000. Эти решения поддерживают все современные индустриальные стандарты: GDDR5, PCI Express, DirectX и другие. Предыдущие серии видеокарт были настолько удачны, что AMD недавно отрапортовала о поставке 100 миллионов продуктов с поддержкой DirectX 11. И в результате, более двух третей DX11-совместимых видеокарт на руках у пользователей имеют графические процессоры производства этой компании.

Тем более значительным событием представляется сегодняшний анонс первой в мире линейки графических чипов под кодовым названием «Southern Islands» («южные острова»), обладающей поддержкой обновленной шины PCI Express 3.0 и будущей версии DirectX 11.1. Все подробности о первой видеокарте серии вы прочитаете далее, а сейчас мы вкратце расскажем о решениях, вошедших в новейшую линейку.

Серия «Southern Islands» включает:

  • «Tahiti» - решение наибольшей мощности, самый сложный и мощный GPU на данный момент (серия Radeon HD 7900 )
  • «Pitcairn» - графический процессор среднего ценового диапазона, предназначенный для массового пользователя (серия Radeon HD 7800 )
  • «Verde» - продукт, обладающий непревзойдённым сочетанием цены и производительности (выйдет под именем Radeon HD 7700 )

Чтобы понять, как именно планируется расположить новые решения в линейке продукции, AMD приводит такой слайд (положение по вертикали отражает производительность решений, по горизонтали - время выхода):

Как видите, младшие видеокарты линеек Radeon HD 6300, HD 6400, HD 6500 и HD 6600, продолжат свою жизнь и в следующем году. А вот более мощные решения постепенно заменятся новыми видеокартами указанных выше серий, основанных на представленной архитектуре. Но сегодня выходит только одна видеокарта - мощнейшее решение из линейка Radeon HD 7900, а остальные чипы серии «Southern Islands» выйдут на рынок несколько позже - в течение первого квартала 2012 года.

Предполагаем, что перед прочтением этого материала, читателям будет полезно ознакомиться с подробной информацией о ранних видеочипах компании по следующим статьям нашего сайта:

  • AMD Radeon HD 6950/6970: чуть слабее Geforce GTX 570/580, но и дешевле
  • AMD Radeon HD 6870 и HD 6850: теоретические сведения о новых решениях для среднего ценового сектора
  • ATI Radeon HD 5870: мощный удар из Канады - ATI (AMD) выпускает нового короля 3D-графики
  • ATI Radeon HD 4870 (RV770): самый мощный однопроцессорный 3D-ускоритель AMD

Ну а теперь мы переходим к описанию технических характеристик анонсированной сегодня первой видеоплаты из серии Radeon HD 7900, основанной на совершенно новом GPU с кодовым названием «Tahiti».

Графические ускорители серии Radeon HD 7900

  • Кодовое имя чипа: «Tahiti»
  • Технология производства: 28 нм
  • 4,3 млрд. транзисторов (более чем на 60% больше, чем у Cayman, и ровно вдвое больше, чем у Cypress)
  • Унифицированная архитектура с массивом общих процессоров для потоковой обработки многочисленных видов данных: вершин, пикселей и др.
  • Аппаратная поддержка DirectX 11.1, в том числе и шейдерной модели Shader Model 5.0
  • 384-битная шина памяти: шесть контроллеров шириной по 64 бита с поддержкой памяти GDDR5
  • Частота ядра: до 925 МГц (для Radeon HD 7970)
  • 32 вычислительных блока GCN, включающих 128 SIMD-ядер, состоящих в целом из 2048 ALU для расчётов с плавающей запятой (целочисленные и плавающие форматы, поддержка точности FP32 и FP64 в рамках стандарта IEEE 754)
  • 128 текстурных блоков, с поддержкой трилинейной и анизотропной фильтрации для всех текстурных форматов
  • 32 блока ROP с поддержкой режимов антиалиасинга с возможностью программируемой выборки более чем 16 сэмплов на пиксель, в том числе при FP16- или FP32-формате буфера кадра. Пиковая производительность до 32 отсчетов за такт, а в режиме без цвета (Z only) - 128 отсчетов за такт
  • Интегрированная поддержка шести мониторов, включая HDMI 1.4a и DisplayPort 1.2

Спецификации видеокарты Radeon HD 7970

  • Частота ядра: 925 МГц
  • Количество универсальных процессоров: 2048
  • Количество текстурных блоков: 128, блоков блендинга: 32
  • Эффективная частота памяти: 5500 МГц (4×1375 МГц)
  • Тип памяти: GDDR5
  • Объем памяти: 3 гигабайта
  • Пропускная способность памяти: 264 гигабайта в сек.
  • Теоретическая максимальная скорость закраски: 29,6 гигапикселей в сек.
  • Теоретическая скорость выборки текстур: 118,4 гигатекселей в сек.
  • Два разъёма CrossFire
  • Шина PCI Express 3.0
  • Разъёмы: DVI Dual Link, HDMI 1.4, два Mini-DisplayPort 1.2
  • Энергопотребление: от 3 до 250 Вт
  • Один 8-контактный и один 6-контактный разъёмы питания
  • Двухслотовый дизайн
  • Рекомендованная цена для рынка США: $549

Сразу же на себя обращает внимание огромная сложность нового чипа - 4 312 711 873 транзисторов (именно в таком сверхточном виде это число приведено в материалах AMD - наверняка вручную подсчитывали), что более чем наполовину превышает количество транзисторов в предыдущем топовом графическом процессоре. Возможность сделать такой сложный кристалл дало применение новейшего 28-нанометрового техпроцесса, новый чип по площади даже чуть меньше размера Cayman. Но практически все характеристики, влияющие на производительность, заметно улучшены: количество ALU, TMU, шина памяти. Лишь число блоков ROP не выросло, и частота видеопамяти GDDR5 осталась на той же отметке. Благодаря увеличению количества исполнительных блоков, возросшей эффективности, а также повышенной тактовой частоте GPU, он должен значительно превосходить Cayman во всех применениях.

Принцип наименования видеокарт компании остался прежним, продолжив тенденцию предыдущей серии, у которой в топовых решениях поменялась вторая цифра индекса с 8 на 9. Radeon HD 7970 является наиболее производительным одночиповым решением компании, через некоторое время выйдет и младшая модель HD 7950, но анонсирована сегодня она не будет. Понятно, что HD 7970 с её то характеристиками просто не имеет конкурентов на рынке и пока что не заменяет какую-то видеокарту из линейки AMD (разве что HD 6990 можно сразу смело списывать), а скорее сдвигает её вниз. Что касается сравнения с конкурентом, то у Nvidia своё 28-нанометровое решение ещё не готово, и его придётся подождать ещё несколько месяцев. А пока что Geforce GTX 580 придётся отдуваться, пытаясь противостоять HD 7950, но явно не HD 7970.

На новую видеокарту AMD устанавливается всё та же память типа GDDR5 (хотя ходили слухи о якобы совершенно ином типе памяти компании Rambus, но представители AMD их даже не комментируют), но объём вместо 2 гигабайт в предыдущем поколении вырос до 3 гигабайт. Так получилось из-за расширения шины памяти с 256-битной до 384-битной. И теперь на новую плату можно поставить или 1,5 ГБ или 3 ГБ. Естественно, с маркетинговой точки зрения установка меньшего объёма была бы явным поражением, и было принято решение поставить 3 ГБ, хотя на сегодняшний день это явный перебор. Лишь в сверхвысоких разрешениях да с MSAA 16x не хватит 1,5-2 ГБ. Впрочем, у AMD есть и Eyefinity, а для игр на трёх-пяти-шести мониторах экранный буфер будет как раз занимать огромный объём. Возможно, младшую модель Radeon HD 7950 когда-нибудь и выпустят с 1,5 ГБ памяти, для удешевления, но точно не старшую.

Итак, рассмотрим Radeon HD 7970. Новая видеокарта верхнего ценового диапазона имеет двухслотовую систему охлаждения, закрытую привычным для всех современных плат AMD пластмассовым кожухом по всей длине карты. Лишь дизайн этого кожуха немного изменился, хотя задняя часть всё так же выходит за пределы печатной платы. А вот дизайн планки с выводами был изменён - для улучшения охлаждения видеокарты, один из двух слотов (половина планки) был занят исключительно вентиляционным отверстием для отвода тепла.

Но пользователи не должны пострадать от снижения количества разъёмов DVI, распаянных прямо на плате. Для их удобства в комплект поставки будет включен специальный переходник HDMI-DVI, который позволит подключить два монитора, имеющих DVI-разъёмы. К слову, энергопотребление новой карты не ниже, чем у Radeon HD 6970, поэтому на неё пришлось установить набор из одного 8-контактного и одного 6-контактного разъёмов питания.

Зато в новой Radeon HD 7970 в лучшую сторону изменилась система охлаждения. Применяется новое поколение испарительной камеры и новый кулер большего размера, с изменённой формой лопастей и увеличенной производительностью (обеспечивается больший поток воздуха). В результате отмечается увеличение эффективности кулера при одновременном снижении шума.

С платы никуда не делся и переключатель прошивок Dual BIOS, о котором мы писали в обзоре Radeon HD 6900. Вкратце: видеокарта имеет две версии BIOS, одна с возможностью пользовательской перепрошивки, а вторая - с жёстко зашитой на фабрике прошивкой. Это удобное решение настолько приглянулось и пользователям и самой AMD, что та решила продолжить им комплектовать топовые решения.

Можно только поприветствовать данное решение, которое реально помогает в различных случаях, связанных как с неожиданными проблемами при перепрошивке (выключение электроэнергии в процессе, например), так и позволяет бесстрашно проводить различные эксперименты с образами BIOS. Неудивительно, что AMD ещё и снова намекает на отличные возможности разгона новой видеокарты:

Как видите, практически обещается разгон до частоты 1 ГГц и выше, если не учитывать мелкой надписи (она не вошла в кадр, но существует) о том, что гарантия перестаёт действовать даже в том случае, если видеокарта вышла из строя в результате эксперимента с поднятием частоты из настроек видеодрайвера. Кстати, новый слайд интересно сравнить со страницей из презентации давно ушедшего с рынка Radeon HD 4890:

Просто поразительное сходство (по компоновке и дизайну слайда), не правда ли? К сожалению, с тех пор хоть и освоены новые техпроцессы, но злополучный гигагерц никак на даётся в финальных продуктах с референсными частотами. А ведь, казалось бы, тут и 28 нм и явно улучшенное охлаждение, но нет - снова немного, но не дотянули. С другой стороны, зато пользователю будет чем заняться на досуге.

Архитектурные особенности Radeon HD 7970

Чтобы оценить актуальность архитектурных модификаций в Southern Islands, сначала рассмотрим развитие GPU за прошедшие несколько лет (в представлении AMD). До 2002 года графические чипы представляли собой специфичное аппаратное обеспечение, способное исключительно для обработки графики. Видеочипы того времени имели ограниченную функциональность, они умели лишь накладывать и фильтровать текстуры, обрабатывать геометрию, заниматься примитивной растеризацией и поэтому совсем не подходили для универсальных вычислительных задач.

За следующие несколько лет к GPU была добавлена базовая программируемость, но ориентированная также исключительно на графические задачи. Это было время поддержки DirectX 8 и 9, ограниченных по функциональности шейдерных программ с возможностью расчётов и с плавающей запятой. Видеочипы того времени имели специализированные блоки ALU для вершинной и пиксельной обработки, а также выделенные кэши для пикселей, текстур и других данных. Универсальности всё ещё не было даже близко.

И лишь в 2007 году у компании AMD появилась унифицированная шейдерная архитектура DirectX 10, а также возможности программирования GPU при помощи специальных средств: CAL, Brook, ATI Stream. GPU того времени уже имели продвинутое кэширование и поддержку локальных и глобальных общих данных. Архитектурно чипы были основаны на блоках VLIW5 и VLIW4, достаточно гибких для некоторых базовых неграфических вычислений, но всё же ориентированных на графические алгоритмы.

А теперь настало время для новой архитектуры, ещё лучше подходящей для универсальных вычислений - Graphics Core Next (GCN) . Для AMD это новая архитектурная эра, поэтому и название выбрано такое. Новые GPU предлагают отличные возможности и производительность по обработке графики, но сделанные архитектурные изменения предназначены, прежде всего, для улучшения позиций в неграфических вычислениях - увеличению производительности и эффективности в сложных универсальных задачах. Новый дизайн GPU предназначен для так называемых гетерогенных вычислений - смеси графических и универсальных в мультизадачной среде. Архитектура GCN стала гибче и должна ещё лучше подходить для энергоэффективного выполнения различных задач.

Базовым блоком в новой архитектуре является блок GCN. Именно на таких «кирпичиках» основаны все новые графические процессоры серии Southern Islands. Архитектура впервые для графических чипов компании AMD использует не VLIW-дизайн, в нём применяются векторные и скалярные блоки, и одним из самых важных изменений стало то, что каждый из вычислительных блоков GCN имеет свой планировщик и может выполнять инструкции из различных программ (kernel).

Новая вычислительная архитектура разработана для высокой эффективности загрузки вычислительных блоков в многозадачной среде. Вычислительный блок GCN разделён на четыре подраздела, каждый из которых работает над своим потоком команд каждый такт. Потоки могут использовать и скалярный блок, имеющийся в GCN, для управления потоком данных или операций над указателями. Комбинация векторных и скалярных блоков предлагает очень простую программную модель. Например, указатели на функции и стек (function pointers и stack pointers) программируются гораздо проще, да и задача компилятора теперь значительно упрощена, так как исполнительные блоки скалярные.

Каждый блок GCN имеет выделенное локальное хранилище данных для объёмом 64 КБ для обмена данными или расширения локального стека для регистров. Также блок имеет в своём составе и кэш-память первого уровня с возможностью чтения и записи, и полноценный текстурный конвейер (блоки выборки и фильтрации). Поэтому новый вычислительный блок способен работать самостоятельно, без центрального планировщика, который в предыдущих архитектурах отвечал за распределение работы по блокам. Теперь каждый из блоков GCN способен заниматься планированием и распределением команд сам, один вычислительный блок может исполнять до 32 разных потоков команд, которые могут быть из разных виртуальных адресных пространств в памяти и полностью защищены и независимы друг от друга.

Предыдущие архитектуры GPU компании AMD использовали архитектурные модели VLIW4 и VLIW5, и хотя они достаточно хороши для графических задач, но являются недостаточно эффективными для универсальных вычислений, так как загрузить все исполнительные блоки работой в таких условиях очень непросто. Новая архитектура GCN предлагает столь же большое количество исполнительных блоков, но при скалярном исполнении, которое убирает ограничения и зависимости регистров и инструкций. Переход от архитектуры VLIW к скалярному исполнению даёт заметное упрощение задач по оптимизации кода.

При исполнении инструкций на предыдущей VLIW4 архитектуре компилятору приходится заниматься решением конфликтов регистров, выполнять сложное распределение инструкций на исполнительные блоки на стадии компиляции кода и т. д. При этом для достижения высокой производительности зачастую требуется нетривиальная оптимизация, что подходит для большинства графических задач и гораздо менее гибко для других вычислений. Новая же архитектура предлагает значительное упрощение разработки и поддержки, упрощённое создание, анализ и отлов ошибок в низкоуровневом коде, стабильную и предсказуемую производительность.

Подсистема кэширования памяти

Пропускной способности и объёма памяти и кэшей никогда не бывает достаточно, и всегда есть необходимость и методы их увеличения. В новых GPU компании AMD применяется полноценная двухуровневая кэш-память с возможностью чтения и записи. Каждый вычислительный блок имеет по 16 килобайт кэша первого уровня, а общий объём кэша второго уровня составляет 768 килобайт (всего в чипе получается 512 КБ L1 и 768 КБ L2), что на 50% больше, чем в предыдущем чипе, вовсе не имеющем возможности записи в L2-кэш.

Что касается производительности, то каждый вычислительный блок GCN за один такт может получить или записать по 64 байта данных из/в L1-кэш или глобальную память, которая служит для обмена данными между потоками команд. Столько же данных способен передавать и принимать каждый раздел кэш-памяти второго уровня L2. В результате, для топового GPU компании получается 2 терабайт/с для L1 и 700 ГБ/с для L2, что на 50% больше, чем у предыдущего топового решения AMD.

Графический процессор «Tahiti»

После того, как мы рассмотрели низкоуровневые архитектурные изменения новой серии Southern Islands, самое время перейти к подробностям о самом мощном решении этой линейки - Radeon HD 7900, включающей в себя две модели. Прежде всего, отметим просто огромную сложность нового GPU, ведь он включает более чем 4,3 миллиарда транзисторов, что вдвое больше, чем было в чипе, на котором основан Radeon HD 5870! Естественно, что такой могучий чип стал возможен лишь благодаря применению нового техпроцесса 28 нм. Итак, что же у него есть внутри?

Количество геометрических блоков не изменилось, по сравнению с Cayman, их всё так же две штуки, но зато эффективность их работы значительно увеличена - мы остановимся на этом подробнее чуть позже. На схеме графического процессора мы видим 32 вычислительных блока архитектуры GCN, доступные на Radeon HD 7970, а в случае с младшим решением, некоторые из них будут отключены. Если считать пиковую вычислительную производительность решения, то она составляет почти 3,8 терафлопа (количество операций с плавающей запятой в секунду), что является абсолютным рекордом для GPU на сегодняшний день.

Каждый блок GCN имеет в своём составе по 16 текстурных блоков, что даёт итоговую цифру в 128 TMU на чип, или более чем 118 гигатекселей/сек - и это ещё один рекорд на сегодня, и он далеко не последний. А вот количество блоков ROP не изменилось, их всё так же 32 штуки в 8 укрупнённых блоках RBE. Ещё одно интересное архитектурное изменение - теперь блоки ROP «прикреплены» не к каналам памяти, как это было ранее, а к блокам GCN.

Хотя теоретически скорость записи во фреймбуфер почти не изменилась, и максимально возможны те же 32 значений цвета и 128 значений глубины за такт, практическая скорость заполнения (филлрейт) в реальных применениях значительно возросла из-за увеличенной пропускной способности памяти. По измерениям AMD, Cayman обеспечивал запись лишь 23 пикселей за такт, в то время как новый Tahiti приблизился к теоретическим 32 пикселям за такт.

Это и понятно, ведь новый видеочип компании AMD имеет 384-битную шину памяти - шесть 64-битных каналов, точно как и текущее топовое решение конкурента. Именно это полуторакратное увеличение ПСП и даёт возможность повысить реальную скорость текстурных выборок и записи во фреймбуфер. Пропускная способность в 264 ГБ/сек должна помочь выжимать близкие к теоретическим показатели в 118 гигатекселей/сек и 30 гигапикселей/сек, и в практической части мы это проверим.

Тесселяция и обработка геометрии

С архитектурной точки зрения, ничего особенного в геометрических блоках Tahiti со времен Cayman не изменилось. Используется всё так же по два блока для обработки (установка вершин и тесселяция) геометрических данных и растеризации, и схема весьма похожа на ту, что мы видели ранее, разве что тесселяторы названы аж 9-м поколением:

Несмотря на схематическое сходство, последнее поколение этих блоков способно на значительно большую производительность тесселяции и обработки геометрии, так как блоки подверглись значительным модификациям. Хотя пиковая производительность выросла лишь почти до двух миллиардов вершин и примитивов в секунду (925 МГц и две вершины а такт), реальная производительность выросла больше. Это было достигнуто при помощи увеличения объёма кэшей, улучшения буферизации геометрических данных и повторного использования вершинных данных.

В результате, производительность тесселяции улучшена при всех коэффициентах разбиения треугольников до четырёх раз, по сравнению с Radeon HD 6970 из предыдущего поколения. Но четыре раза достигаются не во всех случаях даже на диаграмме от самой AMD:

Диаграмма показывает сравнение производительности тесселяции Radeon HD 7970 по сравнению с HD 6970 при коэффициентах разбиения от 1 до 32. И, как вы видите, разница в производительности получилась от 1,7 до 4 раз. Но это - голая синтетика. И чтобы приблизиться к реальности, приведём ещё данные о скорости тесселяции уже в игровых приложениях:

Как видите, синтетические цифры AMD неплохо подкрепляются игровыми - производительность в реальных приложениях с «тяжёлой» тесселяцией значительно выросла. Это очень неплохой результат, который мы обязательно проверим в практической части, на примере синтетики и игровых приложений.

Неграфические вычисления

С точки зрения гетерогенных и неграфических вычислительных задач весьма важны появившиеся два асинхронных вычислительных движка (Asynchronous Compute Engines - ACE). Они предназначены для планирования и распределения работы между исполнительными блоками для эффективной многозадачности и работают вместе с графическим командным процессором (Command Processor).

Radeon HD 7900 имеет два независимых вычислительных движка и один графический. В сумме это даёт три программируемых блока и три потока команд, полностью отделённых друг от друга. А в дополнение к асинхронной подаче команд для быстрого переключения контекста, новый GPU также имеет два двунаправленных контроллера прямого доступа к памяти (DMA), появившиеся в Cayman. Эти два контроллера необходимы для того, чтобы полностью использовать возможности новой шины PCI Express 3.0.

Как мы знаем, с точки зрения серьёзных вычислений важна не только скорость выполнения операций с плавающей запятой с одинарной точностью, но и двойной (double precision floating point). И новая архитектура AMD весьма неплохо справляется с такой задачей. На данный момент предполагается существование двух версий вычислительных блоков GCN, имеющих разный темп исполнения FP64 инструкций. Для старшего GPU темп выполнения составляет 1/4 от скорости FP32, а для младших чипов выбран темп 1/16, что вполне достаточно для сохранения совместимости, но не слишком усложняет недорогие решения. В итоге, Radeon HD 7970 способен на 947 миллиардов операций двойной точности в секунду (эх, до терафлопа совсем же чуть-чуть не дотянули!) - налицо очередное высочайшее достижение нового чипа AMD.

Причём, это не те гигафлопы, что в случае предыдущих архитектур, а более «жирные». Ведь эффективность нового GPU в сложных вычислительных задачах должна серьёзно возрасти. Во-первых, улучшена подсистема памяти и кэширования. Во-вторых, каждый вычислительный блок GCN имеет свой планировщик, что должно улучшить исполнение ветвящегося кода и общую эффективность. Ну и в третьих отметим скалярное исполнение, не требующее сложных оптимизаций от компилятора, в результате чего вычислительные блоки будут гораздо реже простаивать. И в итоге в любых задачах новому чипу будет легче показать высокую производительность и загрузку ALU.

Из других нововведений, связанных с вычислительными возможностями, отметим полную поддержку ECC для DRAM и SRAM. С программной стороны важно, что Tahiti - это первый графический процессор с полной поддержкой новых версий API: OpenCL 1.2, DirectCompute 11.1 и C++ AMP и их возможностей. Например, OpenCL 1.2 позволяет объединять возможности нескольких вычислительных устройств в одно, и компания AMD уже выпустила соответствующую поддержку в виде AMD APP SDK 2.6 и драйвера Catalyst 11.12.

Производительность и эффективность архитектуры

После обзора всех архитектурных нововведений на примере топового чипа серии Southern Island настало время поговорить об эффективности всех этих изменений. Понятно, что производительность новых чипов гораздо выше, чем у предыдущих, обратное было бы весьма удивительно. Вопрос в том, насколько быстрее. В различных задачах получаются цифры от 40-50% (минимум!) до пятикратной разницы. Улучшения в архитектуре позволяют превысить теоретическую 1,4-кратную разницу по тупым гигафлопсам. Давайте рассмотрим это на примерах:

На диаграмме сравнивается новое топовое решение и предыдущее одночиповое: Radeon HD 7970 и HD 6970, что вполне справедливо. Тесты производительности выбраны различные: SmallptGPU и LuxMark - это рейтрейсинг на OpenCL, SHA256 - безопасный алгоритм хеширования, а AES256 - симметричный алгоритм шифрования. Ну а Mandelbrot - широко известная задача, рассчитанная с двойной точностью вычислений.

Вертикальной прерывистой линией на графике отмечена теоретическая разница в производительности, но данные о скорости показывают, что в трёх из пяти задач скорость нового GPU оказалась значительно выше. Это вызвано всеми изменениями, направленными на увеличение эффективности: уход от VLIW, наличие планировщика в каждом вычислительном блоке, улучшенное кэширование и т. п.

Изменения в качестве рендеринга

Собственно, эту часть вполне можно было бы и пропустить, так как к качеству изображения в последнее время особенных претензий уже нет и быть не может - по разным причинам. Например, качество полноэкранного сглаживания у видеокарт разных производителей весьма близкое, особенно учитывая широкое распространение программных методов сглаживания при помощи фильтров постобработки, выполняемых на всех GPU абсолютно одинаково.

То же самое касается и текстурной фильтрации - сейчас её качество таково, что отличить решения AMD и Nvidia весьма непросто даже если делать попиксельное сравнение. У Radeon HD 6900 - предыдущего поколения компании - анизотропная фильтрация улучшилась ещё немного, и теперь даже «микроскоп» не поможет найти там какие-то значительные недостатки. Единственное замечание в том, что в движении видеокарты Radeon немного уступали Geforce из-за более заметных специфических артефактов, вроде «шума» или «песочка».

С выходом видеочипов нового поколения веса текселей в текстурном фильтре пересмотрели ещё раз, модифицировав их так, чтобы снизить подобные артефакты, иногда видимые на Radeon HD 6900 при наличии текстур определённого вида («высокочастотных», с резкими переходами от тёмного к светлому, например). Изменения в качестве настолько трудно показать на примерах, что AMD не приводит сравнительные картинки HD 7900 против HD 6900, а просто сравнивает качество «аппаратного» алгоритма с чисто программным, выполняемым на потоковых процессорах GPU, а потому - идеальным:

На таком мелком скриншоте разницы в качестве не видно, но AMD уверяет, что все проведённые изменения не привнесли никакого падения производительности и ни в одном из аспектов не ухудшили качество картинки - оно всё так же не зависит от угла и качество фильтрации близко к идеальному. В одном из будущих практических материалов мы это обязательно проверим.

Частично резидентные текстуры (Partially Resident Textures)

Идея Partially Resident Textures (PRT) заключается в использовании аппаратной возможности представленного графического процессора - виртуальной памяти. Наверняка многие пользователи уже видели игру RAGE компании id Software, которая использует технологию виртуального текстурирования, так называемое мегатекстурирование («MegaTexture»), которое обеспечивает возможность использования огромных объёмов текстурных данных и подкачку (streaming) их в видеопамять.

Используя виртуальную видеопамять, очень легко получить эффективную аппаратную поддержку подобных алгоритмов, позволяющих применять в приложении до 32 терабайт текстур, что даёт возможность сделать уникальные локации в играх, без повторяющихся кусков текстур, при полном отсутствии проблем с подгрузкой текстурных данных. Правда, наглядный пример AMD приводит слишком странный, из которого ничего особо непонятно:

PRT позволяет добиться высокого качества картинки и помогает повысить эффективность использования видеопамяти. Подобные алгоритмы уже применяются в движке id Software, и ожидается их появление во многих движках следующего поколения. Игры будущего нуждаются в работе с огромными объёмами данных и преимущество нового GPU в том, что локальная графическая память в алгоритмах а-ля PRT работает как аппаратная кэш-память, и текстуры в неё подгружаются при необходимости. GPU семейства Southern Islands поддерживают «мегатекстуры» объёмом до 32 терабайт (разрешением до 16384×16384) и, что особенно важно, аппаратную текстурную фильтрацию для них, что недоступно на более ранних видеочипах.

Виртуальные текстуры разбиваются на куски размером 64 килобайта (именно килобайты, а не тексели) и этот размер куска фиксирован. И в локальную память видеокарты подгружаются только те из них, которые нужны при рендеринге текущего кадра. Технология работает независимо от текстурного формата, просто размеры кусков в текселях будут отличаться. Например, для обычной несжатой текстуры с 32 бит на цвет, размер куска будет 128×128 текселей, а для сжатой в DXT3-формат - 256×256 текселей.

Технология предполагает и использование мип-уровней текстур (уменьшенных копий, используемых при текстурной фильтрации). При рендеринге и фильтрации к ним требуется многократный доступ. Рассмотрим работу алгоритма на примере.

На этом рисунке выделены четыре разных куска из разных мип-уровней, требуемые при рендеринге. Когда шейдерная программа запрашивает данные из них, некоторые из кусков уже имеются в локальной памяти и эти данные сразу же отправляются в шейдер для дальнейших вычислений. Но некоторые куски отсутствуют в таблице, и приложение должно выбрать последующие действия при таком промахе. Например, можно запросить данные из мип-уровня меньшего разрешения, тогда изображение будет нечётким, но оно хотя бы будет похоже на правду и отрисуется без задержки. А к рендерингу следующего кадра оно уже может быть подгружено в кэш - локальную видеопамять. Игравшие в RAGE нас поймут.

Это - мощнейший алгоритм, позволяющий использовать огромные текстуры, уникальные для каждого из объектов. Аналогичные алгоритмы давно используются при оффлайн-рендеринге, за исключением необходимости расчётов в реальном времени. AMD даже сделала демо-программу, использующую технику наложения текстур Per-Face Texture Mapping, разработанную Walt Disney Animation Studios для их анимационных фильмов. К сожалению, демонстрационная программа ещё не готова, и мы видели лишь скриншоты низкого разрешения.

Суть данной техники наложения текстур в том, чтобы каждому полигону назначить определённый кусок текстуры, без необходимости использования UV-преобразования (нахождения соответствия между координатами поверхности трёхмерного объекта и координатами на двухмерной текстуре). Такой подход решает некоторые проблемы с созданием тесселированного контента, делая алгоритм смещения векторов (displacement mapping) очень простым. А PRT в этом методе используется для эффективного хранения и доступа к текстурных данным.

Инструкции по обработке медиаданных

Интересным нововведением в Southern Islands кажется поддержка специализированных инструкций, используемых при обработке изображений, статичных и динамических. Например, была улучшена широко используемая инструкция под названием «сумма абсолютных разностей», более известная как SAD (Sum of Absolute Differences). Скорость её исполнения - весьма критичное к производительности узкое место многих алгоритмов обработки изображений и видеоданных, вроде определения движения (motion detection), распознавания жестов (gesture recognition), поиска по изображениям, компьютерного зрения и многих других.

Но постойте, в обзоре древней видеокарты Radeon HD 5870 мы уже писали о поддержке SAD! Всё правильно, но теперь кроме обычного SAD (4×1) в Southern Islands появилась новая инструкция - QSAD (счетверённый SAD), объединяющая SAD с операторами сдвига для увеличения производительности и энергоэффективности, а также «маскируемая» инструкция MQSAD, игнорирующая пиксели заднего плана и используемая для изоляции движущихся в кадре объектов от фона.

Новые GPU могут обрабатывать до 256 пикселей на каждый вычислительный блок GCN за такт, что в случае модели AMD Radeon HD 7970 означает возможность обработки до 7,6 триллионов пикселей в секунду в случае 8-битных целочисленных значений цвета. Хотя это теоретическая цифра, возможности новых графических процессоров по обработке визуальных данных весьма впечатляют - многие задачи по обработке видео можно будет выполнять в режиме реального времени.

PCI Express 3.0

Не могли мы пройти и мимо поддержки третьей версии PCI Express всей линейкой новых графических решений Southern Islands, выпущенных сегодня и будущих. Эта поддержка была вполне ожидаемой, так как спецификации третьей версии PCI Express окончательно утвердили ещё осенью 2010 года, но аппаратных решений с её поддержкой до сих пор не было, хотя системные платы уже появляются, видеокарты выпущены сегодня, теперь дело за центральными процессорами.

Обновленный интерфейс обладает скоростью передачи 8 гигатранзакций в секунду вместо 5 ГТ/с для версии 2.0, и его пропускная способность ещё раз выросла вдвое (до 32 Гб/с), по сравнению со стандартом PCI Express 2.0. В новой шине применяется другая схема кодирования пересылаемых по шине данных, но совместимость с предыдущими версиями PCI Express была сохранена.

Первые системные платы с поддержкой PCI Express 3.0 были представлены летом 2011, в основном базе чипсета Intel Z68, а в широкой продаже они появились лишь осенью. Вот и видеокарты подоспели, и AMD по скорости выхода новых графических процессоров с поддержкой самых совершенных технологий снова стала впереди планеты всей. Будет ли от PCI-E 3.0 какой-то практический толк - судить слишком рано, но когда такая возможность появится, мы обязательно протестируем все возможные варианты.

Технология AMD PowerTune

Одним из самых интересных нововведений в Cayman была технология расширенного управления питанием PowerTune. Гибкое управление питанием GPU уже давно применялось, но до Radeon HD 6900 все эти технологий были довольно примитивными и в основном программными методами и изменяли частоту и напряжение ступенчато, не умея отключать большие части видеочипов.

Ещё в семействе Radeon HD 5000 появился ограничитель производительности при превышении определённого уровня потребления, а в Radeon HD 6900 система перешла на качественно иной уровень. Для этого в чип включили специальные датчики во все блоки, которые отслеживают параметры загрузки. Графический процессор постоянно измеряет нагрузку и энергопотребление и не позволяет последнему выйти за определённый порог, автоматически регулируя частоту и напряжение, чтобы параметры оставались в рамках указанного теплопакета.

В отличие от ранних технологий управления питанием, PowerTune обеспечивает прямой контроль над энергопотреблением GPU, в отличие от косвенного управления при помощи изменения частот и напряжений. Эта технология помогает установить высокие частоты GPU, получив высокую производительность в играх, и не бояться, что потребление может выйти за безопасные пределы. Ведь большинство игр и обычных приложений, использующих вычисления на GPU, предъявляют значительно менее высокие требования к питанию и не подходят к опасным пределам энергопотребления, в отличие от тестов стабильности, вроде Furmark и OCCT.

Даже самые тяжёлые игры не требуют максимального потребления энергии, и если ограничить потребление частотой, испытывая видеокарты экстремальными тестами, то в случае 3D-игр останется довольно много неиспользованных возможностей по производительности и питанию. В случае, когда видеокарта не достигла предела безопасного уровня потребления, GPU будет работать на выставленной на фабрике частоте, а в тестах FurMark и OCCT, частота GPU понизится, чтобы оставаться в рамках потребления.

Таким образом, PowerTune помогает выставить более высокие фабричные частоты и настроить систему на максимально эффективное использование ресурсов GPU при установленном максимальном уровне потребления. На показанном выше примере, HD 5870 не использует PowerTune и из-за ограничения частоты GPU высоким потреблением в тестах выносливости не использует все свои возможности. В то время как для Radeon HD 7970 установлен максимальный TDP, и видеочип сбрасывает частоты лишь при его превышении, получая максимально возможную производительность в любых приложениях.

Наглядно это показано на следующей диаграмме. В случае игровых приложений достижение TDP возможно при повышении частоты GPU, а для пиковых нагрузок тестами выносливости частота снижается до безопасного уровня энергопотребления. Без PowerTune пришлось бы выбирать - или получить вероятность выхода из строя видеокарты при длительной работе FurMark и OCCT, или урезать потенциально возможную производительность в играх. Новая технология решает эти вопросы максимально эффективно.

AMD PowerTune отличается быстрой отзывчивостью на изменение условий (микросекунды), так как это аппаратная технология. Также её отличает гибкая настройка частот, а не ступенчатая, как это было в предыдущих чипах. Все измерения не зависят от драйвера, но могут быть скорректированы пользователем при помощи настроек видеокарты.

Отличия PowerTune от общепринятого ранее подхода в том, что в других случаях используется защита от перегрева (thermal throttling), которая переводит графический процессор в режим значительно пониженного потребления, а PowerTune просто плавно снижает его частоту, приводя потребление GPU к установленному ограничителю. При этом достигаются более высокие тактовые частоты и производительность.

Технология AMD ZeroCore

Компания AMD не ограничилась применением уже известной по предыдущим решениям технологии управления питанием. В первых чипах семейства Southern Islands она представляет технологию AMD ZeroCore, которая помогает добиться ещё большей энергетической эффективности в режиме «глубокого простоя» (или «сна») с отключенным устройством отображения, который поддерживается всеми операционными системами.

Ведь практически любая система, даже игровая, большую часть времени проводит в режиме низкой нагрузки на графический процессор. И видеокарта не должна потреблять много энергии в таком режиме. И уж тем более не говоря о режиме с отключенным монитором - в этом случае GPU желательно вовсе отключить. Так в AMD и сделали. Благодаря ZeroCore, в состоянии глубокого простоя новый GPU потребляет менее 5% энергии полноценного режима, отключая большинство функциональных блоков в этом режиме.

AMD приводит схематическое сравнение со своей же Radeon HD 5870, которая поддержкой такой технологии не обладала. ZeroCore - эксклюзивное нововведение Southern Islands, пришедшее в настольные решения из мобильных GPU, предназначенных для ноутбуков. Кстати, преимущества этой технологии связаны не только со снижением потребления. Кроме этого, в режиме длительного простоя при отключении дисплея видеокарта ещё и полностью выключает вентилятор на кулере видеокарты!

Это именно то, чего давно ждали многие пользователи. Самое интересное, что по нашим данным, лабораторные испытания подобных PowerTune и ZeroCore решений проходили ещё несколько поколений видеокарт назад. Некоторые из инженерных сэмплов видеокарт давно ушедших с рынка серий компании AMD именно так и работали, полностью отключая кулер в простое.

Но не только пользователи систем с одной видеокартой получат бонус от снижения шума и потребления энергии с новыми видеокартами AMD с поддержкой ZeroCore. Аналогичные улучшения ожидают и счастливых владельцев CrossFire систем на базе двух, трёх и даже четырёх GPU. Логично ведь, что в режиме отрисовки двухмерного интерфейса операционной системы все видеокарты, кроме главной, не должны бы работать вовсе? Но ведь сейчас они работают именно так!

В случае же CrossFire систем на видеокартах с поддержкой ZeroCore в 2D-режиме все вторичные видеокарты погружены в глубокий сон с минимальным потреблением энергии и отключенным кулером. Такой режим работает и для нескольких одночиповых видеокарт и для двухчиповых решений. Кроме того, первичная видеокарта CrossFire также будет переходить в такой режим в случае длительного простоя, настроенного в Windows. Наглядно разница в работе выглядит так:

Кстати, технология не так проста, как может показаться. Инженерам AMD пришлось решить массу вопросов, связанных с работой операционной системы в режиме простоя. Например, они выяснили, что Windows пытается обновлять информацию на экране даже при отключенном мониторе. Что, естественно, не позволяет отключить GPU вовсе. Поэтому программистам компании пришлось пойти обходным путём, игнорируя все команды отрисовки экрана при отключенном мониторе в режиме сна.

Технология AMD Eyefinity 2.0

Естественно, что в новой архитектуре нашлось место и для улучшений проверенной технологии вывода изображения на несколько мониторов - AMD Eyefinity, теперь в версии 2.0. Она получила новые возможности, большие разрешения, поддержку большего количества дисплеев и расширение гибкости.

Эта технология довольно интересна, хотя крайне малое количество пользователей найдёт в комнате место и наберётся смелости перед семьёй для установки более чем двух мониторов. Но лучше иметь возможность, чтобы всегда смочь ей воспользоваться, чем не иметь её вовсе. Тем более, что цены на мониторы больших диагоналей почти не снижаются, а вот решения среднего уровня постоянно дешевеют.

И действительно, сейчас выгодне купить три монитора с диагональю экрана в 24″, чем один 30-дюймовый. AMD приводит именно такой пример, когда 30″ монитор с разрешением 2560×1600 стоит более $1000, а три 24″ FullHD можно купить за половину этой цены:

Но как тратить свои деньги и пространство в комнате - это личное дело каждого пользователя. Главное, что такая возможность есть. Плюс к этому, Eyefinity 2.0 теперь поддерживает вывод изображения и в стереорежиме HD3D - то, чего не хватало в предыдущих решениях, которые по этому параметру уступали конкурирующим. Объединившая технологии AMD Eyefinity и HD3D видеокарта Radeon HD 7970 является первым одночиповым решением с поддержкой трёх мониторов, работающих в стереорежиме.

Для стереорендеринга в высоком разрешении нужен очень быстрый интерфейс передачи данных. И с предыдущими версиями HDMI выходов, возможности были ограничены 24 Гц на каждый глаз, что вполне достаточно для просмотра кино на Blu-ray 3D, но для любителей игр явно слишком мало.

Для таких задач стали применять формат frame packing, когда кадры для левого и правого глаза объединяются в один, и AMD Radeon HD 7970 поддерживает формат HDMI 1.4a frame packing для вывода стереокартинки. Это первая видеокарта с поддержкой 3-гигагерцового HDMI с frame packing, когда на каждый глаз приходится FullHD картинка с частотой 60 Гц (120 Гц в итоге):

Ещё одной любопытной новинкой нам кажется технология многоканального вывода звука Discrete Digital Multi-Point Audio (DDMA), работающая вместе с Eyefinity. Все предыдущие GPU способны выводить по HDMI и DisplayPort лишь по одному аудиопотоку. То есть, даже если к ПК подключены по HDMI три монитора, находящиеся в разных комнатах, то звуковой канал передаётся лишь один. А вот AMD Radeon HD 7900 получил поддержку одновременного вывода сразу нескольких независимых аудиоканалов, что вполне может пригодиться в некоторых мультимониторных конфигурациях.

Эта же возможность будет весьма полезной для применения в сфере видеоконференций с выводом нескольких собеседников на отдельные экраны, а также многозадачного применения вроде игры на трёх мониторах с игровым аудиосопровождением и просмотром новостей на отдельном экране с независимым звуковым потоком. Ранее для всего этого приходилось применять несколько отдельных аудиосистем, а теперь всё работает максимально удобно.

Не забыта и программная поддержка Eyefinity, почти каждый месяц технология обновляется - появляются новые возможности. Так, ещё в октябре появилась поддержка разрешений вплоть до 16384×16384 и новые мультимониторные конфигурации: горизонтальные и вертикальные 5×1, а также на основе шести мониторов в режиме 3×2.

В декабрьском обновлении видеодрайвера AMD Catalyst стала возможной совместная работа Eyefinity и HD3D, а в феврале обещают поддержку пользовательских разрешений, настройки размещения панели задач и улучшения управления наборами настроек.

Вывод изображения на шесть мониторов может быть осуществлён при помощи двух портов DisplayPort 1.2 и двух концентраторов MST (о которых мы писали ранее), а три или даже четыре монитора потребуют лишь одного порта и соответствующего концентратора. Такие концентраторы позволяют гибко конфигурировать систему вывода изображения, они поддерживают до четырёх FullHD-устройств на один разъём DisplayPort 1.2 и должны появиться в продаже к лету 2012 года.

К слову о разрешении. Высоком разрешении или даже ультравысоком - Ultra High Resolution. Нынешние устройства с разрешением 4000 пикселей по большей стороне требуют подключения при помощи сразу нескольких кабелей: двух DP 1.1 или четырёх DVI. Мониторы такого разрешения следующего поколения будут подключаться лишь по одному кабелю: DP 1.2 HBR2 или HDMI 1.4a 3 ГГц. И новая видеокарта компании AMD уже готова к таким мониторам, снова она стала первой в мире.

Кодирование и декодирование видеоданных

Вполне естественно, что в состав AMD Radeon HD 7970 включён всё тот же блок UVD для декодирования видеоданных, появившийся ещё в предыдущем поколении видеочипов компании. Он просто не нуждается в доработках, поддерживая многопоточный кодек MVC, декодирование форматов MPEG-2/MPEG-4 (DivX), VC-1 и H.264, а также декодирование двух FullHD-потоков во всех поддерживаемых форматах.

Решения AMD обеспечивают максимальное качество декодирования видеопотока, используют несколько десятков специальных алгоритмов улучшения качества и обеспечивают максимальный результат в тестах качества вроде HQV. Среди поддерживаемых особенностей отметим: регулировку цвета и тона, шумоподавление, повышение резкости, качественное масштабирование, динамическую контрастность, продвинутый деинтерлейсинг, а также inverse telecine. Вот пример улучшения контрастности на лету:

Но с декодированием у всех видеочипов давно всё более-менее в порядке. Все новые GPU обеспечивают приличное качество и производительность при просмотре видеоданных. А вот кодирование видео на GPU всё ещё пребывает в зачаточной стадии и основные претензии пользователей направлены на низкое качество получаемой сжатой картинки.

Возможно, новая серия Radeon HD 7000 сможет помочь и в этом, ведь все графические процессоры серии имеют в своём составе блок кодирования видео Video Codec Engine (VCE). Модель Radeon HD 7970 стала первой видеокартой с поддержкой аппаратно ускоренного кодирования и сжатия видео при помощи специализированного блока (ранее в кодировании принимали участие потоковые процессоры).

Качество и производительность должно быть явно лучше, чем раньше, поддерживается кодирование в формат 1080p при 60 кадрах в секунду, причём даже быстрее, чем в реальном времени. Про качество сказать без тестов что-то сложно, но нам обещаны разные уровни оптимизации кодера для видеоданных и игр, а также изменяемое качество сжатия (возможность выбирать между повышением качества или производительности).

Пока что опробовать VCE негде - приложений с его поддержкой просто нет, но компания AMD работает с партнёрами, такими как ArcSoft, для обеспечения поддержки VCE в соответствующих программных продуктах. В будущем планируется выпуск программной библиотеки для ускорения кодирования видеоданных, которая облегчит задачу разработчиков по поддержке продукции AMD нового поколения.

Кодирование может производиться в двух режимах: полное и гибридное (с использованием возможностей потоковых процессоров GPU). Полный режим разработан для задач, которые требуют максимальной энергоэффективности и постоянного уровня производительности. Кодирование в полном режиме на VCE быстрее реального времени и обеспечивает низкие задержки. Но есть и гибридный режим:

В таком режиме вместе с VCE работают и математические блоки GPU. Все хорошо распараллеливающиеся стадии, которые обведены жёлтой линией на схеме, могут использовать мощь вычислительных блоков GCN, а выделенный блок VCE занимается эффективным аппаратным энтропийным кодированием. Такой режим хорошо подходит для видеокарт с большой математической мощью, вроде Radeon HD 7970. Остаются вопрос к качеству этих двух режимов, но это требует тщательного анализа в отдельном материале.

AMD Steady Video

Кроме кодирования и декодирования видеоданных, есть и ещё одна область применения мощи новой графики от компании AMD - улучшение видеороликов плохого качества, снятых с рук, без использования штатива и других аналогичных средств стабилизации изображения. Технология стабилизации видео называется AMD Steady Video, и уже выпущена её вторая версия.

Алгоритм работы программного стабилизатора довольно прост: на основе видеопотока собирается статистика о движении камеры (сдвиг, вращение, приближение) и это движение компенсируется в текущем кадре, относительно предыдущих - изображение сдвигается, поворачивается и масштабируется так, чтобы картинка сильно не прыгала и оставалась стабильной.

Насколько это просто на словах, настолько же сложно в реализации. Просто потому, что пикселей на экране два миллиона, а кадров в секунду до 30 или даже 60. Представьте, сколько вычислений нужно проделать, чтобы отследить все возможные смещения кадра. Мы уже писали выше о функции QSAD, применяемой в видеообработке, как раз она используется и в Steady Video 2.0 для ускорения алгоритма определения движения. Так вот GPU должен обрабатывать случайные сдвиги с амплитудой до 32 пикселей в любом направлении и для этого требуется производительность, соответствующая более чем 500 млрд. операций SAD в секунду (для 1920×1080 при 60 FPS).

За счёт поддержки новых инструкций QSAD в представленном сегодня Radeon HD 7970, его преимущество над мощными CPU в алгоритме motion detection превышает 10x! То есть, качественное видео нам теперь будет обеспечено, причём не только при обработке домашних роликов в видеоредакторах, но и просмотре чужих онлайновых видеороликов, снятых неизвестно чем и неизвестно как. Ну хотя бы трястись всё теперь так не будет…

Программная поддержка

Читатели давно нас спрашивают - когда ж польза от неграфических вычислений на GPU наконец-то достигнет обычных пользователей? Ведь кодированием видео занимаются далеко не все, а вот со сжатием и архивированием любых типов данных сталкивается практически каждый и довольно часто. Что же, у нас есть хорошая новость не только для энтузиастов 3D-графики, но и для нормальных людей - поддержка чипов AMD Fusion и Radeon появилась в широко известном архиваторе WinZip 16.5.

Это приложение известно давно и хотя лучшие его годы позади и уже придуманы более мощные методы сжатия, формат ZIP остаётся одним из наиболее распространённых и быстрых для архивации и сжатия различных типов данных. И теперь он станет ещё быстрее!

Работая в сотрудничестве с AMD, разработчики WinZip смогли ускорить движок этого пакета, используя возможности GPU при помощи OpenCL. Естественно, на GPU пока что ускоряется не всё, но сжатие в формат Deflate (комбинация алгоритмов LZ77 и Хаффмана), декомпрессия Inflate и AES-шифрование получат преимущества от исполнения на потоковых процессорах GPU. Интересно, что OpenCL позволяет даже распределять нагрузку между CPU и GPU, используя оба устройства.

Но топовые видеокарты вроде Radeon HD 7970 предназначены скорее для игровых приложений. Самых современных и работающих на максимальных настройках. Команда программистов AMD находится в постоянном контакте с множеством игровых разработчиков, помогая им внедрять современные технологии, поддерживаемые графическими процессорами компании. AMD всегда поддерживала игровую ПК индустрию, так как они напрямую заинтересованы в её процветании. Так, в 2010 году на игры было потрачено 16,2 миллиарда долларов, а на игровое аппаратное обеспечение для ПК покупатели потратили $16,6 млрд (по оценкам аналитиков, в текущем году цифра вырастет до $22 млрд.). Понятно, что AMD хочет получить часть этих денег.

В наступающем году ожидается большое количество интересных игр, которые выйдут на ПК. Среди таких проектов, к созданию которых AMD приложила руку и которые выйдут в первом полугодии, можно отметить: Blacklight: Retribution, Syndicate, Sniper Elite 2, Max Payne 3, Hitman: Absolution и другие. Но ждать следующего года не обязательно, совсем недавно вышло первое дополнение популярнейшей игры - Battlefield 3: Back to Karkand. Движок там используется всё тот же Frostbite 2, но дополнение Back to Karkand отличается улучшенной разрушаемостью уровней и включает четыре переработанные многопользовательские карты из Battlefield 2, новые транспортные средства, оружие и др. Скриншоты смотрятся просто замечательно:

Чтобы статья была максимально полной, упомянем и основное нововведение AMD Catalyst 12.1 - пользовательские профили для 3D-приложений, позволяющие изменять базовые настройки качества и установки CrossFire отдельно для каждой программы (наконец-то AMD догнала конкурентов):

Ну и чтобы дать закипающим мозгам наших читателей отдых от столь скурпулёзного описания возможностей нового продукта компании AMD, мы наконец-то покажем что-то развлекательное - скриншот из демонстрационной программы, сделанной компанией к анонсу первых решений из семейства Southern Islands. Демка называется «Leo» и показывает забавную сказочную сценку с применением современных графических технологий:

После того, как мы познакомились с теоретическими аспектами новой архитектуры, а также характеристиками и функциональными возможностями Radeon HD 7970, самое время обратиться к практике. Следующая часть материала посвящена практическому исследованию скорости рендеринга новой видеокарты AMD в чисто синтетических тестах. В ней мы определим, как производительность первого решения семейства Southern Islands соотносится со скоростью предыдущих решений компании AMD, а также конкурирующих видеокарт компании Nvidia из верхнего ценового диапазона.

AMD Radeon HD 7970 - Часть 2: видеоплата и синтетические тесты →

Трудности с освоением нового 28-нм техпроцесса немного сбавили темпы гонки между AMD и NVIDIA. Год назад были представлены флагманы прошлого поколения, и после довольно длительного периода доминирования AMD на рынке графических ускорителей их конкурент, наконец-то, смог уверенно потеснить «красных», выпустив GeForce GTX 580 . И этот акселератор всерьез и надолго занял место лидера среди однопроцессорных решений. Но так было до недавнего момента. С анонсом Radeon HD 7970 компания AMD снова вырывается вперед — новый техпроцесс и новый уровень производительности дают шанс вернуть обратно пальму первенства.

Архитектура GCN и графический процессор Tahiti

Последние несколько лет архитектура графических процессоров AMD серьезно не менялась. Но прогресс диктует свои условия. Функциональность и сфера применения графических процессоров расширяются. Все более актуальными становятся неграфические вычисления, и технология GPGPU становится все более востребованной. Лидером в этой области является NVIDIA, которая всячески популяризовала свою платформу CUDA и с недавнего времени даже открыла доступ к исходному коду компилятора. Архитектура GeForce уже давно идет по пути унификации. И вслед за конкурентом, AMD переходит от VLIW к более гибкой и универсальной архитектуре под названием Graphics Core Next (GCN). Старая архитектура в первую очередь была ориентирована на графические расчеты, новая — на смешанные гетерогенные вычисления для одновременной обработки совместно с CPU. И это является одной из ступенек для дальнейшего развития гибридных процессоров Fusion.

В основе старой архитектуры лежали блоки SIMD Engine по 16 потоковых процессоров, которые выполняли одну VLIW-инструкцию над разными блоками данных. При неграфических вычислениях основной проблемой была полная загрузка SIMD-блока. Новая архитектура построена на более универсальных блоках GCN Compute Unit (CU), которые могут гибко распределять нагрузку.


Каждый CU разбит на четыре векторных модуля по 16 ALU и имеет свой скалярный блок для контроля и управления потоками, а также выполнения отдельных операций, не являющихся частью основного массива обрабатываемых данных. У CU имеется локальная память объемом 64 КБ, кэш L1 на 16 КБ и свои блоки выборки и фильтрации текстур. Наличие внутреннего планировщика у такого GCN-блока позволяет им обрабатывать разные потоки и легко переключаться на другие задачи, обходясь без единого внешнего планировщика.

У каждых четырех модулей CU имеется общее хранилище 32 КБ для данных и кэш 16 КБ для инструкций. Общий объем кэша второго уровня в два раза выше, чем у Cayman, и достигает 768 КБ. Пропускная способность шин кэша L1 и L2 позволяет передавать 64 байта за такт. Общая пропускная способность для кэш-памяти первого уровня достигает 2 ТБ/с, для второго — 700 ГБ/с, что в два раза больше возможностей старого Cayman.


Radeon предыдущих серий сильно уступали конкурентам из линейки GeForce при работе с тесселяцией. Поэтому значительному улучшению подверглись блоки обработки геометрии. Их по-прежнему два. Но производительность блока тесселяции значительно повысилась, а сам он получил принадлежность аж к 9 поколению. В определенных режимах обещано ускорение производительности при тесселяции до четырех раз. Но это в синтетике, в реальных играх разница будет значительно меньше. AMD говорит о приросте от 50 до 130% в сравнении с Radeon HD 6900 , что тоже немало.


В неграфических задачах прирост обещают не менее внушительный — от 1,4 до 4 раз в определенных расчетах и задачах.

Появилась поддержка алгоритма Ptex (Per-face texture mapping), который упрощает тесселяцию некоторых объектов. Вместо совмещения целой текстуры с моделью на каждый полигон накладывается отдельная текстура. А технология Partially Resident Textures позволит использовать видеопамять как кэш, в который по мере надобности будут подгружаться текстуры.

Новое поколение графических процессоров AMD совместимо с DirectX 11.1. К числу нововведений также относится поддержка API DirectCompute 11.1, OpenCL 1.2 и C++ AMP.

На базе новой архитектуры планируется в начале следующего года выпустить три линейки видеокарт. Флагманский GPU под кодовым именем Tahiti даст жизнь картам серии Radeon HD 7900, на базе Pitcairn увидят свет Radeon HD 7800, а Verde придет в средний класс с продуктами линейки Radeon HD 7700.

Блок-схема топового Tahiti приведена ниже.


Этот графический процессор включает 32 GCN Compute Unit, каждый из которых насчитывает 64 ALU. А всего получается 2048 штук, что на треть больше, чем у Cayman. Общее количество текстурных блоков достигает 128 штук (96 у предшественника). Не выросло лишь число ROP — их по-прежнему 32. Шесть 64-битных контроллеров обеспечивают связь с памятью по 384-битной шине — прямо как у топового GeForce GTX 580 от NVIDIA. В таком полнофункциональном варианте выпускается Radeon HD 7970. У его младшего брата в лице Radeon HD 7950 часть GCN-блоков будет отключена. GPU у старшей карты работает на 925 МГц, что лишь на 45 МГц выше частоты графического процессора Radeon HD 6970. Память GDDR5 функционирует на 5500 МГц. И тут вообще никакой разницы с предшественником. Правда, у последнего шина 256 бит, так что его пропускная способность памяти заметно ниже. Объем видеобуфера вырос с двух гигабайт до трех.
Видеоадаптер Radeon HD 7970 Radeon HD 6970 Radeon HD 5870
Ядро Tahiti Cayman Cypress
Архитектура GNC VLIW4 VLIW5
4312 2640 2154
Техпроцесс, нм 28 40 40
Площадь ядра, кв. мм 365 389 334
2048 1536 1600
Количество текстурных блоков 128 96 82
Количество блоков рендеринга 32 32 32
Частота ядра, МГц 925 880 850
Шина памяти, бит 384 256 256
Тип памяти GDDR5 GDDR5 GDDR5
Частота памяти, МГц 5500 5500 4800
Объём памяти, МБ 3072 2048 1024
11.1 11 11
Интерфейс PCI-E 3.0 PCI-E 2.1 PCI-E 2.1
Заявленная потребляемая мощность в простое, Вт 3 20 27
250 250 188

Из-за кардинально переработанной архитектурой новый GPU стал намного сложнее и более громоздким. В итоге он даже обогнал GF110 по количеству транзисторов. Но благодаря более тонкому техпроцессу кристалл Tahiti по размерам не больше Cayman, и даже чуть меньше. Максимальный уровень энергопотребления тоже не вырос. И достигнуть этого помог не только новый технологический процесс производства, но и усовершенствованная технология AMD PowerTune. Процессор обладает еще более гибкой системой управления напряжениями и отключает функциональные блоки при простое видеокарты. По показателям энергопотребления в простое Radeon HD 7970 просто рекордсмен — всего 3 Вт! Технология PowerTune контролирует уровень TDP, регулируя рабочие частоты так, чтобы не превысит лимит. Сверхбыстрое реагирование возможно благодаря датчикам, отслеживающим загрузку всех блоков. Конечно, в реальных играх снижаться частоты не будут, а вот в Furmark такое возможно. Нельзя не вспомнить, что подобного рода «защита» от программ стресс-тестирования реализована и в последних видеокартах GeForce. PowerTune — технология аппаратная, но пользователь может корректировать максимальный уровень мощности с помощью соответствующего параметра в Catalyst Control Center.

В режиме длительного простоя при отключенном дисплее карта может полностью выключить вентилятор. Если в системе несколько видеокарт Radeon, которые объединены в CrossFireX, то в простом 2D-режиме простаивающие карты переводятся в самый экономичный режим и отключают вентилятор.


Radeon HD 7970 и все последующие графические решения AMD обрели поддержку высокопроизводительной шины PCI Express 3.0. Хотя сомнительно, что для игровой карты даже такого уровня нужна быстрая шина. А вот для неграфических расчетов это будет более актуальным. Сохранена аппаратная совместимость со старыми стандартами PCI-E, так что никаких проблем с использованием новых видеоадаптеров на относительно старых системных платах быть не должно.

Получила развитие и технология AMD Eyefinity. Вместе с индексом 2.0 появилась поддержка HD3D для мультимониторных конфигураций. Radeon HD 7970 — первая карта AMD, которая позволяет выводить стереоизображение на три монитора. Специально для этого режима она обзавелась поддержкой интерфейса HDMI 1.4a frame packing, который (в отличие от простого HDMI 1.4a) позволяет передавать картинку в Full HD с частотой 60 Гц на глаз. Добавилась поддержка новых разрешений и конфигураций. Как и ранее, подключить к карте можно шесть мониторов. С помощью специального хаба к одному интерфейсу Display Port 1.2 возможно подключить три устройства. Правда, такие хабы появятся в продаже значительно позже.

Блок UVD в GPU Tahiti обеспечивает аппаратное декодирование данных в форматах MPEG-2/MPEG-4 (DivX), VC-1 и H.264. Для аппаратного кодирования видео появился специальный блок VCE, который может работать как совместно с потоковыми процессорами, так и сам обрабатывать видео. Новая технология AMD Steady Video позволит улучшить видео плохого качества и убрать дрожание камеры.

В числе уникальных достоинств Radeon HD 7970 — поддержка Ultra High Resolution. Тут новинка снова в роли первопроходца, хотя эра UHDTV пока еще кажется очень далекой.

Новичок по своим размерам не отличается от референсных Radeon HD 6950/6970.


Представители шеститысячной серии Radeon не отличались изысканным дизайном. Своими строгими угловатыми формами они напоминали кирпич. У Radeon HD 7970 более оригинальный внешний вид — черный округлый кожух с красными вставками.


Смотрится очень симпатично. Глянцевая поверхность пластикового кожуха придает лоска.


Сбоку расположены два разъема питания — один на шесть контактов, второй на восемь. AMD решила продолжить традицию использования двойного BIOS, которая взяла начало с Radeon HD 6950/6970. И возле пары разъемов CrossFire имеется соответствующий переключатель. Это весьма удобно для экспериментов с разгоном. Тем более, что одна микросхема недоступна для перепрошивки, и в случае какого-то сбоя всегда можно вернуться к рабочей конфигурации.

Обратная сторона платы уже не закрыта цельной пластиной.


Набор разъемов на задней панели включает пару Display Port 1.2, один HDMI 1.4a и привычный DVI.


За охлаждение видеокарты отвечает «турбина» стандартной конструкции. Это почти полная копия кулера Radeon HD 6970 .


Массивная испарительная камера с рядом алюминиевых пластин. Основание кулера — большая алюминиевая пластина, которая отводит тепло от микросхем памяти и силовых элементов. Вентилятор стал чуть больше, диаметр его увеличился на 5 мм, да и сами лопасти более широкие. Так что эффективность системы охлаждения по сравнению с предшественником тоже должна немного улучшиться.


Оценить размеры радиатора можно по нижней фотографии, где видеокарта изображена без пластикового кожуха. Длина платы 27 сантиметров.


Дизайн самой платы напоминает Radeon HD 6970 второй ревизии с шестифазной схемой питания графического процессора. Только используются другие компоненты.


Впервые на референсном решении мы видим «мосфеты» в корпусе DirectFET, которые обладают самыми лучшими характеристиками в сравнении с другими полевыми транзисторами. Решение более дорогое, но и более надежное. И до появления Radeon HD 7970 такие компоненты использовались только MSI в своих топовых видеокартах оверклокерской серии Lighting .


Системой питания управляет контроллер CHiL CHL8228G. Точно такой же использовался у Cayman. Так что после обновления MSI Afterburner можно рассчитывать на полноценную поддержку софтвольтмода.


Вокруг кристалла GPU имеется большая рамка, которая надежно защищает его от сколов. Хотя и сама конструкция кулера исключает любую возможность его перекоса. На процессоре нет никакой маркировки. Все данные нанесены на рамку.


Три гигабайта видеопамяти набраны 12 микросхемами Hynix H5GQ2H24MFR R0C, которые рассчитаны на частоту 6 ГГц.

Последняя версия GPU-Z правильно определяет все параметры видеокарты. Графический процессор работает на 925 МГц, память — на 5500 МГц.


Отслеживать температуру ядра можно с помощью GPU-Z или beta-версий MSI Afterburner 2.2.0. Последняя утилита не позволяет корректно менять частоты, но регулирует обороты вентилятора и поддерживает все функции мониторинга.


Нагрузив видеокарту демо Ambush из Crysis Warhead Benchmarking Tool (на максимальных настройках качества изображения в разрешении 1920x1080 при AA8x) мы сумели прогреть GPU всего лишь до 75 °C в открытом корпусе при 24 градусах в помещении. И при такой умеренной температуре вентилятор раскручивался только до 2200 об/мин, так что уровень шума был невысокий. Отличный результат! Ведь за последние несколько лет пользователи привыкли к тому, что старшие графические ускорители горячие или громкие, а то сразу и те и другие одновременно.

Конечно, Crysis уже не сможет прогреть такую видеокарту по полной. Но даже после часа тестов в DirectX 11 температура не поднялась выше 76 °C. Все вроде отлично, и ничто не греется, однако в какой-то момент Radeon HD 7970 начал «радовать» нас сверхнизкими результатами и артефактами в играх. Все решилось довольно просто. После того, как карта остыла, мы загрузились и сразу же подняли обороты в MSI Afterburner до 60%. Это позволило нормально пройти все тесты заново. Причина такого поведения видеокарты не совсем ясна. Возможно, дело в «сыром» BIOS или программном обеспечении, из-за чего некорректно сработала система PowerTune, переводя карту в более медленный режим. Но это один из первых инженерных образцов видеокарты, первый BIOS и первый видеодрайвер. До официального старта продаж еще полторы недели и этого более чем достаточно для устранения каких-то огрехов в программном обеспечении. Так что потенциальным покупателям новинок бояться ничего не стоит.

Что же касается разгона, то пока весь инструментарий для этих целей ограничен возможностями Catalyst Control Center. Хотя ограничения там не такие уж и маленькие. AMD Overdrive позволяет поднимать частоту ядра до 1125 МГц, а памяти до 6300 МГц. Такой «запас» намекает на то, что 1 ГГц Tahiti должен взять с полпинка.


Так это или нет, мы выясним в следующей части статьи. В данном обзоре сосредоточимся на производительности нового Radeon в номинальном режиме.
Характеристики видеокарт

В наше тестирование мы включили такие видеокарты:

  • Radeon HD 6970 (ASUS EAH6970 DCII/2DI4S/2GD5);
  • Radeon HD 6990 (PowerColor AX6990 4GBD5-M4D);
  • GeForce GTX 580 (Zotac GeForce GTX 580 AMP! Edition на пониженных до стандарта частотах).
Видеокарта ASUS идет с заводским разгоном 10 МГц по ядру. Но это настолько мизерная разница со стандартной частотой, что для тестов мы не стали ее снижать до 880 МГц.
Видеоадаптер Radeon HD 6990 Radeon HD 7970 ASUS Radeon HD 6970 GeForce GTX 580
Ядро Antilles Tahiti Cayman XT GF110
Количество транзисторов, млн. шт 2640x2 4312 2640 3000
Техпроцесс, нм 40 28 40 40
Площадь ядра, кв. мм 389x2 365 389 520
Количество потоковых процессоров 1536x2 2048 1536 512
Количество текстурных блоков 96x2 128 96 64
Количество блоков рендеринга 32x2 32 32 48
Частота ядра, МГц 800 (880*) 925 880 772
Частота шейдерного домена, МГц 800 (880*) 925 880 1544
Шина памяти, бит 256x2 384 256 384
Тип памяти GDDR5 GDDR5 GDDR5 GDDR5
Частота памяти, МГц 5000 5500 5500 4008
Объём памяти, МБ 2048x2 3072 2048 1536
Поддерживаемая версия DirectX 11 11.1 11 11
Интерфейс PCI-E 2.1 PCI-E 3.0 PCI-E 2.1 PCI-E 2.0
Заявленная максимальная потребляемая мощность, Вт 350—375 250 250—190 244

Тестовый стенд

Конфигурация тестового стенда следующая:

  • процессор: Core i7-975 EE (3,2@4,15 ГГц, BCLK 173 МГц);
  • кулер: Thermalright Venomous X;
  • материнская плата: Gigabyte GA-X58A-UD3R (Intel X58 Express);
  • память: G.Skill F3-12800CL8T-6GBRM (3x2GB, DDR3-1600@1730 МГц, 8-8-8-24-1T);
  • жесткий диск: Hitachi HDS721010CLA332 (1 ТБ, SATA2, 7200 об/мин);
  • блок питания: FSP FX700-GLN (700 Вт);
  • операционная система: Windows 7 Ultimate x64;
  • драйвер Radeon: ATI Catalyst 11.12;
  • драйвер GeForce: NVIDIA GeForce 285.62.
В операционной системе были отключены User Account Control, Superfetch, Windows Defender и визуальные эффекты интерфейса. Настройки драйверов стандартные, без изменений.

Результаты тестирования




В 3DMark 11 новый Radeon обходит предшественника на 41—45% и не дотягивает до двухчипового видеоадаптера 27—31%. GeForce GTX 580 проигрывает новичку где-то 26—29%.


Два пятикратных прогона Ambush из Crysis Warhead Benchmarking Tool. Настройки графики максимальные (Enthusiast), сглаживание AA8x.


В данной игре преимущество Radeon HD 7970 над однопроцессорными моделями намного скромнее. В этот раз ему даже не удается обогнать GeForce GTX 580 по минимальному fps. Да и по среднему показателю разница между ними небольшая — всего 10,7% в пользу новинки AMD.


Карты протестированы в «ручном» режиме при помощи Fraps. Для теста выбран небольшой эпизод на первом уровне. Прогулка по скверику с расстрелом камней и водной поверхности. Три повтора для каждого режима. Настройки графики максимальные с включенными улучшенными текстурами в разрешении 1920x1080.


В Crysis 2 Radeon HD 7970 выглядит намного лучше. Отрыв от Radeon HD 6970 достигает 50% по среднему fps. GeForce GTX 580 отстает на 24%. Очень маленькая разница с двухчиповым Radeon HD 6990, а по минимальному fps этот двуглавый титан даже хуже. Дело в большом разбросе по минимальному fps. И хотя мы дополнительно увеличили число прогонов до 6, но все равно получали на этой карте от 16 до 31 fps.


Стандартный игровой бенчмарк Frontline. Три пятикратных прогона. Настройки графики максимальные. Тесселяция и Depth of Field включены.



Отличный результат без сглаживания. А вот с AA4x мощности нового Radeon все равно не хватает. Предшественник слабее на 28—36%, GeForce GTX 580 — на 11—14%.


Частота кадров измерялась с помощью Fraps. Выбрана миссия «Молот и наковальня» (Rock and a hard place). После первой контрольной точки мы спускаемся по склону холма в долину до укреплений врага. Тестовая сценка включала, кроме спуска, начало перестрелки при штурме первого ряда укреплений. Огонь велся по двум точкам из-за укрытия через прицел. С учетом простого спуска общий порядок действий легко повторим, а итоговые результаты не зависят от случайных факторов. Плюс в кадре находится не только большая площадь с детализированными текстурами, но и световые эффекты выстрелов, и парочка взрывов. Это помогает создать максимально адекватную картину реальной производительности, как в сложных насыщенных сценах одиночной кампании, так и в многопользовательских схватках. Три повтора. Настройки в положении Ultra при сглаживании AA4x.


А вот в этой игре GeForce GTX 580 и вовсе наступает на пятки новичку AMD. Между ними разница всего лишь 5%.

Выводы

С выпуском Tahiti начинается новая эра для видеокарт Radeon. Прогрессивная архитектура станет основной для дальнейшего развития графических ускорителей AMD в ближайшие годы. В области неграфических вычислений компания AMD сделала значительный шаг вперед, который позволит не только отвоевать свою долю рынка в этой сфере, но и далее развивать и совершенствовать гибридные процессоры Fusion. Но нас в первую очередь интересует игровая производительность нового Radeon HD 7970. С этим у него тоже все обстоит отлично. Он демонстрирует значительное преимущество над предшественником Radeon HD 6970, которое иногда достигает 30—50%. И недавний одночиповый флагман GeForce GTX 580 тоже сдается под натиском мощного новичка AMD. Разница между ними уже поменьше, иногда и вовсе в несколько кадров. Но, к примеру, результаты в Crysis 2 у Radeon просто отличные. Явно сказывается повышение производительности при обработке тесселяции, что было слабым местом старых видеоадаптеров AMD. Благодаря новому 28-нм техпроцессу столь мощное графическое решение по уровню энергопотребления не превысило аппетитов старшего одночипового ускорителя шеститысячной серии. А конкурент от NVIDIA по этому параметру и вовсе окажется в невыгодном положении. Несмотря на заявленные цифры его реальное энергопотребление значительно выше Radeon HD 6970. Еще Radeon HD 7970 является пока что единственным видеоадаптером с поддержкой DirectX 11.1. Среди своих товарищей он также пока единственный, кто предлагает HD3D с поддержкой нескольких мониторов.

Прогрессивное решение с отличным сочетанием потребительских характеристик. Минус у него один — цена. Рекомендованная стоимость составляет 550 долларов, и это самая дорогая однопроцессорная видеокарта в истории ATI/AMD. Вряд ли цена существенно изменится до тех пор, пока NVIDIA не выпустит свои модели нового поколения. Если лишние деньги жмут вам карман, то можете готовиться к покупке — в январе Radeon HD 7970 уже будут доступны в магазинах. Более экономные энтузиасты могут подождать младший Radeon HD 7950, который тоже обещает выйти очень интересным продуктом.

В данной статье мы обошли стороной разгон. Да и набор тестов был невелик. Но, как понятно из названия — это не последняя наша встреча с Radeon HD 7970. Во второй части обзора вы увидите больше игровых приложений и участников. Конкурентов мы сравним не только на стандартных частотах, но и при разгоне. Посмотрим, сможет ли разогнанный Radeon HD 7970 сравнятся с двухчиповым титаном Radeon HD 6990, и удастся ли GeForce GTX 580 компенсировать свое отставание от новичка благодаря повышению частот.

Оборудование для тестирования было предоставлено следующими компаниями:

  • 1-Инком — память G.Skill F3-12800CL8T-6GBRM;
  • AMD — видеокарта Radeon HD 7970;
  • ASUS — видеокарта EAH6970 DCII/2DI4S/2GD5;
  • DCLink — видеокарта PowerColor HD6990 4GB GDDR5;
  • Gigabyte — материнская плата GA-X58A-UD3R;
  • Intel — процессор Intel Core i7-975 EE;
  • Thermalright — Thermalright Venomous X;
  • Zotac — видеокарта GeForce GTX 580 AMP! Edition.

Слухи о выходе обновлённой видеокарты Radeon HD 7970 , и на Computex 2012 о ней не говорил только ленивый. Конечно, мы имеем в виду Radeon HD 7970 GHz Edition. Между тем AMD выпускает процессоры "Southern Island" по 28-нм техпроцессу на заводах TSMC уже несколько месяцев, и такого срока достаточно, чтобы внести оптимизации в процесс производства и повысить долю выхода годных кристаллов. Тем более что высокая производительность GeForce GTX 680 от NVIDIA заставила AMD искать новую более скоростную версию Radeon HD 7970 для конкуренции. В нашем обзоре мы рассмотрим, насколько достойным оппонентом станет Radeon HD 7970 GHz Edition по сравнению с GeForce GTX 680, какие улучшения по сравнению со стандартной моделью HD 7970 мы получим.

Производители, уже отметившиеся выпуском видеокарт с заводским разгоном, планируют сделать то же самое и с новой Radeon HD 7970 GHz Edition. AMD явно нацелилась на возможность увеличения частот GPU выше планки 1 ГГц при сохранении тех же уровней напряжения, что и у оригинальной модели. Это касается и ручного разгона энтузиастами, и заводского разгона производителями видеокарт. "Старая" модель Radeon HD 7970 будет пока что продаваться, но версию GHz Edition AMD позиционирует на ступень выше по производительности и, соответственно, по цене

Технические спецификации приведены в следующей таблице:


NVIDIA GeForce GTX 680 AMD Radeon HD 7970 AMD Radeon HD 7970 GHz Edition
Розничная цена около 460 евро в Европе
около 18,5 тыс. рублей в России
около 380 евро в Европе
около 17 тыс. рублей в России
499 долларов США
Сайт производителя NVIDIA AMD AMD
Технические спецификации
GPU GK104 (GK104-400-A2) Tahiti XT Tahiti XT2
Техпроцесс 28 нм 28 нм 28 нм
Число транзисторов 3,54 млрд. 4,3 млрд. 4,3 млрд.
Тактовая частота GPU 1006 МГц (Boost: 1058 МГц) 925 МГц 1000 МГц (Boost: 1050 МГц)
Тактовая частота памяти 1502 МГц 1375 МГц 1500 МГц
Тип памяти GDDR5 GDDR5 GDDR5
Объём памяти 2048 Мбайт 3072 Мбайт 3072 Мбайт
Ширина шины памяти 256 бит 384 бит 384 бит
Пропускная способность памяти 192,3 Гбайт/с 264 Гбайт/с 288 Гбайт/с
Версия DirectX 11.1 11.1 11.1
Потоковые процессоры 1536 (1D) 2048 (1D) 2048 (1D)
Текстурные блоки 128 128 128
ROP 32 32 32
Пиксельная скорость заполнения 32,2 Гпиксель/с 29,6 Гпиксель/с 33,6 Гпиксель/с
Минимальное энергопотребление 15 Вт 2,6 Вт 2,6 Вт
Максимальное энергопотребление 195 Вт 250 Вт 250 Вт
SLI/CrossFire SLI CrossFire CrossFire

Архитектурно новая версия GHz Edition не отличается от Radeon HD 7970. AMD опиралась только на оптимизации техпроцесса, возможность работы GPU на меньшем напряжении, что позволило увеличить штатную тактовую частоту GPU с 925 МГц до 1000 МГц. Что интересно, 1000 МГц соответствует базовой частоте, поскольку AMD реализовала режим Boost. Он у видеокарты Radeon HD 7970 GHz Edition будет увеличивать тактовую частоту до 1050 МГц. То есть по сравнению с первоначальной частотой 925 МГц мы получаем разгон на 13,5 процентов.

Приятно и то, что GPU "Tahiti XT2" в режиме бездействия работает всего от 0,807 В. У Radeon HD 7970, напомним, напряжение составляло 0,85 В. Под нагрузкой тактовые частоты увеличиваются до обещанного AMD уровня 1050 МГц, GPU при этом работает от напряжения 1,201 - 1,221 В. "Старый" графический процессор Radeon HD 7970 работал от напряжения 1,139 В.

Механизм Powertune хорошо известен по предыдущим поколениям GPU. Но в случае Radeon HD 7970 GHz Edition технология AMD Powertune даёт прирост тактовой частоты Boost. В дополнение к ранее известному состоянию "High P-State", AMD добавляет ещё P-состояние "Boost P-State". Оно позволяет получить ещё более высокие тактовые частоты, которые стали возможными благодаря динамическому изменению напряжения.

Но, в отличие от NVIDIA, AMD не указывает минимального режима Boost - он фиксирован на уровне 1050 МГц. Кроме того, для работы используется технология, известная по процессорам Trinity. А именно "Digital Temperature Estimation", которая заблаговременно оценивает нагрузку и выставляет тактовые частоты соответствующим образом. На архитектурном уровне чипы Tahiti в двух видеокартах Radeon HD 7970 не отличаются друг от друга. Таким образом, Powertune реализована через VBIOS и драйвер, теоретически технология может работать и на старых видеокартах.

Память тоже была разогнана. Как можно видеть по спецификациям выше, VRAM работает на частотах 1500 МГц, что увеличивает пропускную способность с 264 до 288 Гбайт в секунду. Из-за более широкого интерфейса памяти, AMD смогла в данном отношении ещё сильнее оторваться от NVIDIA.

Теоретическая производительность новинки составляет 4,3 терафлопа с одинарной точностью и 1,08 терафлопа с двойной точностью. NVIDIA недавно анонсировала вычислительный ускоритель Tesla K10 на основе двух GPU GK104, который даёт производительность с одинарной точностью 4,58 терафлопа. Но у GK104 производительность с двойной точностью составляет 1/24 от уровня с одинарной точностью. Подобная ситуация изменится только с чипом GK110 и Tesla K20, когда можно будет ожидать трёхкратный прирост по производительности с двойной точностью. Таким образом, если Tesla M2090 на основе Fermi даёт 665 гигафлопов, то от GK110 можно ожидать производительности 1,5 терафлопа и больше.

Для получения дополнительных деталей об архитектуре "Graphics Core Next" и поколении "Southern Island" мы рекомендуем обратиться к нашему .

Добывать Биткоин и другие криптовалюты с помощью видеокарты – перспективный способ заработка для пользователей, умеющих рискнуть. Спрос на данное оборудование постоянно растет. Опережают предшественников новые высокопроизводительные модели, среди которых на данный момент лидирует мощная видеокарта Radeon HD 7970. Для майнинга – это идеальный вариант. Одночиповая видеокарта от AMD подходит для добычи Bitcoin, Ethereum и ZCach.

Энергоэффективный и с расширенной функциональностью продукт основан на чипе с усовершенствованной архитектурой, который выполняется по 28-нанометровому технологичному процессу. Такая видеокарта однозначно заслуживает похвалы. Она значительно превосходит предыдущие модели. Помимо высокой цены у нее практически нет недостатков.

Майним на видеокарте: плюсы и минусы

Майнеры с опытом предпочитают добывать криптовалюту именно на видеокартах. Сами собирают «железо», комплектуя устройство нужными деталями. Полученная мощность позволяет достичь высокой эффективности майнинга. Прибыль выходит отличной, вложенные средства окупаются быстро. Преимущества добычи криптовалют данным способом очевидны:

  • Пассивный доход. Одна видеокарта или четыре совместно с другими устройствами обеспечивает высокую мощность и производительность.
  • Экономия времени. Качественное оборудование редко дает сбои. Проверка его работоспособности и температуры занимает пару минут.
  • Стабильный доход. Можно майнить не только Биткоин, но и другие криптовалюты.

Если застраховать себя от неприятностей, майнинг на Radeon HD 7970 как и на ее видеокартах-предшественниках принесет одно удовольствие. Для бесперебойной подачи электричества необходимо установить специальные аккумуляторы. Это исключит сбои в работе.

При увеличении оборотов турбины вручную, возникает сильнейший шум. Это существенный минус. Но выход есть – установка в комнате кондиционера. Он заглушит шум, создав комфортную атмосферу.

Особенности видеокарты

Компания AMD для графических решений долгое время использовала архитектуру VLIW. И вплоть до появления видеокарт HD 6000 ничего не изменяла с начала существования Radeon HD 2000. И только с началом истории серии HD 7000 стала применяться архитектура GCN. Разработали ее специально для повышения эффективности вычислений, которые не связаны напрямую с 3D.

На новой микроархитектуре GPU выполняет, например, определенные инструкции уже за 4 такта, а не за 6, как на VLIW. Благодаря этому производительность инновационной видеокарты Radeon HD 7970 для майнинга в разы больше по сравнению с HD 6970 – вычислительные ресурсы GCN более эффективно используются и распределяются.


Кратко о AMD PowerTune и ZeroCore

Еще одно нововведение. Технология, контролирующая энергопотребление графического процессора. Помогает добиться хорошей производительности без опасений, что потребление выйдет за пределы нормы. Похожая технология использовалась и раньше, но в новой видеокарте вышла совсем на другой уровень.

ZeroCore – также нововведение. Данная технология снижает потребление электричества GPU во время простоя. И переводит процессор в «сон», если с ПК на монитор нет поступления сигнала.

PCI Express 3.0

Поддержка 3-го поколения PCI Express, внедренная в новую 7970. Будет полезна при устранении слабых мест в процессе работы со сложными приложениями. Новые технологии CrossFire, AMD HD3D и Eyefinity – их видеокарта также поддерживает (одновременную работу данных технологий).

Среди других особенностей новой видеокарты AMD:

  • Оперативная память – 3 GB
  • Энергопотребление – 250 Вт
  • Увеличена тактовая частота GPU – до 925 МГц
  • Вычислительная мощь – 3,79 TFLOPS (увеличена на 40%)
  • Текстурные блоки – 128 штук (в предшественнике было 96)
  • Скорость текстурирования – 118,4 ГТ/с
  • Количество транзисторов GPU «Tahiti» – 4,31 млрд

Но одно из наиболее значимых нововведений – это изготовление графического процессора «Tahiti» по 28-нанометровому технопроцессу. Что касается памяти, здесь практически ничего не изменили. HD 7970 использует 5500 МГц памяти. Шина – 384 бит. Это увеличило пропускную способность памяти с 176 до 264 ГБ/с.


Потенциал видеокарты 7970

Майнинг Эфира, Биткоина и Зикеш на Radeon 7970 остается актуальным и сегодня. Видеокарта обладает отличной производительностью и прекрасным разгонным потенциалом. Если попробовать ее разогнать, можно достичь впечатляющего результата: частота по ядру – 1160 МГц, а по памяти – 7160 МГц. Но это при управлении турбиной в автоматическом режиме.

Разогнать видеокарту можно еще больше. Для этого понадобится накрутить обороты турбины вручную. Но появившийся шум превзойдет все ожидания. Лучше отдать предпочтение частоте ядра 1160 МГц в целях акустического комфорта.

У пользователей часто возникает вопрос, сгорит ли видеокарта при сильном разгоне? Не сгорит. Нужно только не повышать подаваемое на GPU напряжение. На случай сбоя все частоты сбросятся до первоначальных значений и видеокарта продолжит свою работу.

Майнинг Ethereum

А теперь настала очередь главного момента. Как майнить криптовалюту на видеокарте Radeon, обладающей столь великолепными характеристиками? Производительность модели высокая, разгонный потенциал отличный, а энергопотребление не назовешь слишком большим – всего 250 Вт. Остается только подключить устройство и начать зарабатывать, пополняя с помощью уникальной Радеон HD 7970 ETH криптовалютный кошелек. Майнинг стартует после настройки программы.


Новая видеокарта AMD признана лучшей для майнинга Эфира. Алгоритм Ethereum к памяти крайне требователен. В данной модели она составляет 3GB, хоть достаточно и 2GB. Так что можно смело приступать к добыче перспективной монеты, курс которой не перестает радовать.

Инструкция майнинга Эфира на 7970

Первым делом нужно выбрать пул. В одиночку можно майнить тоже, но это слишком затратно. Достичь хорошего результата поможет объединение с другими участниками. И чем больше пользователей в пуле, тем лучше. Работа данного сервиса простая. Он распределяет задачу расчета между всеми юзерами. Попал один в цель – блок сформировался. Все участники получили вознаграждение в видео криптовалюты. Итак, начинаем добычу эфира (с помощью программы Ethminer):

  1. Входим в пул, заполняем форму и активируем учетную запись через ссылку в письме, которое придет на эл. Почту.
  2. Зайдя в учетку, создаем воркер (воркер – это ключ, подключающий пул и процессор). Для этого нужно выбрать вкладку с такими ключами, придумать логин и пароль, затем нажать “Добавить”.
  3. Настраиваем автоматические выплаты. Указываем цифру (от 0,01 ETH) и данные кошелька.
  4. Выбираем программу. При появлении воркера, переходим на Ethereum-настройки через вкладку “Помощь” и нажимаем на ethereum/tree/master/releases. Появится список программ, который постоянно обновляется. Необходимо скачать архив, находящийся в самом конце.
  5. Переносим данные со скачанного файла на диск C.
  6. Запускаем майнинг Эфира. Предварительно вызываем командную строку и задаем путь к хранилищу и имя в появившейся консоли. Жмем Enter. Дальше вводим вот это: ethminer -G -S coinotron.com:3344 –O. Снова жмем Enter.

Для майнинга Эфира на видеокарте Radeon HD 7970 удобно использовать именно Ethminer. Программ для добычи данной криптовалюты существует несколько, но эта самая простая. Особенно хорошо подходит для неопытных пользователей. Опытные юзеры, конечно же, могут подключаться и через другие пулы.


Одночиповая модель лучше двухчипового аналога?

Было решено протестировать новинку и сравнить ее с другими моделями. Результаты впечатлили. Видеокарта 7970 оказалась самой производительной на сегодняшний день. При том, что она одночиповая.

По разгону новая Radeon – наиболее быстрая видеокарта. Опередила разогнанные двухчиповые аналоги! Со стандартных 925 МГц GPU разогнался до 1160 без повышения напряжения. Это очень хороший показатель. В последнее время видеокарты плохо разгоняются.

Недостатков в данной модели нет. Ну, разве высокая цена. Но она полностью компенсируется хорошим разгонным потенциалом и высокой производительностью. Что касается системы охлаждения, то при ручном увеличении оборотов до 70% и дальше, поднимается сильный шум. Но если видеокарту не трогать, позволив ей функционировать в стандартном режиме, то работает она практически бесшумно.

Внешний вид

Видеокарта Radeon HD 7970 , с помощью которой добыча Ethereum может принести хорошую прибыль, практически не отличается от предшественника 6970. Габариты почти те же: длина – 26,25 см, ширина – 11,25 см. Однако отличия есть.

Видеокарта с лицевой стороны покрыта глянцевым пластиком с вставкой алого цвета посередине. Стильный дизайн выглядит изысканней, чем у предшествующего аналога. С тыльной стороны нет теплорассеивающей пластины, как у Radeon 6970. Есть изменения и в системе охлаждения. Вентилятор идет с лопастями более широкими, чем на предыдущей модели, и массивным рабочим колесом. Другие изменения: на задней планке остался один DVI порт. Теперь горячий воздух будет выходить через расширенную решетку.


Подведем итоги

Новая видеокарта от компании AMD отличается:

  • Высокой производительностью
  • Низким тепловыделением
  • Малым потреблением энергии
  • Инновационными фирменными технологиями
  • Большой оперативной памятью

Все это делает видеокарту HD 7970 лучшим однопроцессорным решением. Новинка во многом превосходит двухпроцессорный HD 6970. Выбирая из этих моделей, лучше отдать предпочтение HD 7970.

Если вы располагаете достаточной суммой денег, и вас интересует отличный разгонный потенциал, приобретайте новую Radeon HD производителя AMD. Это самый производительный однопроцессорный видеоадаптер. Данная модель прекрасно зарекомендовала себя в майнинге криптовалют и используется и по сей день.