GCN再戰開普勒 通用計算能力誰更強?
泡泡網顯卡頻道6月4日 HD7970與GTX680的較量看似已經可以告一段落了,盡管差距不大,但是GTX680的3D游戲性能要勝出HD7970一籌。然而,除了3D游戲性能之外,我們看到的是AMD與NVIDIA這一代GPU架構上翻天覆地的變化,兩者都拋棄了沿用幾代的GPU架構體系設計,創造了全新圖形產品。更有意思的是,兩者的圖形架構與對方前代架構在思路上有很多相似之處,就像是上演了一場大反串。

除了游戲性能之外,GPU架構還會影響到通用計算能力,隨著GPU運算能力的增強以及對其架構特點的深度開發,顯卡不僅可以用于渲染3D畫面,還可以進行計算工作,協助甚至取代CPU進行工作,那么作為GCN與開普勒兩大GPU架構的代表,HD7970與GTX680在通用計算方面誰更具優勢呢?我們將通過測試揭曉答案。
這一代GCN架構的完整版HD7970擁有2048個流處理器,而開普勒架構的完整版GTX680則擁有1536個。兩者的紋理單元、ROP數量一樣,而顯存位寬方面HD7970為384Bit,GTX680則為256Bit,這造成了兩者顯存帶寬上264GB/s與192GB/s之間的差距。

從GPU外圍模塊來看,AMD的Tahiti和上代Cayman相比變化不大,只是強化了曲面細分單元,加入了雙異步計算引擎而已。最大的改變來自于流處理器部分,原有的SIMD引擎不見了,取而代之的是GCN陣列,那SIMD引擎與GCN陣列有什么本質區別呢?
代號為Tahiti的HD7970中,每個GCN陣列里面包括4個SIMD單元,每個SIMD單元內部包括16個1D標量運算單元。這樣的話Cayman的SIMD引擎是16x4=64個流處理器,而Tahiti的GCN陣列是4x16=64個流處理器,總數量雖然沒有變化,但架構上是截然相反的設計——Tahiti相對于Cayman來說革命性的改變就是把4D矢量運算單元改成了1D標量運算單元!
但是,GCN架構與NVIDIA的CUDA架構還是有明顯的區別,那就是GCN里面包括了4個SIMD-16單元,標量流處理器被硬性拆分為4個小組,而NVIDIA的SM則沒有這種設計,所有流處理器都一視同仁。
而NVIDIA方面,則是不停的對GPU的GPC、SM、CUDA核心等配比進行微調,在微調的過程中經歷了兩次突變:第一次是GT200到GF100,首次引出了GPC(圖形處理器集群)的概念,GPC數量減少但SM數以及流處理器數量增加不少;第二次就是現在了,從GF100到GK104,SM數量減少,但流處理器數量暴增!
改變是為了適應形式的變化,解決此前出現的一些問題,那NVIDIA的架構有什么問題呢?此前我們多次提到過,雖然NVIDIA的GPU在效能方面占盡優勢,但也不是完美無缺的——NVIDIA最大的劣勢就是流處理器數量較少,導致理論浮點運算能力較低。當然這只是表面現象,其背后的本質則是MIMD(多指令多數據流)的架構,相當一部分比例的晶體管消耗在了指令發射端和控制邏輯單元上面,所以流處理器數量始終低于對手。
為了保證GPU性能持續增長,NVIDIA必須耗費更多的晶體管、制造出更大的GPU核心,而這些都需要先進的、成熟的半導體制造工藝的支持。NVIDIA之所以在GF100(GTX480)時代落敗,并非架構或者研發端出了什么問題(GF110/GTX580的成功可以證明),而是核心太大導致40nm工藝無法支撐,良率低下漏電流難以控制,最終導致核心不完整且功耗巨大。如此一來,NVIDIA原有的架構嚴重受制于制造工藝,并非可持續發展之路。
為此,NVIDIA將芯片架構逐步轉向了SIMT的模式,即Single Instruction Multiple Threads(單指令多線程),SIMT有別與AMD的SIMD,SIMT的好處就是無需開發者費力把數據湊成合適的矢量長度,并且SIMT允許每個線程有不同的分支。 純粹使用SIMD不能并行的執行有條件跳轉的函數,很顯然條件跳轉會根據輸入數據不同在不同的線程中有不同表現,這個只有利用SIMT才能做到。
SIMT在硬件部分的結構還是要比SIMD復雜一些,NVIDIA還是更注重效率一些,所以NVIDIA的流處理器數量還是要比AMD少,但差距已經沒以前那么夸張了。
測試平臺使用了Intel Core i7 3770K+Z77主板的組合,搭配4GBx2內存、128GB SSD的存儲系統,驅動為Catalyst 12.4及ForceWare 301.42。

這次測試使用了超公版顯卡:HIS HD7970 IceQ X2 Turbo,核心頻率為1050MHz。GTX680則為銘鑫視界風靚彩版,頻率為1111MHz。
DirectCompute & OpenCL Benchmark由波蘭人Patryk開發,是世界上第一款能夠測試DirectCompute性能的軟件,后來也加入了對OpenCL的支持。它不但能夠同時支持CPU、GPU OpenCL,而且如果系統內有多顯卡,還能為按照計算能力為它們分配不同比例的工作負載。


DirectCompute計算中,A卡一直擁有優勢,這一點是N卡無法比擬的,而HD7970在經過架構改變之后,能力更加強大,遠超N卡,領先優勢甚至達到了10倍以上。而OpenCL運算中,GTX680則稍勝一籌,比HD7970快了20%左右。
ComputeMark由捷克硬件和游戲網站CzechGamer.com的Robert Varga開發完成,技術上基于Jan Vlietinck的Fluid3D Demo,號稱是“第一個百分之百的DX11 Compute Shader基準測試工具”,一般情況下能夠調動99%的GPU資源,CPU占用率只有0-1%,因此在考察GPU通用計算性能的同時,也能考驗顯卡的穩定性,對超頻亦有所幫助,另外測試的時候還可以自行選擇運行時間。

在純粹的DX11渲染運算測試中,HD7970性能領先GTX680達到30%左右,而這還是在GTX680頻率擁有優勢的前提之下的結果。可以見HD7970在運算能力方面擁有的優勢。
GPU Caps Viewer是和GPU-Z類似的一款顯卡診斷識別工具,二者在顯卡的檢測識別方面可以說各有千秋。GPU-Z對顯卡的功能規格顯示的非常詳細,而GPU Caps Viewer除了對顯卡的基本規格能夠完全正確識別外,還專門提供一個有關顯卡OPENGL能力檢測測試的界面,用戶可以在此對他們顯卡的OPENGL能力有一個比較全面的了解。 可用于購機時的測試。另外在GPU Caps Viewer還提供了一個不同渲染方式下的顯卡OPENGL能力Demo演示功能,可以讓玩家對自己的顯卡有一部分大致的了解。


由于目前尚不支持GTX680,因此測試暫時沒有辦法對比。
LuxMark是一款OpenCL測試工具,由Jromang最早于2009年發開。基于開放式物理渲染引擎LuxRender,可以支持常規畫圖,支持基于OpenCL模式的GPU加速,可以在AMD和NVIDIA顯卡上完美運行,并支持多級動態模糊。在流行的圖形圖像渲染設計軟件Blender, 3ds Max, Cinema 4D, DAZ Studio, Poser, SketchUp以及Softimage中均有使用。


LuxMark測試中,HD7970的渲染性能展示出了壓倒性的勝利,分數領先幅度再次達到2倍以上。
SiSoftware Sandra是一套功能強大的系統分析評比工具,擁有超過30種以上的分析與測試模組,還有CPU、Drives、CD-ROM/DVD、Memory 的Benchmark工具,它還可將分析結果報告列表存盤。SiSoft Sandra除了可以提供詳細的硬件信息外,還可以做產品的性能對比,提供性能改進建議。


Sandra 2012的GPU通用測試部分,HD7970再次取得較大優勢。
HD7970的綜合游戲性能稍遜于GTX680,這是一個客觀的事實,但是其架構特性決定了其計算能力遠遠超過GTX680,在有良好應用的支持下,HD7970會發揮出它的價值,隨著GPU加速應用的日漸普及,GCN架構必將綻放出更璀璨的光芒。■<
關注我們


