加速30倍!APU的GPU硬件加速性能對比
泡泡網顯卡頻道8月23日 今年,Intel和AMD相繼完成了對CPU和GPU的整合,但Intel的SandyBridge它還是叫CPU,而AMD的Llano卻有了一個全新的稱號——APU(Accelerated Processing Units,加速處理器),那加速處理器和傳統的中央處理器及圖形處理器有何區別呢?
硬件方面,APU將通用x86架構CPU核心和可編程矢量處理引擎相融合,把CPU擅長的精密標量運算與傳統只有GPU才具備的大規模并行矢量運算結合起來。AMD APU設計綜合了CPU和GPU的優勢,為軟件開發者帶來前所未有的靈活性,能夠任意采用最適合的方式開發新的應用。
說白了,APU就是CPU與GPU的合體,但硬件合體之后,隨著整個產業的認可,未來將會有更多的應用基于GPU加速而設計,幫CPU分擔很大一份工作量,從而大幅提升處理器效能。APU這種設計理念要比暴力增加CPU內核高明很多!
雖然現在APU問世還不太久,支持異構融合加速的應用也不是很多,但通過這些應用,我們可以一窺APU的實力,所謂的“加速處理器”到底能加速什么呢?比CPU單獨運算強多少?最前APU A8-3850內部的GPU與CPU運算性能有多大差距?
我們知道,AMD的Llano APU就是一顆加強版的Athlon II X4 CPU和一顆中端DX11 GPU的合體,其CPU和GPU部分都不是最強,但也都達到了中端級別。
Llano APU的設計理念
為了將兩顆中端CPU和GPU融合在一起,AMD下了不小的功夫,最終APU的晶體管數和芯片面積要比同為32nm工藝制造的Intel SandyBridge CPU還大一些。
通過AMD公布的Llano APU芯片結構圖來看,APU的CPU和GPU兩大芯片所占芯片面積基本是相當的。看得出來AMD想要平衡CPU和GPU的性能,避免出現Intel那種為很強的CPU賦予了一顆很爛的GPU,導致集顯基本沒用的尷尬局面。
既然APU里面的CPU和GPU所占芯片面積(晶體管數)基本相當,那么這是不是意味著CPU和GPU的性能也差不多呢?這顆不好說,還是通過實際測試來驗證吧。
MediaShow Espresso軟件是第一款同時支持CUDA與Stream加速的視頻轉換軟件,除此之外它還對Intel Core i7處理器的超線程及SSE4指令集做了優化,因此無論純CPU轉碼還是GPU加速,其速度比傳統軟件都要快。在實際使用中無論是界面還是選擇的豐富程度都能幫助用戶將系統的特性完全發揮出來。
下面我們來看看GPU轉碼與CPU轉碼的性能。測試視頻格式為1080P H.264編碼的MKV。首先我們用CPU轉碼為720P的H.264編碼的MP4,軟件調用4核心4線程進行計算。
● A8-3850四核CPU轉碼:33分鐘
使用CPU轉碼,轉換20%的高清視頻用了33分鐘。然后我們啟用ATI STREAM進行6550D GPU轉碼。
● A8-3850開啟GPU硬件編碼/解碼后:17分鐘
同樣轉換20%的高清視頻,6550D只用了4核心CPU的一半時間,可見在視頻轉換上6550D占盡優勢。
開啟GPU加速后,不僅轉碼速度加快了,而且CPU占用率大大下降。當然最終的速度是CPU和GPU共同加速的結果,GPU不可能獨立完成轉碼任務,但估算一下GPU所貢獻的運算能力也要比CPU更多一些。
業界第一款GPU通用計算軟件就是用戶科學計算,它就是由斯坦福大學主導的Folding @ Home分布式計算,最早支持ATI顯卡,而NVIDIA后來者居上,目前N卡所貢獻的運算能力已經超越了所有CPU之和,A卡也不弱!
Folding@home是一個研究蛋白質折疊、誤折、聚合及由此引起的相關疾病的分布式計算工程。最開始F@H僅支持CPU,后來加入了對PS3游戲機的支持,但同樣是使用內置的CELL處理器做運算。F@H因ATI的加入為GPU計算翻開了新的一頁,如今F@H第二代GPU客戶端已經能夠支持ATI和NVIDIA的全系列DX10 GPU。
● 蛋白質折疊:APU的GPU比CPU快18倍
進行相同的計算6550D比CPU快了18倍之多,這回合6550D完勝。
而且,這次的蛋白質折疊分布式計算,CPU和GPU是分別進行測試的,互不影響,GPU不需要CPU的參與就可以獨立進行運算,而不是像視頻轉碼那樣要合作運行。
首款國人開發的支持GPU的OpenCL通用計算測試程序OpenCL General Purpose Computing Benchmark (簡稱GPCBenchMarkOCL)是由國內幾名高性能計算從業人員和愛好者合作編寫的,目的是為了評估在不同的OpenCL平臺上一些基本算法和應用的性能。與目前流行的一些OpenCL、DirectCompute通用計算測試程序的不同在于,目前這些測試程序測試項目過于單一,基本上就是某一兩種算法的性能測試,甚至干脆就是理論峰值計算性能的測試。而實際上,OpenCL計算設備包括GPU的計算性能是受非常多因素影響的,除了計算單元的頻率和數量之外,還有計算單元架構、Global memory(顯存)帶寬、Local memory(GPU內的片上存儲器,NVIDIA稱為Shared memory,AMD稱為Local Data Share)帶寬和Bank conflict、存儲器合并訪問情況、存儲器同步成本、緩存等各種因素。因此某些紙面計算性能非常高的GPU執行某些計算時性能卻不一定好;又或者,某 GPU在執行某種計算時雖然性能落后于另一架構的GPU,但是在執行另一種計算時性能反而超前。GPCBenchMarkOCL集合了高性能計算領域多種常見的基礎算法和應用,能比較全面地評估GPU及其它OpenCL計算設備在通用計算應用中的性能。
● 密碼學測試:
哈希加密:GPU比CPU快12倍
● 常用數學算法測:
矩陣乘法:GPU比CPU快27倍
矩陣轉置:GPU比CPU快15倍
并行規約:GPU比CPU快2倍
8x8離散余弦變換:GPU比CPU快7倍
● 單精度浮點運算測試:
加法:GPU比CPU快4倍
乘法:2.5倍
乘加:11倍
特殊函數:17倍
通過測試,我們發現,CPU又完敗于6550D。4核心的A3850都落得如此下場,那市場上主流中低端雙核CPU就完完全全悲劇了。
在全球各國都在濫發貨幣的情況下,幾乎沒有哪國可以做到讓貨幣持續保值。但有一種貨幣,不受任何國家、政府和央行控制,不存在濫發的情況,這種虛擬的電子貨幣叫做比特幣(bitcoin),相信很多人已經有所耳聞。
● CPU挖礦速度:1.7Mhash/s
首先我們用CPU機型挖礦,把4顆核心全部打上勾,挖礦時4顆核心全部滿載。最終性能是1.7Mhash/s。
● GPU挖礦速度:59Mhash/s
然后小編換用6550D GPU進行挖礦,此時選用OPENCL挖礦器,并且去掉CPU4個核心的勾子。最終性能為59Mhash/s。GPU領先CPU30多倍。
● 擴展閱讀《掛機也能賺錢?教你用顯卡挖礦賺美元》
我們之前測試使用的軟件大都只側重于電腦硬件的一個單元——只測試CPU處理器部分或者是GPU顯示卡部分,而對兩者協同合作下的真實性能并沒有過多關注。Intel Sandy Bridge的發布和AMD Fusion APU帶來的融合,無不預示著異構計算的主流前景,因此HC異構計算測試軟件的面世將為我們的測試注入新的活力,也將為包括筆記本電腦在內的計算平臺確立了新的標準。
HC異構計算測試軟件要解決CPU/GPU負載分配問題,以充分挖掘平臺真實性能
APU問什么叫APU?答案在我們接下來的測試中將會體現出來。我們來看看APU中的CPU和GPU同時運算得到的成績。CPU和GPU同時計算得分為17182分。
然后我們通過在平臺上插入N卡來屏蔽掉APU內部的GPU來讓APU內部的CPU獨自干活兒,得分降到了5252分,下降了進三分之二。由此可見,APU已經不能算是一顆CPU了,APU的名字起的恰到好處。
我不是CPU,
也不是GPU,
我喜歡3D渲染,
我愛通用計算,
我就是我,
我是APU。
前面的一些測試大都是偏向于性能,事實上APU還有一個非常實用的加速應用,就是視頻實時防抖處理,大家看一個視頻就知道該功能有多么炫了:
怎么樣?震撼嗎?這就是AMD為APU量身打造的AMD Steady Video視頻防抖處理技術,該技術可以檢測系統播放中的視頻(可兼容任何播放器、任何渲染模式、甚至包括網頁在線視頻),然后通過復雜的算法將視頻重新處理后實時渲染出來,最終用戶所看到的畫面將會是沒有抖動、較為清晰穩定的畫面。
APU全新的驅動很強大,還提供了拆分屏幕模式,對比開/關防抖后的效果
這要在AMD視覺引擎控制中心中打開AMD Steady Video選項,任何自拍時手拿不穩所產生的抖動效果,都將被自動更正,讓用戶以更舒適、更簡單、更智能的方式行賞視頻。
● 總結:
現如今顯卡擔當起了系統信息處理的重任,不再是單純的3D視頻卡,隨著通用GPU計算的發展,越來越多的軟件與游戲開始支持顯卡通用計算。與CPU相比顯卡在特定領域的計算性能遠超CPU,甚至連高端的酷睿i7也只不過是GPU的零頭。
這么來看AMD A3850是非常超值的,1000元的價格可以得到主流性能的CPU外加一個超強的協處理器,如果軟件優化的足夠好,使得CPU與GPU能協力運行,A3850的性能將得到質的提升。■<
關注我們



