流處理器緣何差6倍!A/N GPU架構解析
G80和R600都是不計成本的作品,成本高、功耗發熱大,隨著新工藝逐漸走向成熟,雙方不約而同的推出了改良版的核心,使得新高端產品的以大規模量產,這就誕生了G92和RV670核心,這兩顆GPU雖然都擁有眾多誘人的新特性,但實際上核心架構方面沒有任何的變化。
● G92相對于G80的改進:
1. 制造工藝由90nm升級至65nm;
2. 新工藝集成度更高,G92的GPU核心部分與2D輸出模塊(NVIO)合二為一,是單芯片設計;
3. PCI-E控制器升級支持2.0版本,帶寬倍增;
4. 高清視頻解碼引擎由VP1升級至VP2,支持MPEG2和H.264的完全硬解碼,VC-1部分硬解碼;
5. 加入HDCP支持和HDMI輸出支持;
6. 顯存控制器由384bit降至256bit,這是控制成本的需要。由于顯存控制器綁定光柵單元(ROP),因此G92的光柵單元只有16個,而G80是24個;
7. 紋理尋址單元數量加倍,紋理采樣效率提升。
在以上諸多改進之中,只有這一項才是設計到核心架構的,因此這里重點介紹:
G80的流處理器結構
G92的流處理器結構
上面兩幅架構圖清楚的體現出了G80和G92的差異。NVIDIA GPU的流處理器簇和紋理單元還有一級緩存是綁定在一起的,G80的每簇內建了8個紋理過濾單元(Texture Filtering Unit)和4個紋理尋址單元(Texture Addressing Unit),總共數目就是64個TFU和32個TAU。而G92則提升至每組內建8個TFU和8個TAU,總共64個TFU和64個TAU,也就是紋理尋址單元數量加倍。
更多的TAU可令單一周期處理更多的紋理采樣操作,部分情況下紋理處理器效率提升一倍!雖然DX9C時代反復強調高像素/紋理比例,但DX10時代引入了更多的紋理操作,并且SM4.0支持更復雜的紋理陣列,以便讓物體表面擁有更豐富的細節,并且在超高分辨率下也不至于失真,但也對紋理操作提出了較高的要求,NVIDIA此舉意在提升Call of Juarez、Crysis這種高精度游戲中的效率。
事實上,除了G80核心之外,G84、G86、G92、G96等所有衍生出來的小核心都改進了紋理單元設計,也就是說從8600GT開始起紋理尋址單元的數量就與紋理過濾單元相等了,只是中低端顯卡的變化未能引起大家的重視。
● RV670相對于R600的改進:
1. 制造工藝由80nm升級至55nm;
2. PCI-E控制器升級支持2.0版本,帶寬倍增;
3. 高清解碼引擎由原來的Shader解碼升級為UVD引擎,支持H.264和VC-1的完全硬解碼;
4. 顯存控制器由512bit降至256bit,這是控制成本的需要,而且以R600和RV670的運算能力其實不需要太高的顯存位寬;
5. 支持PowerPlay節能技術,待機功耗很低;
6. API升級至DX10.1;
雖然API升級了,但實際上只不過是加入了新的Shader Model 4.1指令集而已,流處理器架構方面沒有變化,甚至光柵單元和紋理單元都沒有任何改動。
由于R600/RV670的架構是顯存控制器并沒有綁定光柵單元,雖然RV670的顯存位寬減少了,但并沒有造成太多的性能損失,反而由于頻率的提升得以反超。因此G92相比G80是性能下降了,而RV670相比R600是有所提升,但最終的結果RV670和G92的差距依然很大。
可以看出,G92和RV670在技術方面的改進其實都是差不多,真正最關鍵的(流處理器)核心架構方面其實沒有任何變化。
關注我們



