流處理器緣何差6倍!A/N GPU架構解析
到了DX10時代,不再區分像素單元和頂點單元,還加入了新的幾何著色單元,這樣GPU的Shader單元不僅要處理像素和頂點操作,還要負責幾何等其它操作,混合型指令所占比重越來越大,必須放棄傳統的管線式架構。
● G80的標量流處理器架構
因此,NVIDIA從G80開始架構作了變化,把原來的4D著色單元徹底打散,流處理器不再針對矢量設計,而是統統改成了標量運算單元。每一個ALU都有自己的專屬指令發射器,初代產品擁有128個這樣的1D運算器,稱之為流處理器。這些流處理器可以按照動態流控制智能的執行各種4D/3D/2D/1D指令,無論什么類型的指令執行效率都能接近于100%!
G8X家族核心架構圖
如此一來,對于依然占據主流的4D矢量操作來說,G80需要讓1個流處理器在4個周期內才能完成,或者是調動4個流處理器在1個周期內完成,那么G80的執行效率豈不是很低?沒錯,所以NVIDIA大幅提升了流處理器工作頻率(兩倍于核心頻率),擴充了流處理器的規模(128個),這樣G80的128個標量流處理器的運算能力就基本相當于傳統的64個(128×2/4)4D矢量ALU。
G8X/G9X系列:8個流處理器為一組,2x8=16個為一簇
當然這只是在處理4D指令時的情形,隨著圖形畫面越來越復雜,1D、2D、3D指令所占比例正在逐年增多,而G80在遇到這種指令時可說是如魚得水,與4D一樣不會有任何效能損失,指令轉換效率高并且對指令的適應性非常好,這樣G80就將GPU Shader執行效率提升到了新的境界!

MIMD架構示意圖
與傳統的SIMD架構不同,G80的這種標量流處理器被稱為MIMD(Multiple Instruction Multiple Data,多指令多數據流)架構。G80的架構聽起來很完美,但也存在不可忽視的缺點:根據前面的分析可以得知,4個1D標量ALU和1個4D矢量ALU的運算能力是相當的,但是前者需要4個指令發射端和4個控制單元,而后者只需要1個,如此一來MIMD架構所占用的晶體管數將遠大于SIMD架構!
關注我們


