流處理器緣何差6倍!A/N GPU架構解析
G92雖然有著眾多G80所不具備的新特性,但本質上來講它是G80削減成本的產物。而NVIDIA真正第二代DX10核心應該是GT200才對,下面我們就看看GT200相對于G80的改進。
● GT200架構的變化
眾所周知,GT200最大的變化就是擁有240個流處理器,而且顯存位寬高達512bit,當然這只是表象,真正核心架構方面的改進如下:
G80/G92擁有128個流處理器,這些流處理器分為8組TPC(線程處理器簇),每組16個SP(流處理器),這16個SP又分為兩組SM(多核流處理器),SM是不可拆分的最小單元,是8核心設計。
GTX200將TPC數量從8個擴充至10個,而且在每個TPC內部,SM從2個增加到3個,SM依然是8核心設計。如此一來,GTX200核心的流處理器數量就是,8×3×10=240個,幾乎是G80的兩倍,但卻不是256個。
紋理單元部分,GTX200的每個TPC內部擁有8個TF,這樣總共就是8×10=80個紋理單元。G80/G92的流處理器與紋理單元的比率是128:64=2:1,而GT200的流處理器與紋理單元的比率是240:80=3:1,正是GT200微架構方面的變化造成了這一結果。
● GTX200核心微架構改進
GTX200核心在流處理器、紋理單元數量上的擴充是很容易理解的,其實除了擴充規模之外,在架構的細微之處還有不少的改進,這些都有助于提高新核心在未來游戲或通用計算中的執行效能:
1. 每個SM可執行線程上限提升:G80/G92核心每個SM(即不可拆分的8核心流處理器)最多可執行768條線程,而GTX200核心的每個SM提升至1024條,而且GTX200擁有更多的SM,芯片實力達到原來的2.5倍!

2. 每個SM的指令寄存器翻倍:GTX200與G80核心在SM結構上基本相同的,但功能有所提升,在執行線程數增多的同時,NVIDIA還將每個SM中間的Local Memory容量翻倍(從16K到32K)。Local Memory用于存儲SM即將執行的上千條指令,容量增大意味著可以存儲更多的指令、超長的指令、或是各種復雜的混合式指令,這對于提高SM的執行效能大有裨益。

雙倍寄存器的優勢:代表DX10性能的3DMarkVantage得分直接提升15%
當前和未來的DX10游戲,越來越多的使用復雜的混合式Shader指令,一旦排隊中的超長指令溢出或者在N個周期內都排不上隊,那么就會造成效率下降的情況,此時雙倍寄存器容量的優勢就體現出來了。由于Local Memory并不會消耗太多晶體管,因此將其容量翻倍是很合算的。
關注我們


