完美DX10!ATI新王者HD2900XT權威評測
自從ATI在R300(9700)上面首次使用256Bit顯存位寬之后,高端顯卡的顯存控制器已經連續五年停滯不前,顯存帶寬的提升只能依賴于DRAM廠商生產出速度更快的顯存顆粒,從GDDR1一直發展到GDDR2/3/4,高頻顯存對顯卡的PCB和散熱設計提出了很高要求,顯存在顯卡成本中所占比例也越來越高,顯卡性能一定程度上受到了顯存帶寬的制約。新一代DX10游戲對顯存帶寬需求變本加厲,所以NVIDIA和ATI不約而同的升級了顯存控制器,G80支持384Bit,而R600則是翻了一倍達到512Bit!
512Bit顯存帶來性能飛躍第四章\\第十節 Memory Control(顯存控制器)
G80的顯存控制器很容易理解,與G71相比就是添加了兩組64Bit控制器,每組顯存控制器都與ROP綁定,從而組成了384Bit的位寬,依然是(Crossbar)交叉式結構。之所以不用512Bit,一方面是出于顯存成本方面的考慮,當然還有一個原因就是交叉存取的結構在規模較大時管理非常復雜,PCB布線難度大增,信號延遲容易增大。
G80的ROP和顯存控制器
這就是ATI引入環形總線的原因,從R520開始我們就接觸到了Ring Bus這個詞,R520內部顯存總線其實是512Bit(即兩個256Bit環形管道),4個環站和8組32Bit顯存組成:
R520的顯存控制器
為什么要這么設計呢?主要是在提高帶寬的同時減緩顯存控制器的壓力。當程序指令提出顯存讀取要求時,顯存控制器會安排數據從顯存顆粒中讀取,但數據不會回傳至顯存控制器,而是只把數據放在環形總線之中,然后程序自行通過環站取回所需數據包,從而減輕控制器的壓力。這種方式對于單個的存取操作有可能會使延遲變大,但總體來說能夠降低大多數操作的延遲,而且提高數據命中率!
環形總線圍繞在控制器的外圍,這樣可以簡化線路設計使連接處于最優化狀態。這意味著任何時候內核各部件都能處于最短的連接線路狀態,這樣在顯存進行數據寫入操作過程中有效降低延遲及降低信號品質。當然環形總線的另一大優勢就勢可以輕松達到高頻率,傳統顯存控制器則由于顯存控制器內部線路之間的串擾等原因很難保證GDDR4這種高頻顯存的效能!
ATI顯存控制器的演化
但是,X1000系列的顯存控制器并非是真正的環形總線,它只是通過引入兩條環形管道來分擔中央控制器的壓力,這可以說是ATI做出的一個大膽嘗試,X1000系列屬于半分布式的混合型控制器。而在R600上面,ATI真正實現了全分布式的環形總線:
R600內部1024Bit環形總線,外部512Bit總線R600的顯存控制器擁有2條512Bit環形通道和四個環站,每個環站控制兩個64Bit顯存通道,可以看到R600不存在中央控制器,所有顯存讀寫操作都由四個環站經過仲裁器判定后執行:
R600顯存控制器之環站結構可以這么認為,如果是傳統交叉式顯存控制器的話,必須統一指揮8個64Bit通道,而R600的4個環站只需各自管轄2個64Bit通道就可以了,然后四個環站通過1024Bit(讀寫各512Bit)內部總線連接起來,所有操作都通過仲裁器優化和排序后執行,比起混亂的交叉操作更加有序和高效!
如此一來,R600的環形總線可以達到更低的延遲、更高的頻率、更大的帶寬。同時也可以一定程度上降低PCB布線難度,將16顆顯存之間的干擾降至最低,穩定性更容易保證,對于GDDR4提供了完美支持。在現有的技術條件下,R600可以輕松實現1GB 512Bit和512MB 512Bit兩種實用的組合方案,今天發布的HD 2900XT就是512MB 512Bit(16顆8M×32Bit顆粒)的規格,未來還會有1GB 512Bit GDDR3/4的XTX版本。
另外,ATI的雙向環路總線是可編程設計的,顯存仲裁操作可以交由驅動程序控制,或者是用戶通過驅動程序的“CATALYST A.I(智能參數設定)”功能為特定的應用程序設定仲裁優先次序,以便GPU可以優先處理最迫切、對性能影響最明顯的數據讀寫請求。
關注我們


