王者歸來!NVIDIA歷代旗艦級顯卡回顧
現在回過頭來看,NV30在架構的設計上還是存在著不少問題,其中最主要的就是Piexl Shader的處理能力低下。由于NV30的Piexl Shader單元沒有co-issue(標量指令+矢量指令并行處理)能力,而在DirectX9.0中,單周期3D+1D是最常見指令處理方式,即在很多情況下RGB+A是需要非綁定執行的,這時候NV30就無法并行執行,指令吞吐量大大降低。其次,NV30沒有miniALU單元,也限制了NV30的浮點運算能力。

另外,NV30在寄存器設計(數量及調用方式)、指令存儲方式(讀寫至顯存)等方面也有缺陷。NV30的寄存器數量較少,不能滿足實際程序的需要。而且,用微軟的HLSL語言所編寫的pixel shader2.0代碼可以說NV30的“天敵”,這些shader代碼會使用大量的臨時寄存器,并且將材質指令打包成塊,但是NV30所采用的顯存是DDR-SDRAM,不具備塊操作能力。同時,NV30材質數據的讀取效率低下,導致核心的cache命中率有所下降,對顯存帶寬的消耗進一步加大。

寄存器調用
同時,由于NV30是VILW(超長指令,可同時包含標量和SIMD指令)設計類型的處理器,對顯卡驅動的shader編譯器效率有較高的要求。排列順序恰當的shader代碼可以大幅度提升核心的處理能力。NVIDIA也和微軟合作開發了"Shader Model 2.0A",可以為NV30產生更優化的代碼。在早期的一些游戲中,這種優化還是起到了一定的作用。但對于后期Shader運算任務更為繁重的游戲則效果不大。

從宏觀上說,NV30的整體架構更像是一個DirectX7(固定功能TRUE T&L單元)、DirectX 8(FX12combiner DX8整數處理單元)、DirectX 9(浮點像素單元)的混合體。而在DirectX 9的應用中,不能出現非浮點精度的運算,所以前兩者是不起作用的,造成了NV30晶體管資源的浪費,同時也影響了性能。而NV30這種DirectX 7、8、9三帶同堂的架構也讓我們想起了一個至今仍在廣泛使用的3D測試軟件: 3DMark03——這會是一種巧合嗎?
雖然NV30的架構決定了它在DirectX 9游戲中的表現不會很好,但是由于在整個2003年,DirectX 9并未成為游戲開發的主流,所以NV30的架構缺陷并未暴露出來。即便如此,NVIDIA還是意識到了NV30的一些不足,并迅速對NV30的像素著色單元做出了改進,并于2003年5月的GDC上,發布了新一代研發代號為NV35的5900系列。
● 亡羊補牢之作——NV35,FX5900
NV35芯片采用更加成熟了的0.13微米銅互聯工藝,芯片的良率比NV30大幅度提升。核心面積為40mm×40mm,采用1309針FCPGA封裝,內部晶體管數量達到了1.3億。雖然比NV30又增加了500萬個晶體管,不過通過改進的工藝,NV35的發熱量略有降低,因此沒有搭配Flow FX散熱系統。
新的NV35采用了CineFX2.0引擎,和第1代CineFX相比,NVIDIA對Piexl Shader做出了一定的改進,在保留FX12 combiner的同時增加了兩個可進行浮點運算的miniALU,雖然miniALU的功能有限,但是還是使得NV35的浮點運算能力提高了一倍。
NV30中的CineFX2.0還改進了Intellisample(智能采樣)技術,增加了更多的高級紋理、色彩以及Z軸壓縮算法以提升圖象質量,并重新命名為“Intellisample HTC(高分辨率壓縮技術)”技術。
CineFX 2.0引擎引的另一個改進是引入了UltraShadow的技術。UltraShadow也可以說是為IDSoftware的新一代DOOM3引擎量身打造的,因為DOOM3引擎大量采用了體積陰影技術(Volumetric Shadow),Shadow Volume可以更加精確的表現動態光影效果的場景,但由于陰影體積引入了額外的頂點和面,也加大了光影計算的強度。而Ultra Shadow可以簡化光影計算的過程,它允許程序員定義場景中一個區域,將物體的陰影計算限定在一個特定范圍內,從而加速陰影的計算速度。此外,UltraShadow技術還允許程序員在一些關鍵的區域對陰影進行調整,從而創造出可與真實情況媲美的優秀視覺效果。Ultra Shadow還能利用Intellisample HTC技術以確保陰影邊緣的

NV35剛發布時有兩個版本——GeForceFX 5900和5900 Ultra,核心頻率分別為400MHz和450MHz,而顯存頻率都是850MHz。因此顯存帶寬達到27.2GB/s,不僅遠遠超過GeForceFX 5800 Ultra的16GB/s,也比Radeon 9800Pro的21.8GB/s高出不少。
雖然在5月發布的5900系列為NVIDIA在高端產品線挽回了不少損失,但是在市場規模、利潤最大的中端方面,卻面臨更嚴峻的形勢,由于ATI在3月發布了RV350,也就是Radeon 9600 系列,再加上因為具有修改潛力而已經頗具人氣的Radeon 9500,使其競爭力大幅度提高,而NVIDIA則只能由經典但已顯老邁的TI 4200、新一代的5600 Ultra來抵擋ATI的攻勢,但是早期的5600 Ultra(350/700)因為自身架構和頻率的原因,難以獨當一面,在一些應用中性能甚至不敵Ti4200。后期的高頻版5600 Ultra(400/800)則遲到了近2個月而且產量有限,業界還傳出了NVIDIA在GeForce FX 5600 Ultra的生產上遇到了困難的消息。總之,NVIDIA的一系列變故使得ATI在中端主流市場輕松的獲得了領先。

顯然由于市場競爭的激烈態勢,GeForce FX 5700 Ultra才是這次發布的重頭戲。GeForce FX 5700芯片的開發代號為NV36,目的是替代GeForce FX 5600和GeForce FX 5600 Ultra。NV36內部集成了8200萬個晶體管,雖然同樣為4X1架構,具有4條像素管線及每管線一個TMU單元,由于繼承了NV35的Cine FX2.0體系架構和Ultra Shadow陰影加速技術,頂點處理能力、特別是浮點性能比NV31提高了200%--300%。顯存方面和NV31相同,使用了兩個64-BIT顯存控制器支持128-BIT的顯存位寬。
有鑒于在NV31核心的生產遇到的種種意外,這次NVIDIA 將NV36交由IBM 生產,GeForce FX 5700也是IBM與NVIDIA合作的第一款產品。不過GeForce FX 5900/5950仍由TSMC負責生產。和GeForce FX 5600一樣,GeForce FX 5700也基于0.13微米工藝制造,但是IBM采用了低介電系數材料工藝(low-k dielectric),用來絕緣核心中的導體環路,在不增加功耗的情況進一步提升核心頻率。
所以GeForce FX 5700 Ultra核心頻率提高到475MHz,比FX 5600 Ultra高出75MHz。顯存方面則搭配了日趨成熟DDR2的顯存,工作頻率900MHz,提高了性能的同時,也減少了功耗。后來,GDDR3顯存的FX5700Ultra,GDDR2跟GDDR3的針腳是兼容的,所以不用重新設計PCB。由于GDDR-3的Latency比GDDR-2要高,所以將其顯存工作頻率升至950MHz 。
關注我們


