NVIDIA Fermi要來了!GPU迎來二次革命
泡泡網顯卡頻道3月5日 “跳票”在IT業界指廠商不能夠按照ROADMAP計劃按期推出產品及宣布延期,而近年來,在硬件/數碼產品、游戲、電影等領域,“跳票”事件頻頻發生,似乎已經成為了商家敷衍用戶的一種習慣!
游戲產業最具代表性的當屬暴雪,《暗黑破壞神3》一次又一次的刺激著我們的神經、《星際爭霸2》歷經12年的等待之后,終于趕在2010年初向我們走來。而在顯卡產品領域,NVIDIA新一代顯示核心“Fermi”在半年的時間內數次的調整發布時間,成為了2009年度顯卡產業的“跳票王”!
Fermi作為NVIDIA新一代DX11產品,被無數玩家寄予了厚望,在老對手AMD搶先推出DX11產品HD5000系列之后,Fermi的研發進程就更受關注,任何一個關于Fermi的消息都將成為業內關注的焦點。年對這HD5000系列咄咄逼人的氣勢,Fermi卻遲遲不能上馬,這也上NVIDIA在整個產品線的布局上陷入了很大的被動。
回想當年DX10時代初期,偉大的GTX8800遠遠的將RV600甩到身后,但是,俗話說“三十年河東,三十年河西”,如今在向DX11時代邁進的時候,NVIDIA卻放緩了腳步,被對手超越。面對如此窘況,作為業內“一哥”的NVIDIA自然不能容對手放肆,于是乎,Fermi將承載NVIDIA的希望,在DX11時代一掃陰霾,重建輝煌!
如今,Fermi的正式發售日期已經確定,那么這款承載者無數人期望的產品,究竟能給我們帶來什么樣的驚喜?能否顛覆傳統顯卡的應用理念?能否開創一個屬于NVIDIA的DX11時代?這些都是我們所期待的。今天,我們在Fermi正式發售之前,根據各方面的信息匯總,一起回顧一下這款產品問世的艱辛歷程;一起來看看Fermi將會帶給我們那些欣喜的東西!
●Fermi“處女秀”!NVIDIA GTC大會驚艷全場!
Fermi作為NVIDIA新一代顯示核心,在09年NVIDIA美國GTC大會之前,一直都屬于高度機密,不為人所知。美國舊金山當地時間2009年9月30日下午,NVIDIA在圣何塞當地舉辦的GTC大會上,有CEO黃仁勛親自向全球用戶展示了基于Fermi架構的Tesla優異產品,完成了Fermi的全球“處女秀”!
這次揭曉的Fermi顯示核心,作為NVIDIA目前的GPU產品中,最強悍的一款,它在緩存上再次為并行運算進行優化。所有處理單元都可以共享緩存,并且增加了一級和二級緩存,這與以往都大大不同。盡管當時Fermi展示的只是Tesla樣卡,但其巨大的魅力無不讓大家相信Fermi很快就會有對應的GeForce產品問世。
同時還針對NVIDIA GPU在娛樂級方面的成果分四點進行詳細介紹,它們分別是PhysX物理引擎、光線追蹤、3D Vision和DirectX 11,通過這次產品架構的介紹,NVIDIA展示了自己不僅在科學計算上的實力,更突顯了NVIDIA在消費級用戶日常應用產品的拓展。
●NV首席科學家談Fermi背后的故事
自從GTC大會上展示了Fermi樣卡之后,這款產品便成為業內關注的焦點,關于其產品的任何信息都得到了玩家極大地關注。下面,我們就來看看NVIDIA首席科學家如何解答全球媒體對Fermi提出的問題。從而進一步了解Fermi研發背后的一些故事。
Fermi究竟是那年開始孕育的?
Bill Dally說道,一個GPU的研發一般都是3~4年,Fermi產品最終功能、架構定稿時間大概是在2年前。
來自亞太區的媒體問道,“Fermi架構的產品功能、性能已經非常強勁,那么基于它的GeForce、Tesla和Quadro是否會系列模糊化,最后只有一個系列?”
“這個肯定是不會發生的!”Bill Dally說道,因為3個系列都是針對不同領域設計的產品,所以在功能以及設計環節會有特定的設計,他們之間的不能在功能及性能上完全一樣。”
“Fermi是否是您認為目前最完美的設計,如果您認為不完美,是否有哪些遺憾?”
Bill Dally面露狡猾的笑容回答:“就目前來看,Fermi是我認為最完美的設計,不過GPU未來發展還有很多未知數,而且Fermi還有很大提升空間。”
現在在GPU中加入了L2緩存設計,那么是否會像CPU一樣加入L3緩存設計?
談到這個問題的時候,Bill Dally先生談了他的看法:“第一個問題我認為,CPU和GPU不一樣,因為CPU是以順序計算為主,而GPU則是以并行計算為主,所以L2/L3緩存設計實際應用用途會根據當時應用者是否需要才加入,但我們不否定未來會加入L3緩存。
規格的直接累加是增加效能的捷徑,那么為何NVIDIA不是在GT200架構上累加規格,而是全新設計Fermi架構呢?
Bill Dally答道:“確實是累加規格會增加舊架構的性能,但是我們的GT200在已有架構上性能已經非常好,我們需要更多針對CUDA計算方面的GPU,所以得革新架構,而且我們也不希望用老架構增加性能計算以前的東西”。
從Bill Dally回答中,我們看到了他對NVIDIA和GPU未來的自信和憧憬,Fermi架構將在大規模科學計算,通用計算領域等應用方面達到了一個很高的水平。
●NV實驗室探秘!Fermi是如何產生的?
前面,我們簡單了解了Fermi的“前世今生”,那么對于這款新產品誕生的地方--NVIDIA仿真實驗室,相信大家也是非常的感興趣,下面我們就來看看Fermi的誕生地。
NVIDIA實驗室一景

這個標示為Cadence的機器集群,就是Fermi最初的母親
據NVIDIA的工程師介紹,GPU的芯片設計,模擬環節很重要。而雖然一些芯片可以通過軟件模擬完成,但對于GPU來說軟件模擬實在太慢,所以需要通過無數的設備進行硬件模擬。

誕生Fermi的仿真機器群
大的仿真器上的排線是通過剛才看到的模擬用的卡連接的,模擬卡可以被放到我們常用的PC的PCIE插槽上,而通過后端IO與排線與模擬設備連接。上圖看到繞著柱子一圈的機器就是Fermi的模擬器了。有了這套模擬器,在這個階段NVIDIA就可以給產品開發驅動和軟件運行環境了,甚至還可以模擬真實操作系統環境運行。
擬器運行速度大概要比對應的真實GPU慢千倍,為什么還要用模擬器?因為硬件模擬比僅僅軟件模擬器而言快幾千倍,同時NVIDIA還可以在模擬的同時,同步研發驅動和軟件配合。
●不斷跳票 Fermi真是“紙老虎”
看著對手的HD5000系列在DX11領域肆無忌憚的“囂張”,越來越多的玩家都迫不及待的想了解Fermi的參數規格以及性能表現。但Fermi的一次次跳票,讓不少玩家開始玩起了數字游戲,從理論上來預估Fermi的性能。
稱Fermi為“Paper Dragon”
同時,Fermi的延期也給了對手以話柄,ATI就曾在官方文檔中將錨頭直接指向了Fermi,稱Fermi為“Paper Dragon”(紙龍、更形象一點也可以翻譯成紙老虎)。
盡管ATI講Fermi稱之為“紙老虎”,認為在NVIDIA的Fermi發布之前,NVIDIA的做法只是虛張聲勢。但ATI似乎也感受Fermi上市時的強大沖擊力,為了萬無一失的卻不其得之不易的性能之王寶座,ATI推出了殺手锏HD5900系列來備戰。
●架構大改進!核心特性、架構解讀
面對著競爭對手的巨大壓力和眾多用戶的深切期待,Fermi該如和走出困境,也成為關心這款產品的用戶所關注的。在年初的CES 2010展會上,NVIDIA終于首次公開拿出了Fermi架構高端型號GF100,展示立體多屏環繞技術3D Vision Surround的同時,NVIDIA用傳說中的Fermi演示了DirectX 11 Benchmark程序,給不少玩家帶來了驚喜!
隨后,NVIDIA又公開了Fermi GF100在游戲架構方面的諸多特性,讓玩家深入的了解了Fermi核心架構和特色改進。
● GF100架構改進要點預覽
如果說Cypress是“雙核心”設計的話,那么GF100的流處理器部分就是“四核心”設計,因為其raster units(光柵化引擎)是以GPC(線程處理器簇)為單位的,一式四份。而raster units的功能就是以流水線的方式執行邊緣/三角形設定(Edge/Triangle Setup)、光柵化(Rasterization)、Z軸壓縮(Z-Culling)等操作。上頁我們介紹過Cypress的Rasterizer和Hierarchial-Z雙份的,而GF100則是四份的,雖然命名有所不同但功能是相同的。
另外,GF100擁有更多的PolyMorph(多形體引擎),是以SM(流處理器)為單位分配的,擁有多達16組。多形體引擎則要負責頂點拾取(Vertex Fetch)、細分曲面(Tessellation)、視口轉換(Viewport Transform)、屬性設定(Attribute Setup)、流輸出(Stream Output)等五個方面的處理工作,DX11中最大的變化之一細分曲面單元(Tessellator)就在這里,因此GF100的理論Tessellation性能將會遠超Cypress,因為Cypress只有一個Tessellator單元。

至于流處理器核心部分,則是經過了重新設計,與GT200/G92/G80相比是煥然一新,因此NVIDIA將其稱為CUDA核心而不再是流處理器。
GF100的512個CUDA核心都符合IEEE 754-2008浮點算法(Cypress也是如此)和完整的32位整數算法,而后者在過去只是模擬的,事實上僅能計算24-bit整數乘法;同時全面引入的還有積和熔加運算(Fused Multiply-Add/FMA)。此外雙精度浮點(FP64)性能大大提升,峰值執行率可以達到單精度浮點(FP32)的1/2,而過去只有1/8,AMD從R600開始到現在的Cypress核心都是1/5,沒有做任何變化。
至于顯存控制器方面的改進,還有顯存ECC等外圍功能就不多做介紹了。總而言之,GF100核心是GPU自從進入DX10時代以來,架構變化最大的一次,在GPU圖形架構和并行計算架構方面都有了革命性的進步,因此備受玩家和業界期待。
●跳過GTX300!Fermi命名最終確定
由于Fermi架構的高端產品還沒有正式的投放市場,關于NVIDIA高端系列的顯卡一直都是謠言不斷,之前有消息稱,產品有可能會被命名為GeForce GTX 380/360,但也有消息稱NVIDIA打算放棄字母標識。
直到2月初,NVIDIA終于公布了Fermi新架構顯卡的型號命名“GeForce GTX 480/470”,出乎意料地直接邁入了GeForce 400系列。
之前談論較多的名字當然是“GeForce GTX 380/360”,這也是延續上代產品的合理命名,不過因為NVIDIA在OEM領域推出了GeForce 310/305等型號相近但規格迥異的產品,如果都歸入GeForce 300系列必然會造成嚴重的混亂,這樣一來新架構產品跨入GeForce 400系列也就合情合理了。
● 塵埃落定!Fermi定于3月底震撼登場
經過近半年之久的艱辛歷程,NVIDIA終于放出確定的消息,將在3月26號正式發布Fermi。不過,在近日的Cebit 2010展會上,已經有不少品牌展示了基于Fermi架構的GTX480(核心代號GF100)顯卡,讓玩家提前一飽眼福。
Geforce GTX480的裸照
關于GTX480的核心、顯存頻率至今仍然是個未知數,從目前掌握的情況可以直到,顯卡GPU內含512個CUDA核心;顯卡正面配有12塊GDDR5顯存(顯存位寬384bit),總容量為1536MB;并設有6pin+8pin外接電源接頭(意味著顯卡的最大功耗在225W-300W之間);顯卡并配置了4熱管雙槽散熱器。
GTX470樣卡
另外,GF100的閹割版GTX470據傳也將和GTX480同時發布,關于GTX470的細節目前還沒有確定,不過有傳言稱會擁有448個流處理器和320Bit顯存控制器,而GTX480擁有512個流處理器和384Bit顯存控制器。
上面,我們回顧了Fermi自首次曝光之后,一直到確定發售日期這段時間所經歷的艱辛歷程,從中我們了解了Fermi研發背后的故事、Fermi在新架構下擁有的特色技術、Fermi最新的產品參數規格,讓我們對這款產品有了更多的認識和期待。接下來,我們所要做的就是等待,等待3月26日Fermi的正式發售。
“天將降大任于斯人也,必先苦其心智、勞其筋骨”,Fermi經歷了如此之多的坎坷之后,終將誕生。在DX11的時代,Fermi能否力挽狂瀾,絕境重生,給我們帶來意想不到的驚喜?■<
關注我們


