X86架構(gòu)的GPU?解讀Larrabee規(guī)格特性
首先要說明的是,larrabee并不是傳統(tǒng)意義上的GPU,本質(zhì)上講,它就是CPU,由多顆X86架構(gòu)的CPU通過環(huán)形總線并行組成,接替?zhèn)鹘y(tǒng)GPU的功能。
從上圖我們可以看到,在Larrabee的內(nèi)部,每一個(gè)處理核心都可以發(fā)出2條指令,這種架構(gòu)是繼承了最初的奔騰處理器的設(shè)計(jì)。在老奔騰的基礎(chǔ)上,Intel的工程師們也作了許多修改和提升。首先讓老Pentium核心可以支持64bit指令處理,提升了x86指令集的處理,為處理核心加裝了更大容量的高速緩存。另外還支持4路SMT/Hyper Threading超線程和16路矢量ALU算數(shù)邏輯單元。
類似IBM的cell處理器,Intel吸取了一些經(jīng)驗(yàn)來設(shè)計(jì)Larrabee。為了避免高頻帶來的困擾,發(fā)熱量加大,功耗升高等,Larrabee的設(shè)計(jì)思路是多路并行,即通過多核心來提高性能。
通過上表我們可以比較Core2與Larrabee的數(shù)據(jù)吞吐量,理論上說明每個(gè)時(shí)鐘周期之內(nèi),多核心處理器可以處理更多的數(shù)據(jù)和指令。運(yùn)行一個(gè)單一的指令流,例如單指令的應(yīng)用程序,那么Core 2處理器每個(gè)時(shí)鐘周期可以執(zhí)行4次操作,每個(gè)時(shí)鐘周期可以發(fā)出4條指令,但是執(zhí)行單元無法在每個(gè)時(shí)鐘周期內(nèi)執(zhí)行4條指令。在10核心的架構(gòu)中,盡管它每個(gè)時(shí)鐘周期僅僅可以發(fā)出2條指令。在一個(gè)單指令流的程序中,它的峰值是每個(gè)時(shí)鐘周期2次操作。僅有Core 2處理器的一半。但Core 2處理器只有2個(gè)處理核心,每個(gè)核心在每個(gè)時(shí)鐘周期內(nèi)可以執(zhí)行4個(gè)SSE指令,那么Core 2總計(jì)每個(gè)時(shí)鐘周期可以進(jìn)行8次操作。但是具備10核心的Larrabee就大不一樣了。它每個(gè)時(shí)鐘周期可以執(zhí)行160次操作,這相當(dāng)于20倍Core 2的數(shù)據(jù)吞吐量。
關(guān)注我們



