2880流處理器!NVIDIA GK110詳細(xì)解讀
泡泡網(wǎng)顯卡頻道5月19日 首日的GTC 2012大會(huì)上,NVIDIA CEO黃仁勛就為我們正式介紹了全息Kepler架構(gòu)的GK110 GPU,產(chǎn)品將被應(yīng)用在Tesla K20 GPU計(jì)算卡上,相比Fermi提供3倍的雙精度浮點(diǎn)計(jì)算性能。
GK110采用28nm工藝,擁有71億晶體管,按照GK104的294mm2來(lái)計(jì)算應(yīng)該達(dá)到了550mm2+的水準(zhǔn),同GF110一樣,GK110同樣是為雙精度浮點(diǎn)計(jì)算而設(shè)計(jì)的計(jì)算卡,雖然規(guī)格達(dá)到了兩倍的GK104,但是游戲性能提升將打一部分折扣,GK110單/雙精度浮點(diǎn)計(jì)算按照1/3設(shè)計(jì),對(duì)比GK104則為1/24,很明顯是為游戲而設(shè)計(jì)的。
基于GK110的Tesla K20 GPU計(jì)算卡
而在高性能計(jì)算領(lǐng)域,GK110也是首款支持Hyper-Q、Dynamic Parallelism并行調(diào)度的GPU,這也是NVIDIA將其計(jì)算定位3.5代的原因,相比GK104有了顯著的改善。
規(guī)格方面GK110 71億晶體管主要用于CUDA核心、以及顯存控制器的增加,SMX流式多處理器增加到15組,每組繼續(xù)保持GK104的192 CUDA設(shè)計(jì)架構(gòu),也就是GK110總計(jì)擁有多達(dá)2880個(gè)流處理器(CUDA)。
GK110和GK104二者的架構(gòu)還是有所區(qū)別,為了增加雙精度計(jì)算能力,GK110每組SMX提供多達(dá)64個(gè)FMA雙精度單元,對(duì)比GK104只有8個(gè)FMA雙精度單元,這也是二者在雙精度計(jì)算能力上巨大差距的原因。
GK110 Die
按照NVIDIA的數(shù)據(jù)GK104的單雙精度計(jì)算能力分別為3.09TFLOPS和0.13TFLOPS,而GK110單雙精度計(jì)算能力分別達(dá)到了4.2TFLOPS和1.4TFLOPS,分別提升了36%和1077%。
GK110 SMX
為滿足帶寬傳輸需求,GK110提供了六組GDDR5顯存控制器,組成384Bit顯存位寬,顯存帶寬提升至256GB/s。而15組SMX流式多處理器共享的L2緩存也翻倍至1.5MB(對(duì)比Fermi為768KB),并具備ECC片上保護(hù),線程只能單向調(diào)用L2緩存(或者通過(guò)L1->L2逐級(jí)調(diào)用),并不具備寫(xiě)入L2的權(quán)限。
頻率方面,GK110核心并不會(huì)像GK104沖破1GHz,作為計(jì)算卡,GK110會(huì)保守的設(shè)置在800MHz左右,盡管如此,GK110的功耗還是得到了顯著地提升,功耗應(yīng)該在260-300W之間的水平,需配備6pin+8pin PCI-E供電接口才能夠滿足。
已經(jīng)完善的GTX 600高端系列產(chǎn)品線
而在桌面推廣上,GK110很大可能將會(huì)為下一代GeForce GTX 780而準(zhǔn)備,由于架構(gòu)設(shè)計(jì)原因,玩家們期待的游戲性能將不足以推翻現(xiàn)有的GTX 690顯卡,不過(guò)更好的散熱控制,另外相對(duì)GTX 680不錯(cuò)的性能提升,還是可以勝任下一代顯卡的需求。
Quad Warp調(diào)度和Dynamic Parallelism解析
● Quad Warp Scheduler調(diào)度
在SMX流式多處理器中,每32并行線程叫做為warps,而每個(gè)SMX中擁有四組Warp Scheduler調(diào)度和八組instruction dispatch單元,允許四個(gè)warps同時(shí)執(zhí)行,而Kepler的Quad Warp Scheduler調(diào)度正是基于四組warps,在每個(gè)循環(huán)中可以指派2個(gè)獨(dú)立的指令,不同于Fermi,GK110允許雙精度指令和部分其他指令配對(duì),例如load/store、texture以及一些整數(shù)型指令,以提高效率。
在采樣和圖像數(shù)據(jù)過(guò)濾,GPU硬件紋理單元顯得非常重要,相對(duì)Fermi,Kepler的紋理吞吐量得到急劇增加,每組SMX中包含了16個(gè)紋理填充單元,對(duì)比Fermi GPU(GF110)增加了4倍。
● Dynamic Parallelism
在混合CPU-GPU系統(tǒng)中,較大的并行代碼在GPU內(nèi)被完整執(zhí)行可有有效提升GPU的性能和效能,而目前來(lái)說(shuō)GPU并不具備完全處理這樣的并行任務(wù),需要大量利用到CPU來(lái)參與計(jì)算處理,kernel的創(chuàng)建都需要CPU來(lái)實(shí)現(xiàn),嚴(yán)重影響了GPU的計(jì)算執(zhí)行效率。
而為了讓GPU更大限度的發(fā)揮并行計(jì)算的能力,GK110引入了Dynamic Parallelism(動(dòng)態(tài)并行調(diào)度),使得GPU內(nèi)核有了獨(dú)立載入工作負(fù)載的能力,G能夠在GPU片上自身對(duì)kernel執(zhí)行后的結(jié)果進(jìn)行判斷并確定、創(chuàng)建后續(xù)新的kernel。 #p#page_title#e#
使用Dynamic Parallelism將大大簡(jiǎn)化了并行編程,讓GPU加速能夠應(yīng)用到更廣范圍的流行算法上,例如自適應(yīng)網(wǎng)格細(xì)分、高速多級(jí)法以及多柵法。
Hyper-Q和Grid Management Unit解析
● Hyper-Q
在Fermi時(shí)代,CPU只能夠同時(shí)運(yùn)行1個(gè)MPI(Message Passing Interface)任務(wù),而Kepler GK110可以實(shí)現(xiàn)同時(shí)32個(gè)MPI的任務(wù)執(zhí)行,Hyper-Q讓多個(gè)CPU核心能夠同時(shí)利用單個(gè)Kepler GPU上的諸多CUDA核心。大大提升了GPU的利用率、縮短了CPU閑置時(shí)間、提高了可編程性。Hyper-Q非常適合采用MPI的集群應(yīng)用程序。
Hyper-Q的顯著改善在于使用MPI的并行計(jì)算系統(tǒng),基于早期MPI系統(tǒng)算法的多核CPU系統(tǒng)的負(fù)載低于GPU的實(shí)際能力,導(dǎo)致GPU資源并不能被充分利用,GPU并沒(méi)有分配到足夠的工作,出現(xiàn)了虛假的瓶頸依賴,Hyper-Q將移除這些虛假依賴,大大提高了整個(gè)MPI進(jìn)程的GPU共享效率。
● Grid Management Unit
在Fermi時(shí)代,CWD(CUDA Work Distributor)下Grid進(jìn)入GPU內(nèi)執(zhí)行后,必須等到工作完全執(zhí)行完后才能運(yùn)行另一個(gè)Grid,而在GK110中,工作流程中加入了全新的Grid Management Unit管理單元,由CWD發(fā)射的Grid首先將進(jìn)入Grid Management Unit管理單元。
Grid Management Unit能夠智能管理CUDA創(chuàng)建的、CPU建立的gird,可以實(shí)現(xiàn)暫停新grid的分發(fā)、停掉申請(qǐng)的gird、掛起的grid,直到再需要它們的時(shí)候。SMX和Grid Management Unit有專門(mén)的直連連接,從而可以核準(zhǔn)在GPU上透過(guò)名為Dynamic Parallelism的技術(shù)將新工作發(fā)送回Grid Management Unit來(lái)排序和分發(fā)。
● NVIDIA GPUDirect
面對(duì)大量數(shù)據(jù),增加數(shù)據(jù)吞吐量和降低延遲是增加計(jì)算性能的關(guān)鍵,GK110支持NVIDIA GPUDirect的RDMA,允許第三方直接訪問(wèn)GPU顯存,例如IB適配器、NIC(網(wǎng)卡)和SSD,使用NVIDIA最新的CUDA 5.0,GPUDirect可以提供如下新特性:
- NIC和GPU之間無(wú)需CPU端數(shù)據(jù)緩沖的直接內(nèi)存訪問(wèn)(DMA)
- 顯著改善MPISend/ MPIRecv GPU和其他網(wǎng)絡(luò)節(jié)點(diǎn)之間的效率
- 消除CPU帶寬和延遲瓶頸
- 與大量第三方設(shè)備(采集、存儲(chǔ)設(shè)備)協(xié)同工作
例如在石油和天然氣勘探地震成像跨多個(gè)GPU的影像數(shù)據(jù)處理上,以往需要數(shù)以百計(jì)的CPU參與緊密合作,改用GPUDirect后,將直接改善多個(gè)GPU的影像數(shù)據(jù)的協(xié)同處理,CPU參與數(shù)據(jù)溝通的工作將得到全面緩解