您的位置：UltraLAB圖形工作站方案網(wǎng)站 > 人工智能 > 深度學(xué)習(xí) > 2880流處理器！NVIDIA GK110詳細(xì)解讀

2880流處理器！NVIDIA GK110詳細(xì)解讀

時(shí)間：2012-12-26 03:03:00 來(lái)源：UltraLAB圖形工作站方案網(wǎng)站 人氣：9736 作者：admin

三倍效能--GK110詳細(xì)解讀

泡泡網(wǎng)顯卡頻道5月19日首日的GTC 2012大會(huì)上，NVIDIA CEO黃仁勛就為我們正式介紹了全息Kepler架構(gòu)的GK110 GPU，產(chǎn)品將被應(yīng)用在Tesla K20 GPU計(jì)算卡上，相比Fermi提供3倍的雙精度浮點(diǎn)計(jì)算性能。

GK110采用28nm工藝，擁有71億晶體管，按照GK104的294mm²來(lái)計(jì)算應(yīng)該達(dá)到了550mm²+的水準(zhǔn)，同GF110一樣，GK110同樣是為雙精度浮點(diǎn)計(jì)算而設(shè)計(jì)的計(jì)算卡，雖然規(guī)格達(dá)到了兩倍的GK104，但是游戲性能提升將打一部分折扣，GK110單/雙精度浮點(diǎn)計(jì)算按照1/3設(shè)計(jì)，對(duì)比GK104則為1/24，很明顯是為游戲而設(shè)計(jì)的。

基于GK110的Tesla K20 GPU計(jì)算卡

而在高性能計(jì)算領(lǐng)域，GK110也是首款支持Hyper-Q、Dynamic Parallelism并行調(diào)度的GPU，這也是NVIDIA將其計(jì)算定位3.5代的原因，相比GK104有了顯著的改善。

規(guī)格方面GK110 71億晶體管主要用于CUDA核心、以及顯存控制器的增加，SMX流式多處理器增加到15組，每組繼續(xù)保持GK104的192 CUDA設(shè)計(jì)架構(gòu)，也就是GK110總計(jì)擁有多達(dá)2880個(gè)流處理器（CUDA）。

雙精度利器 GK110 SMX規(guī)格解析

GK110和GK104二者的架構(gòu)還是有所區(qū)別，為了增加雙精度計(jì)算能力，GK110每組SMX提供多達(dá)64個(gè)FMA雙精度單元，對(duì)比GK104只有8個(gè)FMA雙精度單元，這也是二者在雙精度計(jì)算能力上巨大差距的原因。

GK110 Die

按照NVIDIA的數(shù)據(jù)GK104的單雙精度計(jì)算能力分別為3.09TFLOPS和0.13TFLOPS，而GK110單雙精度計(jì)算能力分別達(dá)到了4.2TFLOPS和1.4TFLOPS，分別提升了36%和1077%。

GK110 SMX

為滿足帶寬傳輸需求，GK110提供了六組GDDR5顯存控制器，組成384Bit顯存位寬，顯存帶寬提升至256GB/s。而15組SMX流式多處理器共享的L2緩存也翻倍至1.5MB（對(duì)比Fermi為768KB），并具備ECC片上保護(hù)，線程只能單向調(diào)用L2緩存（或者通過(guò)L1->L2逐級(jí)調(diào)用），并不具備寫(xiě)入L2的權(quán)限。

頻率方面，GK110核心并不會(huì)像GK104沖破1GHz，作為計(jì)算卡，GK110會(huì)保守的設(shè)置在800MHz左右，盡管如此，GK110的功耗還是得到了顯著地提升，功耗應(yīng)該在260-300W之間的水平，需配備6pin+8pin PCI-E供電接口才能夠滿足。

已經(jīng)完善的GTX 600高端系列產(chǎn)品線

而在桌面推廣上，GK110很大可能將會(huì)為下一代GeForce GTX 780而準(zhǔn)備，由于架構(gòu)設(shè)計(jì)原因，玩家們期待的游戲性能將不足以推翻現(xiàn)有的GTX 690顯卡，不過(guò)更好的散熱控制，另外相對(duì)GTX 680不錯(cuò)的性能提升，還是可以勝任下一代顯卡的需求。

Quad Warp調(diào)度和Dynamic Parallelism解析

● Quad Warp Scheduler調(diào)度

在SMX流式多處理器中，每32并行線程叫做為warps，而每個(gè)SMX中擁有四組Warp Scheduler調(diào)度和八組instruction dispatch單元，允許四個(gè)warps同時(shí)執(zhí)行，而Kepler的Quad Warp Scheduler調(diào)度正是基于四組warps，在每個(gè)循環(huán)中可以指派2個(gè)獨(dú)立的指令，不同于Fermi，GK110允許雙精度指令和部分其他指令配對(duì)，例如load/store、texture以及一些整數(shù)型指令，以提高效率。

在采樣和圖像數(shù)據(jù)過(guò)濾，GPU硬件紋理單元顯得非常重要，相對(duì)Fermi，Kepler的紋理吞吐量得到急劇增加，每組SMX中包含了16個(gè)紋理填充單元，對(duì)比Fermi GPU（GF110）增加了4倍。

● Dynamic Parallelism

在混合CPU-GPU系統(tǒng)中，較大的并行代碼在GPU內(nèi)被完整執(zhí)行可有有效提升GPU的性能和效能，而目前來(lái)說(shuō)GPU并不具備完全處理這樣的并行任務(wù)，需要大量利用到CPU來(lái)參與計(jì)算處理，kernel的創(chuàng)建都需要CPU來(lái)實(shí)現(xiàn)，嚴(yán)重影響了GPU的計(jì)算執(zhí)行效率。

而為了讓GPU更大限度的發(fā)揮并行計(jì)算的能力，GK110引入了Dynamic Parallelism（動(dòng)態(tài)并行調(diào)度），使得GPU內(nèi)核有了獨(dú)立載入工作負(fù)載的能力，G能夠在GPU片上自身對(duì)kernel執(zhí)行后的結(jié)果進(jìn)行判斷并確定、創(chuàng)建后續(xù)新的kernel。 #p#page_title#e#

使用Dynamic Parallelism將大大簡(jiǎn)化了并行編程，讓GPU加速能夠應(yīng)用到更廣范圍的流行算法上，例如自適應(yīng)網(wǎng)格細(xì)分、高速多級(jí)法以及多柵法。

Hyper-Q和Grid Management Unit解析

● Hyper-Q

在Fermi時(shí)代，CPU只能夠同時(shí)運(yùn)行1個(gè)MPI（Message Passing Interface）任務(wù)，而Kepler GK110可以實(shí)現(xiàn)同時(shí)32個(gè)MPI的任務(wù)執(zhí)行，Hyper-Q讓多個(gè)CPU核心能夠同時(shí)利用單個(gè)Kepler GPU上的諸多CUDA核心。大大提升了GPU的利用率、縮短了CPU閑置時(shí)間、提高了可編程性。Hyper-Q非常適合采用MPI的集群應(yīng)用程序。

Hyper-Q的顯著改善在于使用MPI的并行計(jì)算系統(tǒng)，基于早期MPI系統(tǒng)算法的多核CPU系統(tǒng)的負(fù)載低于GPU的實(shí)際能力，導(dǎo)致GPU資源并不能被充分利用，GPU并沒(méi)有分配到足夠的工作，出現(xiàn)了虛假的瓶頸依賴，Hyper-Q將移除這些虛假依賴，大大提高了整個(gè)MPI進(jìn)程的GPU共享效率。

● Grid Management Unit

在Fermi時(shí)代，CWD（CUDA Work Distributor）下Grid進(jìn)入GPU內(nèi)執(zhí)行后，必須等到工作完全執(zhí)行完后才能運(yùn)行另一個(gè)Grid，而在GK110中，工作流程中加入了全新的Grid Management Unit管理單元，由CWD發(fā)射的Grid首先將進(jìn)入Grid Management Unit管理單元。

Grid Management Unit能夠智能管理CUDA創(chuàng)建的、CPU建立的gird，可以實(shí)現(xiàn)暫停新grid的分發(fā)、停掉申請(qǐng)的gird、掛起的grid，直到再需要它們的時(shí)候。SMX和Grid Management Unit有專門(mén)的直連連接，從而可以核準(zhǔn)在GPU上透過(guò)名為Dynamic Parallelism的技術(shù)將新工作發(fā)送回Grid Management Unit來(lái)排序和分發(fā)。

NVIDIA GPUDirect技術(shù)解析

● NVIDIA GPUDirect

面對(duì)大量數(shù)據(jù)，增加數(shù)據(jù)吞吐量和降低延遲是增加計(jì)算性能的關(guān)鍵，GK110支持NVIDIA GPUDirect的RDMA，允許第三方直接訪問(wèn)GPU顯存，例如IB適配器、NIC（網(wǎng)卡）和SSD，使用NVIDIA最新的CUDA 5.0，GPUDirect可以提供如下新特性：

- NIC和GPU之間無(wú)需CPU端數(shù)據(jù)緩沖的直接內(nèi)存訪問(wèn)（DMA）

- 顯著改善MPISend/ MPIRecv GPU和其他網(wǎng)絡(luò)節(jié)點(diǎn)之間的效率

- 消除CPU帶寬和延遲瓶頸

- 與大量第三方設(shè)備（采集、存儲(chǔ)設(shè)備）協(xié)同工作

例如在石油和天然氣勘探地震成像跨多個(gè)GPU的影像數(shù)據(jù)處理上，以往需要數(shù)以百計(jì)的CPU參與緊密合作，改用GPUDirect后，將直接改善多個(gè)GPU的影像數(shù)據(jù)的協(xié)同處理，CPU參與數(shù)據(jù)溝通的工作將得到全面緩解

關(guān)閉此頁(yè)

上一篇：電力電磁場(chǎng)仿真計(jì)算工作站配置方案2013

下一篇：NVIDIA首款云GPU：四核心Kepler架構(gòu)

一级毛片aaaaaa视频免费看|超人碰碰碰人人成碰人|一边吃奶一边扎下边爽了,亚洲欧美日韩中文高清一,真实破99年美女的处,欧美精品18videose×性欧美

2880流處理器！NVIDIA GK110詳細(xì)解讀

相關(guān)文章

工程技術(shù)(工科)專業(yè)工作站/服務(wù)器硬件配置選型

新聞排行榜

最新信息

應(yīng)用導(dǎo)航: