NVIDIA:GPU計(jì)算機(jī)2010年沖擊世界前十
TSUBAME:全球最快的GPU計(jì)算系統(tǒng)
據(jù)了解,在11月公布的最新一期TOP500排行榜上,NVIDIA Tesla的最好成績(jī)是第29位。這套名為“TSUBAME”的系統(tǒng)由NEC和SUN公司聯(lián)合研制,采用了“CPU+GPU”的混合架構(gòu),包括3萬(wàn)多顆AMD Opteron和英特爾Xeon處理器內(nèi)核,以及170臺(tái)Tesla S1070 1U服務(wù)器,安裝在日本東京工業(yè)大學(xué),Linpack測(cè)試性能是77.48萬(wàn)億次每秒(TFlops),理論峰值接近170萬(wàn)億次每秒。
據(jù)介紹,1臺(tái)S1070內(nèi)置4塊Tesla GPU處理器卡,每個(gè)GPU處理器卡擁有240個(gè)流處理器核,也就是說(shuō)1臺(tái)S1070總共擁有960個(gè)內(nèi)核,內(nèi)核頻率在1.296-1.44GHz之間,可以并行執(zhí)行成千上萬(wàn)計(jì)的線程。S1070最大內(nèi)存支持16GB,最大功耗800W,支持PCIe x16 or x8擴(kuò)展。其單精度峰值浮點(diǎn)計(jì)算性能可以達(dá)到3.73 to 4.14萬(wàn)億次每秒,雙精度浮點(diǎn)性能可達(dá)到311 to 345 GFlops。也就是說(shuō),GPU雙精度計(jì)算性能是單精度性能的8%左右。
根據(jù)TOP500歷史資料顯示,早在2006年,東京工業(yè)大學(xué)就構(gòu)筑了“TSUBAME Grid Cluster”高性能計(jì)算系統(tǒng),當(dāng)時(shí)的雙精度浮點(diǎn)運(yùn)算速度達(dá)到38.18萬(wàn)億次每秒,在2006年6月TOP500中位居全球第7位。雖然之后該系統(tǒng)也不斷升級(jí),提高性能,但很難趕上全球高性能計(jì)算機(jī)的快速發(fā)展速度,在2008年6月公布的TOP500中,運(yùn)算速度為67.7TFLOPS,排名跌至第24位。
此前,東京工業(yè)大學(xué)全球科技信息和計(jì)算中心主任Satoshi Matsuoka曾表示,東京工大一直在研究未來(lái)的計(jì)算平臺(tái),發(fā)現(xiàn)要想實(shí)現(xiàn)下一步的性能跨越,TSUBAME必須采用GPU計(jì)算技術(shù)。“我們的應(yīng)用測(cè)試發(fā)現(xiàn),Tesla GPU提供了我們前所未見的加速比,而且只花了一周時(shí)間就把GPU系統(tǒng)部署完成。”
此番通過(guò)增加170個(gè)Tesla節(jié)點(diǎn),增加了10萬(wàn)億次的雙精度計(jì)算能力,按照現(xiàn)在4核的基本性能,大約相當(dāng)于125個(gè)刀片的計(jì)算能力。如果我們按照單精度計(jì)算性能來(lái)計(jì)算,由于一個(gè)Tesla S1070的運(yùn)算能力最大可達(dá)到4.1萬(wàn)億次每秒,也就是說(shuō)170臺(tái)S1070可以實(shí)現(xiàn)697萬(wàn)億次每秒,性能提升比較可觀。
性能與功耗的問題
不過(guò),記者也了解到,目前高性能計(jì)算用戶大都需要雙精度計(jì)算,Tesla有限的雙精度性能使其應(yīng)用領(lǐng)域受到了限制。Andy Keane告訴記者,NVIDIA的GPU向雙精度方向發(fā)展也是這兩年的時(shí)間,在2006年時(shí)還沒有雙精度單元,但到2008年我們已經(jīng)把雙精度性能做到了84 GFlops。
他談到,當(dāng)前10系列GPU是首批擁有雙精度的NVIDIA處理器。過(guò)去這種性能曾作為GPU的一個(gè)模塊添加在GPU當(dāng)中。而在這一代產(chǎn)品中,NVIDIA為每組八個(gè)單精度處理器加入了一個(gè)雙精度單元。隨著快速發(fā)展,未來(lái)的GPU將擁有更多雙精度單元。由于GPU的性能一般每年都會(huì)翻一番,未來(lái)雙精度性能將至少比當(dāng)前的速度快5倍。
除了性能提升,成本、功耗、占地面積也是大規(guī)模超級(jí)計(jì)算機(jī)用戶所關(guān)心的重要因素。目前,NVIDIA的GPU桌面高性能計(jì)算機(jī)在美國(guó)麻省理工學(xué)院、哈佛大學(xué)、伊利諾伊大學(xué)、英國(guó)劍橋大學(xué)、德國(guó)布倫瑞克里大學(xué)以及韓國(guó)延世大學(xué)的使用也證明了這些價(jià)值。如比利時(shí)安特衛(wèi)普大學(xué)原來(lái)用的超級(jí)計(jì)算機(jī)有512顆處理器核,成本是530萬(wàn)美元,占用了好幾個(gè)機(jī)柜;而后來(lái)?yè)Q成一臺(tái)擁有8個(gè)GPU的臺(tái)式系統(tǒng),性能相當(dāng),成本只有7000美元,占地面積也大為減少。
另外值得一提的是,通過(guò)混合架構(gòu)來(lái)提升性能,降低功耗的做法在IBM的“走鵑”超級(jí)計(jì)算機(jī)中已經(jīng)得到較好的驗(yàn)證。比如同樣是一千萬(wàn)億次的計(jì)算性能,IBM“走鵑”的系統(tǒng)功耗只有2483.47千瓦,而Cray “美洲豹”卻使用了6950.6千瓦。一個(gè)重要的原因就在于IBM“走鵑”采用了“Opetron+CELL”的混合結(jié)構(gòu):皓龍?zhí)幚砥髫?fù)責(zé)標(biāo)準(zhǔn)的運(yùn)算處理如文件系統(tǒng)的I/O,而PowerXCell 芯片主要加速數(shù)學(xué)和 #p#page_title#e#CPU密集型運(yùn)算。從性能上看,正是這些CELL處理器承擔(dān)了大多數(shù)計(jì)算重任——6000多個(gè)Opteron處理器僅貢獻(xiàn)了44萬(wàn)億次每秒(teraflops)的性能,而12000多顆CELL芯片貢獻(xiàn)了1332萬(wàn)億次峰值性能,使得功耗大幅降低。
而NVIDIA的GPGPU計(jì)算思路可謂有異曲同工之妙。Andy Keane告訴記者,在NVIDIA的“CPU+GPU”混合系統(tǒng)中,CPU負(fù)責(zé)執(zhí)行順序型任務(wù),如操作系統(tǒng)和數(shù)據(jù)庫(kù),GPU則主要承擔(dān)并行計(jì)算任務(wù)。“Tesla可以節(jié)省100倍的成本和100倍的功耗。”
CUDA編程:Tesla的最大優(yōu)勢(shì)
不過(guò),也有業(yè)內(nèi)人士告訴記者,IBM的走鵑雖然實(shí)現(xiàn)了千萬(wàn)億次性能,但卻非常難用,主要是多核編程非常困難,特別是在涉及到了幾萬(wàn)個(gè)核心的超大規(guī)模,而且又是面對(duì)“X86CPU+CELL”的異構(gòu)計(jì)算環(huán)境。而在Andy Keane看來(lái),NVIDIA的一大優(yōu)勢(shì)就是CUDA架構(gòu)。“CUDA并行架構(gòu)支持OpenCL、DX11等API,支持C/C++、FORTRAN等通用語(yǔ)言。由于該架構(gòu)支持工業(yè)標(biāo)準(zhǔn)的C語(yǔ)言編程環(huán)境,使得開發(fā)人員可以非常方便、快捷地利用到GPU的并行計(jì)算性能。而且關(guān)鍵的一點(diǎn)是,對(duì)于我們不同代的GPU產(chǎn)品,軟件編寫一次后就不需要修改。”
對(duì)于中國(guó)的超級(jí)計(jì)算機(jī)用戶來(lái)說(shuō),在獲取軟件時(shí),要么購(gòu)買商業(yè)軟件,要么自己開發(fā),或者在商業(yè)軟件方案的基礎(chǔ)上進(jìn)行二次開發(fā)。那么,CUDA能在多大程度上幫到他們呢?
Andy談到,“我們與打算發(fā)布超級(jí)計(jì)算軟件的獨(dú)立軟件供應(yīng)商都進(jìn)行了積極的開發(fā)工作。分子動(dòng)力學(xué)領(lǐng)域的《NAMD/VMD》以及《GROMACS》是為群集GPU發(fā)布的兩個(gè)應(yīng)用程序例子。在美國(guó)的超級(jí)計(jì)算展會(huì)上,我們還展示了許多用于石油天然氣領(lǐng)域地震處理、量子化學(xué)以及Ansys有限元設(shè)計(jì)的應(yīng)用程序。 對(duì)于想要自己設(shè)計(jì)和開發(fā)應(yīng)用程序的開發(fā)人員,用于CUDA架構(gòu)的并行計(jì)算開發(fā)C語(yǔ)言編譯器可從NVIDIA網(wǎng)站上免費(fèi)下載。Portland Group的Fortran等其它編譯器也正在陸續(xù)推出。有很多來(lái)自NVIDIA以及其它來(lái)源的程序庫(kù),這些庫(kù)使應(yīng)用程序更易于開發(fā)。針對(duì)這些不懂C語(yǔ)言或Fortran的開發(fā)人員,Accelereyes以及Wolfram(Mathematica)等公司還提供了GPU加速版的軟件。因此你可以看到,利用GPU計(jì)算優(yōu)勢(shì)的方式有許多種。 ”
據(jù)介紹,迄今為止,NVIDIA已經(jīng)在全球賣出了1億顆以上支持CUDA的GPU產(chǎn)品,CUDA 開發(fā)人員超過(guò)了2.5萬(wàn)人,全世界有50多所大學(xué)開設(shè)了CUDA課程,包括中國(guó)科學(xué)院、清華大學(xué)等,GPU計(jì)算的生態(tài)系統(tǒng)已經(jīng)形成。
“我個(gè)人非常有信心,Tesla會(huì)在2010年進(jìn)入全球高性能計(jì)算機(jī)TOP500的前十位。”他還透露說(shuō),除了日本東京工業(yè)大學(xué),美國(guó)國(guó)家超級(jí)運(yùn)算應(yīng)用中心(NCSA)以及法國(guó)原子能委員會(huì)(CEA)兩家著名的超級(jí)計(jì)算中心,也在研制基于GPU的計(jì)算機(jī),預(yù)計(jì)將躋身下一屆世界五百?gòu)?qiáng)榜單。