峰值10萬億次的集群服務(wù)器系統(tǒng)挑戰(zhàn)計(jì)算化學(xué)苛刻應(yīng)用
不久前,基于刀片集群的浪潮天梭TS10000高性能服務(wù)器成功中標(biāo)山西師范大學(xué)的計(jì)算化學(xué)應(yīng)用項(xiàng)目。這套國內(nèi)計(jì)算化學(xué)領(lǐng)域單臺(tái)計(jì)算能力最強(qiáng)的集群系統(tǒng),峰值達(dá)10.98萬億次每秒,是國內(nèi)計(jì)算化學(xué)領(lǐng)域單臺(tái)計(jì)算性能最強(qiáng)的高性能計(jì)算機(jī),進(jìn)入2009年國內(nèi)高性能計(jì)算TOP100排名。這套系統(tǒng)的全面投入使用,使學(xué)校各個(gè)實(shí)驗(yàn)室的科研效率來了一次“大提速”。許多極具挑戰(zhàn)性的計(jì)算課題,從耗時(shí)幾個(gè)月的“持久戰(zhàn)”變成了幾天之內(nèi)解決戰(zhàn)斗的快速“閃電戰(zhàn)”。而對(duì)于山西師大這所具有50多年歷史的重點(diǎn)高校而言,在與兄弟院校的綜合實(shí)力比拼中,科學(xué)計(jì)算能力和科研效率的跳躍式提升。
計(jì)算瓶頸凸顯科研創(chuàng)新受制
山西師范大學(xué)創(chuàng)建于1958年,1984年更名為山西師范大學(xué)。建校以來,學(xué)校立足山西、服務(wù)全國、面向世界,秉承育人為本、崇尚學(xué)術(shù)的辦學(xué)理念,堅(jiān)持創(chuàng)新教育、實(shí)踐教育的教育教學(xué)理念,現(xiàn)已發(fā)展成為學(xué)科門類比較齊全、培養(yǎng)體系比較完備、辦學(xué)特色比較鮮明、向社會(huì)全面開放的省屬重點(diǎn)師范大學(xué)。
山西師范大學(xué)在化學(xué)、材料領(lǐng)域擁有非常雄厚的實(shí)力,2005—2006年化學(xué)學(xué)科發(fā)表在世界化學(xué)類最高影響因子的論文在全國高校同類專業(yè)排名第16位。山西師范大學(xué)此次高性能系統(tǒng)主要用來做計(jì)算化學(xué)、材料科學(xué)方面的高性能計(jì)算工作,另外也為全校師生提供計(jì)算服務(wù),主要應(yīng)用軟件是Gaussian、Materials Studio等量子化學(xué)軟件和一些其他計(jì)算軟件。
但隨著山西師大科研創(chuàng)新步伐的加快,海量的計(jì)算任務(wù)開始讓學(xué)?,F(xiàn)有的計(jì)算平臺(tái)“喘不過氣來”。為此,學(xué)校曾采購過一些小規(guī)模的計(jì)算集群,但隨著各院系、實(shí)驗(yàn)室計(jì)算任務(wù)的不斷增加,新平臺(tái)又很快達(dá)到滿負(fù)荷狀態(tài)。許多大的計(jì)算任務(wù)由于排隊(duì)等待和計(jì)算速度的原因,經(jīng)常需要幾個(gè)星期甚至一兩個(gè)月的計(jì)算時(shí)間,由此造成的項(xiàng)目進(jìn)度的滯后長(zhǎng)期困擾著廣大師生和科研人員。構(gòu)建一套高性能、高可靠、高效率的大型計(jì)算平臺(tái)也隨之被提上了日程。
算例測(cè)試,看誰在鈴響前“交卷”?
作為國內(nèi)高性能計(jì)算領(lǐng)域的領(lǐng)導(dǎo)廠商,浪潮從一開始便參與到山西師大高性能系統(tǒng)的建設(shè)中。通過前期溝通,浪潮了解到,客戶的主要應(yīng)用軟件是Materials Studio、Gaussian 03等計(jì)算化學(xué)軟件包。計(jì)算化學(xué)類軟件包,計(jì)算化學(xué)軟件種類眾多,不同軟件對(duì)于高性能服務(wù)器有個(gè)不同的要求,這就需要HPC廠商根據(jù)客戶的需要來搭建適合應(yīng)用的HPC系統(tǒng)。
項(xiàng)目前期,客戶提出要以3個(gè)Gaussian軟件為測(cè)試算例,根據(jù)測(cè)試算例的分析和計(jì)算結(jié)果來決定方案。據(jù)了解,這三個(gè)算例是Gaussian軟件中最常用的三個(gè)算法,計(jì)算對(duì)象的化學(xué)結(jié)構(gòu)非常復(fù)雜,其中一個(gè)測(cè)試任務(wù)便包括20960個(gè)基函數(shù)(計(jì)算化學(xué)中一般體系的大小用總基組函數(shù)數(shù)量表示,基函數(shù)數(shù)目越多,表示計(jì)算的體系越大),要完成這個(gè)計(jì)算任務(wù),初步估計(jì)就需要1687.08GB的內(nèi)存容量和17947.78TB的存儲(chǔ)容量!如此大規(guī)模的計(jì)算任務(wù)對(duì)所有參測(cè)廠商的方案解決和硬件實(shí)現(xiàn)能力都是一次嚴(yán)峻的考驗(yàn)。
浪潮高性能應(yīng)用工程師憑借多年來在科學(xué)計(jì)算領(lǐng)域的深厚積累,對(duì)Gaussian算法的應(yīng)用特點(diǎn)進(jìn)行了深入鉆研,并從計(jì)算性能、效率、成本等多角度著眼,尋找最佳的解決方案。最終,經(jīng)過縝密的軟硬件選型和反復(fù)的調(diào)整優(yōu)化,浪潮應(yīng)用測(cè)試報(bào)告率先完成,而這竟是唯一一份在在測(cè)試截止時(shí)間之前完成的報(bào)告。浪潮也憑借對(duì)客戶應(yīng)用的深入理解和天梭TS10000高性能服務(wù)器的整體方案優(yōu)勢(shì)在本次招標(biāo)中最后勝出。
對(duì)癥下藥量身定制
經(jīng)過前期對(duì)客戶算例的大量測(cè)試比較,浪潮摸清了山西師大本次計(jì)算平臺(tái)建設(shè)的應(yīng)用需求,并以此為依據(jù)明確了天梭TS10000高性能系統(tǒng)的設(shè)計(jì)思路。
鑒于計(jì)算化學(xué)應(yīng)用需要強(qiáng)大的浮點(diǎn)運(yùn)算能力,并對(duì)計(jì)算節(jié)點(diǎn)有著大內(nèi)存、低功耗和協(xié)作程度高的要求,根據(jù)客戶的應(yīng)用特點(diǎn)和前期測(cè)試結(jié)果,浪潮將計(jì)算模塊分為三類,即普通計(jì)算節(jié)點(diǎn)、厚節(jié)點(diǎn)和胖節(jié)點(diǎn),分層次解決不同任務(wù)的計(jì)算需求。 #p#page_title#e#
其中,普通節(jié)點(diǎn)采用了110臺(tái)NX7100DB刀片。考慮到計(jì)算化學(xué)軟件計(jì)算過程中常會(huì)產(chǎn)生許多大容量的臨時(shí)文件,這款7U10刀的高性能刀片專門配置了500GB的3.5寸SATA硬盤,在存儲(chǔ)容量和速度上優(yōu)勢(shì)明顯;用10臺(tái)刀片組成的厚節(jié)點(diǎn)主要是來處理對(duì)運(yùn)算速度有苛刻要求的大型計(jì)算任務(wù),專門配置高主頻高性能的處理器,配合每節(jié)點(diǎn)32GB內(nèi)存和Raid 5,使計(jì)算性能、I/O速度、數(shù)據(jù)安全都有了可靠保證;而對(duì)于一些對(duì)內(nèi)存容量要求很高的計(jì)算任務(wù),則用2臺(tái)四路六核NF560D2來承擔(dān),采用英特爾® 至強(qiáng)® 7460 處理器,高達(dá)96GB的內(nèi)存容量,加上8TB的本地存儲(chǔ)容量和1+1+1全熱備冗余電源,能夠妥善解決計(jì)算化學(xué)軟件帶來的計(jì)算壓力。
這套浪潮TS10000共包括128個(gè)節(jié)點(diǎn),1套20TB存儲(chǔ)盤陣,采用20Gbps全線速Infiniband網(wǎng)絡(luò)與計(jì)算節(jié)點(diǎn)實(shí)現(xiàn)高速互聯(lián),具有計(jì)算性能優(yōu)越、功耗控制領(lǐng)先、監(jiān)控管理系統(tǒng)方便易用、系統(tǒng)開放易于擴(kuò)展、服務(wù)體系完善等特點(diǎn)。
經(jīng)過浪潮高性能工程師的方案調(diào)優(yōu),系統(tǒng)的計(jì)算能力峰值為10.98萬億次每秒,Linpack測(cè)試效率為0.806,進(jìn)入09年國內(nèi)高性能計(jì)算TOP100排名,是國內(nèi)計(jì)算化學(xué)領(lǐng)域單臺(tái)計(jì)算性能最強(qiáng)的高性能計(jì)算機(jī)。
浪潮天梭TS10000系統(tǒng)的上線,使山西師范大學(xué)的計(jì)算化學(xué)研究獲得了起飛的平臺(tái)。以前需要幾個(gè)星期甚至一兩個(gè)月進(jìn)行計(jì)算的任務(wù),現(xiàn)在縮短到了幾天時(shí)間。往常計(jì)算任務(wù)“塞車”,科研進(jìn)度受拖累的現(xiàn)象隨之消除??蒲行实拇笞冞w正在推動(dòng)山西師范大學(xué)的化學(xué)、材料科學(xué)研究向全國前十的目標(biāo)邁進(jìn)。
而對(duì)于浪潮而言,贏得此次項(xiàng)目,靠的不僅是浪潮優(yōu)異的產(chǎn)品、良好的服務(wù),更是靠浪潮在科學(xué)計(jì)算領(lǐng)域豐富的應(yīng)用經(jīng)驗(yàn)、業(yè)界領(lǐng)先的方案解決和本地化服務(wù)能力。
經(jīng)過多年實(shí)踐,浪潮的高性能團(tuán)隊(duì)擁有了大批專業(yè)的HPC應(yīng)用工程師、系統(tǒng)工程師。他們不僅在計(jì)算節(jié)點(diǎn)構(gòu)建、高速網(wǎng)絡(luò)交換方面積累了深厚的技術(shù)功底,還在HPC應(yīng)用的專業(yè)領(lǐng)域,包括計(jì)算化學(xué)、材料化學(xué)、工程計(jì)算等方面擁有豐富的并行軟件開發(fā)、使用、調(diào)優(yōu)經(jīng)驗(yàn)。這種技術(shù)專家與應(yīng)用高手相結(jié)合的人員構(gòu)成,使浪潮的HPC解決方案能夠真正深入到行業(yè)應(yīng)用中去,幫助行業(yè)用戶以較低的成本實(shí)現(xiàn)高效、可靠的高性能計(jì)算。此外,本地化的原廠級(jí)服務(wù)也是浪潮的一大特色。原廠工程師、高響應(yīng)級(jí)別的技術(shù)服務(wù)支持,能夠保證系統(tǒng)故障在最短時(shí)間內(nèi)得到妥善解決,客戶由于技術(shù)故障造成的損失也隨之被降到了最低點(diǎn)。