百塊刀片=10萬億次高性能計算機的解決方案`
高性能計算是英特爾至強5500新一代平臺最先普及的細分領(lǐng)域,這一點正在市場上得到驗證。在6月份的全球高性能計算機TOP500排行榜上,至強5500才發(fā)布短短三個月,就已經(jīng)有33套系統(tǒng)入選。究其原因,主要得益于更換新架構(gòu)后,新系統(tǒng)在浮點計算、帶寬、延遲方面都取得了堪稱“跨越式”的進展。
9月15日,在英特爾智能商用計算體驗峰會上,中國科學(xué)院合肥物質(zhì)科學(xué)研究院計算中心主任、中國科學(xué)院超級計算環(huán)境合肥分中心項目負責(zé)人曾雉也介紹了其利用基于至強5500處理器的浪潮刀片集群服務(wù)器構(gòu)建10萬億次高性能計算系統(tǒng)的案例。
中國科學(xué)院超級計算環(huán)境合肥分中心項目負責(zé)人曾雉
據(jù)了解,建立中國科學(xué)院超級計算環(huán)境是中國科學(xué)院“十一五”信息化規(guī)劃的重要內(nèi)容,是由院超級計算總中心、分中心、所級計算中心構(gòu)成的三層結(jié)構(gòu)網(wǎng)格環(huán)境,目標(biāo)是形成具有總計算能力200萬億次/秒以上的分布式高性能超級計算環(huán)境,旨在推動超級計算應(yīng)用水平的提高,為科學(xué)院科研信息化建設(shè)提供支撐服務(wù),成為中國國家網(wǎng)格的重要基礎(chǔ)設(shè)施之一。合肥研究院作為首批京外批準(zhǔn)建立的七個分中心之一,聚合計算能力將達到12萬億次/秒,總存儲容量24.2T,預(yù)計在2009年9月底之前完成安裝,其后將盡快向院內(nèi)外提供服務(wù)。
經(jīng)過中央國家機關(guān)政府采購中心組織招標(biāo),最終由浪潮公司中標(biāo)。據(jù)了解,針項目需求,并結(jié)合浪潮多年來在化學(xué)、物理、大氣、生物等科研領(lǐng)域高性能集群技術(shù)應(yīng)用的深刻理解,浪潮特別推出了“高單點配置、采用DDR InfiniBand計算存儲網(wǎng)絡(luò)、搭配高性能核心千兆以太監(jiān)管調(diào)度網(wǎng)絡(luò)、高效能電源(可達93%轉(zhuǎn)換效率)、統(tǒng)一遠程集群管理的,基于Intel 45nm 至強5500(Nehalem)處理器的天梭TS10000高性能集群解決方案”,由1臺管理節(jié)點、1臺雙路登陸節(jié)點、2臺網(wǎng)格節(jié)點、6臺并行IO節(jié)點以及112臺刀片計算節(jié)點構(gòu)成。
集群結(jié)構(gòu)圖
基本配置包括:112個浪潮NX7140N計算刀片(雙路四核至強5560 2.8GHz處理器,DDR3內(nèi)存,3GB/core,1塊64G SSD硬盤),總共有896個核;2套4路服器NF560D2胖節(jié)點,配置Xeon X7460,共48個內(nèi)核;一套16.2T容量的LUSTRE并行文件系統(tǒng),一套8T容量的存儲系統(tǒng);2個網(wǎng)格節(jié)點,1個登陸節(jié)點和管理節(jié)點,均采用2U機架服務(wù)器浪潮NF5220服務(wù)器(Xeon E5530四核,32GB DDR3內(nèi)存、1+1冗余電源、2塊146G SAS/5塊300G SAS/6塊450G SAS熱插拔硬盤);高速互聯(lián)網(wǎng)絡(luò)環(huán)境(20Gbps InfiniBand計算網(wǎng)絡(luò) + 1000M 管理網(wǎng)絡(luò))。
浪潮高性能服務(wù)器產(chǎn)品部總經(jīng)理劉軍告訴記者,之所以推出上述系統(tǒng)配置,正是基于“性能、節(jié)能、智能”三方面的考慮:
浪潮高性能服務(wù)器產(chǎn)品部總經(jīng)理劉軍
首先,為了實現(xiàn)更高的總體性能,光是CPU算得快還不夠,需要I/O跟上來,于是,選用了固態(tài)硬盤、LUSTRE并行文件系統(tǒng)、高速Infiniband網(wǎng)絡(luò)等。值得一提是,這是首次在HPC上大規(guī)模使用固態(tài)硬盤,因為,對于那些需要快速讀寫大文件的應(yīng)用,傳統(tǒng)磁盤或網(wǎng)絡(luò)讀取方式都存在很大I/O瓶頸,而固態(tài)硬盤在讀寫速度上要快很多。
在節(jié)能方面,刀片服務(wù)器本身就是一種節(jié)能的設(shè)計,實現(xiàn)10萬億次計算能力只需要3個機柜,而且使用了轉(zhuǎn)速效率高達93%的電源,讓每一瓦特的電力都能夠用到實處。
在智能方面,則體現(xiàn)在作業(yè)調(diào)度、用戶管理、網(wǎng)絡(luò)管理方面。浪潮部署了LSF作業(yè)調(diào)度系統(tǒng),以提高對大規(guī)模作業(yè)管理的高效性與便捷性;浪潮TSMM2.0監(jiān)控管理軟件,則用于實現(xiàn)對整套系統(tǒng)的單一映射,為系統(tǒng)管理員提供了監(jiān)控管理集群中各個節(jié)點的統(tǒng)一平臺。
為了進一步提高加速比,英特爾在程序并行化方面提供了幫助。由對Intel平臺優(yōu)化的Intel C、C++、Fortran編譯器、Intel MKL專用數(shù)學(xué)函數(shù)庫、Intel VTune調(diào)優(yōu)工具、Intel Trace analyzer、Trace Collector分析采集器,以及MPI、mpich、OpenMP、ACML、BLAS、LAPACK、Scalapack、FFT等構(gòu)成集群并行應(yīng)用環(huán)境。 #p#page_title#e#
另外,浪潮公司還贈送了一臺浮點計算峰值性能為2萬億次/秒的GPU計算機,雙方擬成立聯(lián)合項目組,針對典型應(yīng)用開展GPU平臺的研究開發(fā)與推廣。
談及為什么選擇至強5500平臺,曾雉表示,選型的理由其實很簡單。“對我們來說,由于項目很多,所以出結(jié)果的速度越快越好。我們在物理、化學(xué)和材料等領(lǐng)域比較測試了英特爾至強5500和其他廠商的產(chǎn)品,發(fā)現(xiàn)基于英特爾CPU的系統(tǒng)能夠快50%左右。”
由于應(yīng)用特性所限,對于超線程、虛擬化、萬兆以太網(wǎng)等熱門技術(shù),在高性能計算行業(yè)卻并不象在數(shù)據(jù)中心、商業(yè)計算領(lǐng)域那樣備受青睞,不過也并非一無是處。劉軍介紹說,雖然超線程技術(shù)對于大多數(shù)HPC應(yīng)用不起作用,但對于區(qū)域海洋環(huán)流模式這種應(yīng)用,卻能將性能提升80%;由于HPC大多是CPU密集型應(yīng)用,虛擬化也同樣不受待見,但由于有些HPC軟件只能運行在特定版本的操作系統(tǒng)上,這時,虛擬化就大有用武之地了;同樣,大多數(shù)大規(guī)模高性能計算集群在互聯(lián)上都選帶寬更高、延遲更低的Infiniband,卻不用萬兆以太網(wǎng),但對于某些應(yīng)用如在某個Fluent測試中,萬兆網(wǎng)效果就更好。