氣象數(shù)據運算 巴塞羅那真四核彰顯威力
氣象預測一直是高性能計算機產品的主要用戶之一,其為人民提供日常生產、生活所必須的信息資料。作為國內服務器行業(yè)領軍企業(yè)的曙光公司,在氣象行業(yè)應用中有著廣泛的經驗,早在2002年,曙光公司就推出了基于MM5模式的氣象專用機,充分優(yōu)化了并行機上的MM5模式。隨后,曙光公司在 2004年為氣象行業(yè)完成了從32位平臺到64位平臺的移植。在今年4月,曙光公司又首次完成了WRF模式在X64高性能機群系統(tǒng)上的業(yè)務移植,開創(chuàng)了國內在64位機上做WRF模式業(yè)務的先河。近期,曙光公司又首度將AMD公司新推出的巴塞羅那處理器成功應用在了氣象行業(yè),打造了成熟的四路四核信息化服務系統(tǒng),為蘇州氣象局提供了一套集高可用性、高穩(wěn)定性于一身的科學、成熟的氣象預測平臺。
高性能需求的氣象預測平臺
氣象預測是氣象科學中發(fā)展最為迅速的一個重要組成部分,他所研究的大氣運動關系到區(qū)域重要災害性天氣的生消。它一方面應用衛(wèi)星、雷達、風廓線儀和自動觀測站等一系列新的探測工具,獲取觀測實時數(shù)據;另一方面通過數(shù)值模式,對天氣變化過程進行深入的模擬研究和預報試驗。
蘇州氣象局是該行政區(qū)域內最大的氣象事業(yè)組織,負責該行政區(qū)域內重大災害性天氣跨地區(qū)、跨部門的聯(lián)合監(jiān)測、預報工作,需及時提出氣象災害防御措施,并對重大氣象災害作出評估,為本級人民政府組織防御氣象災害提供決策依據。在變換莫測的自然天氣狀況前,蘇州氣象局需要一套高性能計算機系統(tǒng),來滿足其在氣象預測工作中的各種需求。
首先,氣象預報有著驚人的計算量,其必須在規(guī)定時間內將各個觀測點傳輸來的實時數(shù)據進行分析、計算。而且,伴隨人們對氣象預測精度所提出的越來越高的要求,氣象預報精度的的范圍從以往的幾百公里縮小到了幾公里,這就更加提高了計算模型的運算量。其次,在高速的運算過程中,各個CPU之間的通訊量也非常巨大,整個系統(tǒng)需要有高性能的通訊網絡。另外,氣象預測具有實時性的特點,整個預測系統(tǒng)需要定時定點運行,無需人工干預,具有良好的管理控制性能。
本次針對蘇州氣象局的應用需求,曙光公司將已獲得廣泛好評的曙光TC4000A機群系統(tǒng)與AMD公司新推出的巴塞羅那處理器相結合,為蘇州氣象局提供了一整套完善的
高端配置的曙光TC4000A
曙光公司本次為蘇州氣象局配置的TC4000A機群系統(tǒng)由20臺計算節(jié)點、2臺I/O節(jié)點、1臺管理節(jié)點和1臺登陸節(jié)點組成,系統(tǒng)采用Infiniband作為計算網絡/數(shù)據傳輸網絡,同時配備千兆以太網作為管理維護網絡,各配件設施的完美組合,奠定了整體系統(tǒng)高達25600億次/秒的運算能力。
天氣預報具有很高的時效性,要求在規(guī)定的時間內得到預測結果,因此機群系統(tǒng)的運算能力就需要面對海量氣象數(shù)據的挑戰(zhàn)。曙光公司在蘇州氣象局的機群系統(tǒng)中,用最新2.0GHz 的AMD巴塞羅那四核處理器為系統(tǒng)打造了強大的浮點、定點運算能力。這些作為運算核心的高性能處理器,鑲嵌在作為計算節(jié)點的曙光天闊A820r-F中,每個節(jié)點在2U的機架空間內集成了四路四核的體系架構,且均可進行并行計算,形成了強大的處理能力,完全可滿足系統(tǒng)的運算需求。
為提高機群系統(tǒng)的整體性能,機群系統(tǒng)的I/O性能也是需要突破的一大瓶頸,否則機群的運算能力將會受到制約,無法顯現(xiàn)四核處理器高速、流暢的運算性能。曙光公司在該系統(tǒng)中將用于計算數(shù)據通訊的網絡和管理、登陸網絡分開搭建,不同用途的數(shù)據分流傳輸,解決了管理系統(tǒng)數(shù)據與運算數(shù)據爭搶帶寬資源的窘況。
在計算數(shù)據網絡中,雙路雙核配置的曙光天闊A620r-F擔當了系統(tǒng)中的I/O節(jié)點,其通過心跳線做成了高可用系統(tǒng),可為整個系統(tǒng)提供持續(xù)的I/O服務。在I/O節(jié)點中,Infiniband網絡作為接入數(shù)據網絡,其提供了高達20Gb/s的雙向帶寬,延遲只有幾個微秒。并且,每臺I/O節(jié)點配置了1塊 4Gb/s的光纖HBA卡,分別和具備2個4Gb/s主機通道的光纖磁盤陣列柜相連,為系統(tǒng)提供了超強的存儲空間和強大的I/O能力。 #p#page_title#e#
在管理和登陸通訊網絡中,節(jié)點也同樣采用天闊A620r-F,加上專用的千兆網,承擔起和其它網絡的通訊以及系統(tǒng)管理、監(jiān)控的責任。作為管理、登陸節(jié)點,速度不再是苛求的目標,長期平穩(wěn)的運算性能是用戶更為關心的特質。因此,在管理節(jié)點機的配置中,設計者別具匠心的在A620r-F中采用了可提供病毒防護功能的高性能BIOS;可以選單/雙通道SCSI RAID配置,支持在線恢復RAID陣列;多網卡冗余體系,保證系統(tǒng)穩(wěn)定均衡的處理網絡負載。各種配置,為管理節(jié)點提供了細致入微的高可靠性。
在機群的操作系統(tǒng)中,配有曙光公司獨家設計的第二代監(jiān)控系統(tǒng),采用并發(fā)機制,能夠按用戶的需求伸縮管理配置功能,可對新增節(jié)點提供配置、管理的功能,使其自動納入管理范圍。該種采用模塊化形式設計的管理系統(tǒng),大大提高了系統(tǒng)可靠性和可管理性。
另外,整個機群的機柜系統(tǒng)采用符合工業(yè)標準的41U機柜,內部含網絡布線系統(tǒng),支持強電和弱電分離,可以實現(xiàn)整個機群內24個節(jié)點100ms自動分時上電,減少了因集中上電對電源系統(tǒng)造成的沖擊,為系統(tǒng)提供了更好的安全性能。
成熟科學的解決方案
曙光4000A超級計算機機群系統(tǒng)是一款成熟的產品,在實際應用中的曙光4000A,平均無故障時間(MTBF)突破了25萬小時大關,其高穩(wěn)定性和可靠性已經得到了實際應用的證實。在本次為蘇州氣象局設計的超級計算機解決方案中,曙光公司將成熟的產品與當前信息技術的發(fā)展趨勢相結合,在整個方案中體現(xiàn)了優(yōu)異的先進性、擴展性、兼容性和完整性。
先進性
在江蘇氣象局的信息化解決方案中,無論是在硬件還是軟件方面都體現(xiàn)了曙光公司產品的技術先進性,其順應信息化產業(yè)的主流發(fā)展趨勢,集合新產品和曙光公司的技術優(yōu)勢,為用戶提供了更高性能的新世代產品。
在硬件方面,該解決方案的先進性主要體現(xiàn)在其所配置的“巴塞羅那”四核處理器上。同以往的雙核處理器相比,該款AMD新推出的四核處理器,不僅僅增加了CPU Core的數(shù)量,其在每一個CPU Core內部,將SSE執(zhí)行單元加寬至128位,極大的提高了單核心的浮點處理性能,平均性能提高了54%。同時,巴塞羅那處理器沿襲了AMD獨特設計的集成內存控制器,使CPU到內存的路徑更短,并在內存帶寬上采用了一系列優(yōu)化技術,使得在不做其他改動的前提下,內存性能比雙核皓龍?zhí)嵘?0%,它們是構建蘇州氣象局高可用性信息化系統(tǒng)的奠基石。
整個蘇州氣象局信息化系統(tǒng)空載運行功耗僅10千瓦,滿載最大運行功耗也才達13千瓦,這一切節(jié)能優(yōu)勢都是從細小的處理器節(jié)能技術展開的。巴塞羅那處理器在節(jié)能方面采用了更精細的內部控制,擁有業(yè)界首次使用的雙重動態(tài)電源管理(DDPM)技術,能對CPU和內存控制器分別獨立供電,使得在功耗降低的同時獲得更高的內存帶寬。
另外,巴塞羅那更進一步提供硬件層的快速虛擬化索引技術(RVI),顯著地提升內存訪問的性能,提升虛擬機與物理機之間的數(shù)據傳送及翻譯轉換,使虛擬化性相比雙核產品能有75%的提升,其在CPU底層為虛擬化技術提供了良好的硬件支持。
盡管四核的巴塞羅那處理器性能較比雙核提升許多,但其售價卻并未成倍增長,加之其通用的標準特性可與雙核產品配件完全兼容,這使得巴塞羅那處理器具有了前代產品無法比擬的性價比。在信息化服務的實際應用中,其也使得服務器產品倍受用戶青睞。
在整個解決方案的軟件方面,曙光公司自主研發(fā)的,面向用戶和網格的系統(tǒng)管理軟件也同時體現(xiàn)了解決方案的先進性。該機群管理軟件可提供非常直觀的監(jiān)控功能,可跨操作系統(tǒng)和硬件平臺采集信息,將這些信息有效的匯總和顯示,實時監(jiān)控系統(tǒng)各節(jié)點的工作情況,有效監(jiān)控整個機群的用戶環(huán)境。并且,監(jiān)控系統(tǒng)采集的系統(tǒng)信息、硬件信息和電源信息通過獨立的I& sup2;C網絡傳輸,保證了監(jiān)控的獨立性和健全性,還可用圖形展示的方式對各節(jié)點的單項數(shù)據進行對比。 #p#page_title#e#
擴展性
在科學技術飛速發(fā)展的今天,任何一套信息化解決方案都必須考慮到用戶的需求變化,一套信息化系統(tǒng)如果不能適應用戶需求的變化,不具備良好的擴展性,它勢必只有短暫的技術生命,而且是對用戶投資的浪費。
在曙光公司為江蘇氣象局提供的信息化解決方案中,各節(jié)點機采用目前最先進的AMD16路服務器的系統(tǒng)架構,既滿足了整個系統(tǒng)平臺的應用要求,又滿足了今后系統(tǒng)升級后的需要。
負責計算數(shù)據通訊的Infiniband網絡,可以使現(xiàn)有系統(tǒng)具有良好擴展性,滿足下一代系統(tǒng)的要求。它可實現(xiàn)PCB上部件與部件間的互連,也可以用來實現(xiàn)一種超出機箱外部的底板之間的互連。并且,每個鏈路都是基于4根信號線的2.5Gbps雙向連接,在擴展的產品部件的同時,還提供了良好的性能。
曙光TC4000A的機柜、電源、系統(tǒng)管理都可以使系統(tǒng)無縫擴展至更多節(jié)點。視頻切換系統(tǒng)可以在線擴容至99個節(jié)點;電源的設計可以提供4個機柜的用電量;機群操作系統(tǒng)可以無縫擴展,可直接將擴容的節(jié)點機納入當前的系統(tǒng)中進行管理、調度;當任務量增加,需要增加計算單元時,系統(tǒng)只需要簡單的增加節(jié)點設備即可,這樣保證了當前的投資,而且保證了系統(tǒng)的完整性。
兼容性
在信息化服務市場中,充斥著各式各樣的軟硬件產品,用戶也會根據自己的需求選擇不同的產品進行組合搭配。因此,用戶的信息化平臺應該是一個具有良好包容性的中性平臺,其可在硬件上兼容各廠商的標準配件,在軟件上平穩(wěn)運行各種操作系統(tǒng)和應用程序,只有這樣的應用平臺才具有良好的實用價值。
在蘇州氣象局的信息化解決方案中,曙光機群系統(tǒng)的良好兼容性得到了充分體現(xiàn)。該系統(tǒng)中,普通PC機能夠運行的應用軟件都能直接在機群系統(tǒng)上運行。另一方面,由于目前機群技術的廣泛使用,機群成為了目前大型機和超級計算機的主流,絕大部分高端的并行應用軟件都能很好的在該機群系統(tǒng)上運行。
在應用方面,該系統(tǒng)處理器可兼容64位和32位的應用,普通的32位應用軟件可以不經過重新編譯直接運行在這樣的系統(tǒng)之中,用戶可以由32位平滑的過渡到64位。同時,系統(tǒng)中還提供有標準接口以供和其它系統(tǒng)相連接,其在用戶需要時,可很好的和其它的機群系統(tǒng)、大型主機實現(xiàn)對接。
在操作系統(tǒng)中,曙光4000A采用具有更好開放性的LINUX操作系統(tǒng),其比封閉的UNIX操作系統(tǒng)具有更好的兼容性,其也是目前服務器中應用最廣泛的操作系統(tǒng)。另外,曙光機群的管理系統(tǒng)也具有很好的兼容性和跨平臺性,它能很好的運行在目前主流的操作系統(tǒng)之上,包括Linux、UNIX和Windows,還能完美的實現(xiàn)異構集群系統(tǒng)的管理。
完整性
曙光公司為蘇州氣象局提供的信息化解決方案是基于氣象行業(yè)應用的整體性方案,從系統(tǒng)的軟硬件配置,一直到應用調試;從產品設計安裝,到運行人員培訓,處處都體現(xiàn)了曙光公司信息化解決方案的完整性,其為用戶提供了一站式的服務,可滿足用戶的各種需求。
作為氣象預測系統(tǒng),曙光公司根據多年的應用經驗,為蘇州氣象局提供了完整的應用方案。其中包括了氣象業(yè)務系統(tǒng)運行所需要的開發(fā)環(huán)境、并行環(huán)境,還提供了中尺度氣象預報模式所需要的前處理和后處理系統(tǒng)。而且,曙光公司還具備很強的系統(tǒng)整合能力,增強了整個機群系統(tǒng)的單一系統(tǒng)映象功能,原有機群系統(tǒng)上的應用軟件無需作任何改動即可正常的在新系統(tǒng)中運行。
在培訓方面,曙光公司為蘇州氣象局提供了一系列的培訓,課程分別針對:普通用戶、系統(tǒng)管理人員、開發(fā)人員。培訓的內容包括從集群的簡單使用到并行軟件的研制和并行算法的設計,從系統(tǒng)的管理和日常維護到設備的原理等一應俱全。整套培訓體系有機房的現(xiàn)場培訓、課堂講課、上機實習等多種方式。在有完備的培訓的同時,曙光公司又為用戶提供了完備文檔,做到了售后服務的完整性,使用戶不僅擁有設備,更能用好設備。 #p#page_title#e#
結束語
曙光4000A是曙光公司和國家智能計算機研究中心共同研發(fā)的,基于Linux的超級服務器系統(tǒng),為當前國內最大的IDC數(shù)據處理主機之一,其在各行業(yè)領域有著廣泛的應用,并且成功登陸全球超級計算機排名的TOP10,其在產品技術上的科學性、成熟性已成為中國高性能計算機產業(yè)的標桿。本次在蘇州氣象局的成功應用,為氣象事業(yè)的發(fā)展增添了新的活力與保障,極大的提高了蘇州區(qū)域氣象預報的精確度,也為全國氣象行業(yè)信息化發(fā)展提供了寶貴的應用經驗。