Supercomputing2009國際會議見聞
2009 年11 月16 日,我們從北京出發(fā),前往洛杉磯再轉(zhuǎn)飛波特蘭,參加2009supercomputing 國際會議,由于我們只注冊了參展商,只能在展覽區(qū)活動,不能去參加技術(shù)類講座。但這也使我們有足夠的時間了解國際頂尖公司在高性能計算機(jī)系統(tǒng)方面的最新研究進(jìn)展。以下總結(jié)幾點(diǎn)體會:
1. Intel業(yè)界的領(lǐng)袖地位再次得到體現(xiàn)
展覽會上,Intel公司具有很大的展臺,在展臺上安排Intel自己和合作廠商的技術(shù)講座了,每半小時一個,內(nèi)容豐富。Intel還組織了一個Tour,由Intel的導(dǎo)游帶領(lǐng)參觀者前往七個Intel公司的合作廠商的展臺上參觀,這些合作廠商都是采用Intel處理器設(shè)計服務(wù)器的系統(tǒng)廠商。
最有代表性的是SuperMicro,他采用Intel Nehalem處理器設(shè)計了世界上密度最高的風(fēng)冷刀片系統(tǒng),在7U的空間內(nèi),可以放置兩層共20個雙路刀片。產(chǎn)品具備高能效的電源(轉(zhuǎn)換效率達(dá)94%),以及低噪音設(shè)計,在配備10個雙路刀片節(jié)點(diǎn)時運(yùn)行的噪音不大于50分貝。
很多1U 服務(wù)器采用雙路twin 設(shè)計,實(shí)現(xiàn)1U4P 解決方案?;?U 雙twin 設(shè)計,實(shí)現(xiàn)2U8P解決方案,還有在1U 空間里安置1 個雙路服務(wù)器和兩塊GPU 卡的設(shè)計。
1U2P+2 GPU
由于Intel Nehalem CPU 的推出,使得Intel 與AMD 的技術(shù)路線趨于一致,導(dǎo)致構(gòu)造多處理器系統(tǒng)的設(shè)計簡化,訪存性能和互聯(lián)性能增強(qiáng),再加上Intel CPU 在主頻和功耗方面的優(yōu)勢,使得Intel 的老大地位進(jìn)一部得到加強(qiáng)
2. IBM 把高性能計算機(jī)的結(jié)構(gòu)和工藝做到了極致
展會上IBM 展出了基于Power7 CPU 的256 路CC-NUMA 系統(tǒng)。在2U 空間內(nèi)布放256 個核,單機(jī)箱的計算能力達(dá)到8Tflops,功耗10KW。
該系統(tǒng)包括8 個CPU 模塊,每個模塊都是4CPU 封裝在一起的MCM,同一MCM 上的4個CPU 間采用全互聯(lián)結(jié)構(gòu),不同MCM 之間也采用全互連結(jié)構(gòu),每個MCM 連接一個HUB芯片,HUB 芯片輸出PCI-E GEN2 I/O 接口和機(jī)箱間擴(kuò)展
Power7 系統(tǒng)拓?fù)?/p>
IBM Power7 MCM
Power7 系統(tǒng)的內(nèi)存也采用專用設(shè)計,在每個內(nèi)存子卡上都有兩片高速信號適配芯片。在系統(tǒng)后面有128 個擴(kuò)展光纖接口,可以與其他系統(tǒng)直連實(shí)現(xiàn)規(guī)模擴(kuò)展。
Power7 大容量的L3 通過內(nèi)部互聯(lián)結(jié)構(gòu)連接,據(jù)說處理器核心互聯(lián)的帶寬達(dá)到了500GB/s,經(jīng)過了大容量L3(L4)的篩選之后,仍然需要大量的內(nèi)存帶寬,Power7 提供了兩個DDR3內(nèi)存控制器,每個控制器支持4 個DDR3 通道,大約支持到主流水準(zhǔn):DDR3-1600,這樣內(nèi)存控制器可以提供100GB/s 的帶寬。為了更好地支持多個內(nèi)存通道,并提高性能,Power7
每個內(nèi)存控制器都具有16KB 的重調(diào)度緩存來重新排序內(nèi)存存取請求。
Power7 的一個重點(diǎn)是多路處理器,Power7 實(shí)現(xiàn)了SMP 的硬件一致性處理。Power7 通過三個方面的設(shè)計來達(dá)到32 路SMP 能力:巨大的帶寬、特別的拓?fù)浣Y(jié)構(gòu)和特別的一致性協(xié)議。Power7 的處理器間總線可以提供360GB/s 的帶寬。
Power7 使用了一個兩層的拓?fù)淠P停? 個處理器組成一個本地SMP 組(需要7 個本地I/O 總線),然后8 個SMP 組之間兩兩直接互聯(lián)(每個SMP 組需要7 個外部I/O 總線),為了實(shí)現(xiàn)這個目標(biāo),Power7 提供了兩個總線:一個用于本地SMP,一個用于遠(yuǎn)程SMP??偩€的位寬是120Byte。
此外為了支持這個拓?fù)浣Y(jié)構(gòu),Power7 的一致性協(xié)議混合了兩種一致性消息的廣播方法:
一種是全局廣播,一種是本地SMP 組的猜測性廣播。這個一致性協(xié)議定義了13 種狀態(tài)(Nehalem 使用的MOESI 是5種),并通過緩存線上額外的設(shè)置位,Power7 最終實(shí)現(xiàn)了復(fù)雜的結(jié)構(gòu),在32 路處理器、8 核心、總共256 個處理內(nèi)核的SMP 系統(tǒng)里,可以同時維持20000個緩存一致性操作。
該系統(tǒng)的高度為2U,長度大約是1.5m,寬度大約是1m。非常壯觀。在這一個箱子內(nèi)就有256 個CPU 核。8 核4CPUX8MCM=256 核。整個系統(tǒng)支持Cache 一致性。
系統(tǒng)具有16 個PCI-E GEN2 16X I/O 接口,可以連接GPU、Fiber Channel、Infiniband 等設(shè)備。 #p#page_title#e#
最與眾不同的是該系統(tǒng)的水冷散熱設(shè)計,CPU 模塊、I/O HUB、內(nèi)存、電源都有散熱水管直接連接在相應(yīng)的散熱器上,在集中在機(jī)箱兩側(cè)的主水管,與機(jī)箱外的循環(huán)系統(tǒng)連接。
IBM Blue Gen 的結(jié)構(gòu)是高密度風(fēng)冷組裝技術(shù)的典型代表。
Blue Gen 組裝技術(shù)
IBM Roadrunner節(jié)點(diǎn)
3. CRAY 采用傳統(tǒng)技術(shù)構(gòu)造全球最快的超級計算機(jī)系統(tǒng)
本次會議上Cray 公司的Jaguar 以1.75petaflop/s 的運(yùn)算速度位居第一,超過了原先排在第一位的IBM “Roadrunner"。Jaguar 使用的是AMD Magny-Cours 核心六核Opteron 處理器。
Cray XT5主板
說Cray 采用傳統(tǒng)技術(shù),是指其系統(tǒng)結(jié)構(gòu)、互連技術(shù)、系統(tǒng)組裝和散熱等方面相對其前幾代產(chǎn)品,沒有本質(zhì)上的差異。體系結(jié)構(gòu)仍然是MPP,互連網(wǎng)絡(luò)拓?fù)淙匀徊捎?D-torus,互連芯片仍是具有一個連接CPU 的HT 端口和6 個3 維連接端口的Seastar 芯片,互連帶寬也沒有增加。與Cray 的技術(shù)人員交流過程中,他們近期還沒有采用Intel Nehalem CPU的計劃,仍會繼續(xù)使用AMD Opteron處理器來構(gòu)造超級計算機(jī)。通過更換核心更多的CPU,提高系統(tǒng)的計算能力,可以很好的實(shí)現(xiàn)系統(tǒng)性能和成本之間的平衡。
Cray 另一個重點(diǎn)的宣傳的是個人超級計算機(jī)產(chǎn)品,在機(jī)箱上噴涂了綠草、藍(lán)天和白云,重點(diǎn)強(qiáng)調(diào)綠色、環(huán)保的概念。其系統(tǒng)還是典型的Cluster,最多可配置8 塊雙CPU 刀片,系統(tǒng)內(nèi)置千兆以太網(wǎng)交換機(jī),也可配置Infiniband 交換機(jī),所有互聯(lián)網(wǎng)絡(luò)的連線都是外置,從背后看有些亂。系統(tǒng)配置4 個電源模塊,實(shí)現(xiàn)2+2 冗余,整機(jī)功耗小于2KW。噪音小于50db。
4. SGI 繼續(xù)其cc-NUMA 之路
本次展會上SGI 公司展出了采用Intel Nehalem CPU 的cc-NUMA 系統(tǒng),這是SGI cc-NUMA 系統(tǒng)第三次更換處理器,
其前兩代分別采用MIPS 和Itanlium 處理器,由此可以看到Itanlium 處理器后續(xù)產(chǎn)品計劃可能有所調(diào)整,因?yàn)榘凑誌ntel
的原計劃,本來Tukwila 應(yīng)該在今年發(fā)布。
另外SGI 還展出了一些存儲系統(tǒng)。從總體上看,SGI 在圖形領(lǐng)域的優(yōu)勢已經(jīng)被Nvidia 遠(yuǎn)遠(yuǎn)地拋在了后面,某種意義上,
SGI 已經(jīng)成為通常的服務(wù)器和存儲系統(tǒng)提供商,但其cc-NUMA系統(tǒng)還是有一定特色。
5. SUN專注于Storage 和Server
Sun 公司被Oracle 收購后,其業(yè)務(wù)方向受到了一定的影響,從展會上看,其重點(diǎn)集中在Storage和Server 兩個方面,而CPU 業(yè)務(wù)被淡化。最有特色的是SUN 設(shè)計了一款采用Flash 芯片的Storage,在1U 機(jī)箱內(nèi)布滿了Flash 存儲卡,通過PCI-E 接口連接服務(wù)器。
印象比較深的是Sun 公司的服務(wù)器結(jié)構(gòu)設(shè)計,工藝精良,結(jié)構(gòu)合理,可以做為我們學(xué)習(xí)的榜樣。
SUN Flash Array
SUN Server
6. Fujitsu 的Petascale 系統(tǒng)原型
Fujitsu 公司設(shè)計了Sparc VIIIFX CPU,該CPU 具有8 個核心,Die size 大約20mmX20mm,同時設(shè)計自己3D-Torus 互連芯片,其節(jié)點(diǎn)結(jié)構(gòu)與Cray XT5 很類似,但是采用水冷散熱,在一個機(jī)柜內(nèi),分上下兩部分分別水平安裝12 個4P 節(jié)點(diǎn)板,中間是I/O 和電源,散熱水管從每個節(jié)點(diǎn)板的前面連接到機(jī)柜側(cè)面的主管道上。
Fujitsu PetaScale SystemBoard
系統(tǒng)拓?fù)浣Y(jié)構(gòu)采用多維Mesh/Torus 結(jié)構(gòu)。一個Rack 內(nèi)的12 節(jié)點(diǎn)連成立方體,再以12個節(jié)點(diǎn)為一個大節(jié)點(diǎn),連成更大的3D-torus 網(wǎng)絡(luò)。這樣推算,每個互連芯片至少需要10 個端口,其中4 個用于連接大節(jié)點(diǎn)內(nèi)的其他相鄰芯片,其余6 個用于連接其他大節(jié)點(diǎn)的互連芯片。
這種拓?fù)浣Y(jié)構(gòu)相比Cray 的3D-torus 復(fù)雜,但網(wǎng)絡(luò)跳步較少,等分帶寬高,相對于多級互連網(wǎng)絡(luò),較易實(shí)現(xiàn),也方便擴(kuò)展。
Multidimensional mesh/torus Interconnection Networks
System Rack
7. 高性能互連網(wǎng)絡(luò)
高性能互連網(wǎng)絡(luò)最搶眼的的是Mellanox 公司的Infiniband 網(wǎng)絡(luò),其40Gbps 網(wǎng)絡(luò)產(chǎn)品已經(jīng)成熟,并在高性能計算機(jī)系統(tǒng)中獲得應(yīng)用,如SuperMicro 的刀片系統(tǒng)就采用了Mellanox的40Gbps Infiniband。 #p#page_title#e#
Myricom 公司的網(wǎng)絡(luò)已經(jīng)少有人問津,他們的產(chǎn)品已經(jīng)轉(zhuǎn)向到10G 以太網(wǎng)上。
采用六類銅纜標(biāo)準(zhǔn)的10G 以太網(wǎng)交換機(jī)和網(wǎng)卡已經(jīng)成熟,但價格還是制約其在高性能計算機(jī)系統(tǒng)中應(yīng)用的最大障礙。
光模塊的性能越來越高,Avago 公司的12 路,每路10Gbps 的光收發(fā)模塊已經(jīng)商品化。
8. GPU加速
本次會議上GPU 加速也是一大亮點(diǎn),天河一號系統(tǒng)依靠GPU 加速部件位居top500 第五位。很多服務(wù)器廠商都有專有的GPU 加速服務(wù)器設(shè)計,如前面提到的1U2P+2GPU 卡系統(tǒng)。
IBM Power7 系統(tǒng)的I/O 擴(kuò)展槽也可以插GPU 卡。
最有意思的是一家愛好者,采用手工打造了具有8 個GPU 卡的高性能計算系統(tǒng),并移植了Fortran 語言編譯器。
Nvidia 公司租了很大的展位,并安排了多場專題技術(shù)講座,看得出他們推廣GPU 計算的信心和力度。
9. 高性能計算應(yīng)用研究多集中在國家實(shí)驗(yàn)室大學(xué)和研究所
10. 參展單位分布
參展單位以美國公司、大學(xué)、研究所居多,日本公司和研究所也占據(jù)了很多展位,臺灣工研院和高性能計算中心也有展位,并安排了介紹性講座。計算所弄了大陸地區(qū)唯一一個展位,顯得很單薄。