英特爾描繪HPC的多核與眾核藍圖
在今年的國際超級計算機會議上有很多關(guān)于多核架構(gòu)與億億次級計算的討論——這兩個主題似乎是密切關(guān)聯(lián)的。但隨著各種團體迅猛的朝著這個億億次級里程碑邁進,可以明確的是x86多核CPU的自然發(fā)展不會使業(yè)界離這個目標太遠。眾核GPGPU(通用GPU),另一方面也顯現(xiàn)出是一種切實可行的實現(xiàn)億億級計算的途徑。那么Intel的“少GPU”技術(shù)意味著什么呢?
簡言之,Intel對GPGPU的回應(yīng)是它的新超多核心架構(gòu)(MIC)。MIC是今年夏天在德國召開的國際超級計算機會議(ISC`10)上提出的,是Larrabee技術(shù)的再利用,該技術(shù)原先是Intel為高端顯卡和虛擬化市場而開發(fā)的。當Intel發(fā)現(xiàn)努力的結(jié)果并不能帶來與NVIDIA及AMD發(fā)布的GPU的競爭力時,于是就放棄了該計劃,并將技術(shù)加以改造成為一種HPC加速器。
英特爾高性能計算業(yè)務(wù)總經(jīng)理Rajeeb Hazra在英特爾有15年的工作經(jīng)驗,今年7月他接替Richard Dracott擔(dān)任HPC業(yè)務(wù)總經(jīng)理的一職。在這之前,Hazra是超級計算架構(gòu)與設(shè)計(SAP)部的主管,主要負責(zé)高端平臺的架構(gòu)設(shè)計,即petaflop和exaflop計算。他向我們深入介紹了Intel的高性能計算戰(zhàn)略。
他在超級計算部的經(jīng)歷是偶然的,考慮到Intel在服務(wù)器市場最大的挑戰(zhàn)可能就是為高性能計算的重點部分交付產(chǎn)品。如今,從10大超級計算機到集群,再到下面的高性能客戶機,Intel已成為HPC所有平臺主要的處理器供應(yīng)商。該計劃還將延續(xù)下去。Hazra表示:“我們的目標是推進高性能計算市場的革新,從高端的超級計算到批量工作站,根本上推動所有類型高性能計算的發(fā)展。”
Intel的MIC架構(gòu)是其中最主要的部分。Hazra表示,MIC架構(gòu)是未來10年或更長遠的眾核處理器設(shè)計的基礎(chǔ)。但首先他們必須擊中一個移動目標。在過去三年,通用GPU進入高性能計算領(lǐng)域的快速擴展已經(jīng)給NVIDIA——以及較低程度的AMD——一個十分有利的開端。
到10月份為止,世界上最快的超級計算機天河1號A,采用的是GPU-CPU的混合架構(gòu)。該計算機在 Linpack測試中達到的速度為2.5 petaflops,超過半數(shù)以上的性能都是由GPU提供。另外還有其他少數(shù)由GPU提供強大支撐的TOP100入榜超級計算機,更多的則還在研發(fā)中。如果Intel對GPGPU沒有切實可行的替代選擇的話,它的芯片將會被降級到在未來很多超級計算機——更不用說主流集群和高性能工作站——中扮演支持的角色。
盡管MIC是一個改良的x86產(chǎn)品并且與GPGPU是完全不同的體系結(jié)構(gòu),但它的目標也是解決同樣的問題——也就是在高效能的封裝中獲得更高的浮點性能。MIC也計劃可以像GPU那樣的方式使用,也就是作為一個連接傳統(tǒng)x86處理器的浮點加速器。一般的思路是這兩種架構(gòu)都使用高度并行和簡單核心來使每瓦特釋放能多的性能。
對任何HPC平臺來講那都是有價值的特性,但是對于下一代數(shù)萬億次級別(multi-petaflop)的超級計算機來說將是決定性的。Hazra表明在過去10年中,TOP100超級計算機取得的性能提升主要是借助橫向擴展模型,也就是增加更多的處理器和更多的結(jié)點。新的CPU架構(gòu)稍稍改變了每瓦性能曲線的斜率,但是系統(tǒng)普遍變大了,因此會消耗更多的電量。
這種情況不會持續(xù)很多年。消耗300兆瓦的電量來建立一個500petaflop的系統(tǒng)是不實際的。傳統(tǒng)的觀念是對于單獨的機器來說,電力消耗上限應(yīng)介于20-40兆瓦之間。所以你不能只是凌駕于現(xiàn)有至強或者皓龍?zhí)幚砥鞯男阅芮€之上,期望為這些未來系統(tǒng)提供所需的性能。Hazra承認:“展望未來5到10年時,那些系統(tǒng)將會有一些重要的轉(zhuǎn)折點。”
Intel想要實現(xiàn)類似于GPGPU的每瓦性能,這將會在x86架構(gòu)內(nèi)展開。Hazra表示,這將允許應(yīng)用程序從單線程代碼轉(zhuǎn)變到高度并行的代碼,且不用改變基礎(chǔ)模型。Intel將會為產(chǎn)品提供編譯器和運行軟件的支持,如果它取得商業(yè)成功,其他廠商將會毫無疑問的添加他們的產(chǎn)品。Intel也將會在Xeon及MIC的產(chǎn)品上提供一套通用的開發(fā)工具,兩種架構(gòu)的差別也囊括在了該工具中。目標是能夠?qū)θ魏蝬86的源碼進行重新編譯,并使其自動處理MIC指令。 #p#page_title#e#
這種思想,很顯然是為了最大程度提高程序員的生產(chǎn)效率——不僅是對新代碼,也是對代表了幾年甚至幾十年投資的傳統(tǒng)代碼。在這方面Intel似乎有優(yōu)勢。雖然Xeon-MIC混合架構(gòu)仍然是一個異構(gòu)平臺,它將會變得更加趨近同構(gòu),至少從一個指令方面來講,要比Xeon-GPGPU平臺要強。Hazra相信他們在Intel x86框架下所追求的路線將會允許他們提供一個更加平衡的異構(gòu)系統(tǒng)。如果Intel能夠真正地實現(xiàn)從多核Xeon到眾核MIC的轉(zhuǎn)型,并且將其中的麻煩和難題減至最少,那么他們將擁有一個引人注目的HPC加速器產(chǎn)品。Hazra表示:“我們相信,隨著越來越多的應(yīng)用和算法能夠利用并行化技術(shù),MIC架構(gòu)將成為一個主力。”
代號為“Knights Corner”的第一款MIC產(chǎn)品采用了Intel的22nm制程工藝生產(chǎn)??紤]到22nm晶圓極有可能用來開發(fā)批量出貨的芯片,所以我們可能在2012年以前看不到第一款MIC產(chǎn)品問世。Knights Corner是由50個核心組成的芯片,但是Intel并沒有提供任何評估性能度量標準。
與此同時,Intel將繼續(xù)發(fā)展其多核Xeon生產(chǎn)線,貫穿企業(yè)和“批量”HPC市場。并不是每個HPC應(yīng)用都需要眾核加速器,對于那些更加匹配粗粒并行或者專門面向單線程執(zhí)行的代碼組,Xeons芯片就是最佳的選擇。
Xeon生產(chǎn)線將會繼續(xù)使用Intel用在其主流的x86處理器上、12個月為周期的tick-tock開發(fā)策略。不過根據(jù)Hazra所言,MIC步調(diào)會很慢,大約18-24月的樣子,雖然在這樣的情況下每個處理器更新要囊括更多架構(gòu)上的變化。這種時間策略與NVIDIA和AMD固定的GPGPU提供速度緊密一致,并在很大程度上理應(yīng)得到相對低容量的加速器。
最大的未知數(shù),就是Intel能否及時交付產(chǎn)品來逆轉(zhuǎn)GPGPU。NVIDIA與AMD擁有三年的領(lǐng)先優(yōu)勢,當?shù)谝豢钌虡I(yè)MIC芯片問市之時,這個差距甚至還會擴大到五年。Intel不需要依靠這些眾核產(chǎn)品的成功來取得再次成功,但是它在HPC上的抱負似乎卻與其緊密相關(guān)。2010年將是值得關(guān)注的一年