引領行業(yè)發(fā)展 NVIDIA談GPU與高性能計算
美國時間2012年11月12-15日,著名的Super Computing 12大會在猶他州鹽湖城舉行。本次SC12大會上,發(fā)布了最新的TOP500排名,來自美國能源部橡樹嶺國家實驗室的“泰坦Titan”獲得了第一名的殊榮。據(jù)悉,泰坦采用了18688顆NVIDIA Tesla K20 GPU加速芯片,這些芯片所提供的性能占總性能的90%,也是其奪冠的關鍵。在SC12大會上,我們有幸采訪到了NVIDIA Tesla事業(yè)部的總經(jīng)理Sumit Gupta先生,他將詳細為我們介紹NVIDIA在高性能發(fā)展上的策略及泰坦相關的點點滴滴。
NVIDIA Tesla事業(yè)部的總經(jīng)理Sumit Gupta先生
獨步天下 NVIDIA領軍GPGPU時代
談到GPU,大家的第一印象就是我們電腦中的顯卡。但隨著計算能力的不斷提高,GPU已經(jīng)不僅僅局限于圖形運算,在高性能計算領域,它更是作為加速芯片而存在。正是NVIDIA首次提出了GPGPU的概念,即通用計算處理單元,正是這一概念促成了高性能計算的飛速發(fā)展。
在GPU加速技術出現(xiàn)之前,超級計算機的發(fā)展非常緩慢,因為主要借助于CPU計算,因此也就收到了摩爾定律的制約。從圖中就可以看到這種變化的趨勢——在2009年NVIDIA Fermi架構芯片發(fā)布之后,高性能計算出現(xiàn)了爆炸式的增長,性能提升達到了數(shù)十倍。以國內超算的發(fā)展為例:2008年,國內頂級的曙光5000A超級計算機每秒運行速度為250萬億次,那時的超算還停留在百萬億次時代;但是到了2010年,國產天河一號A榮膺TOP500冠軍,每秒運行速度達到2507萬億次。2年的時間性能提升十倍,跨入了千萬億次時代。可以說,正是由于GPGPU的出現(xiàn),使得超算的性能迅速提升,同時也節(jié)約了大量的場地、電力、維護等成本。從這個意義來說,NVIDIA提供了一個可以永載史冊的創(chuàng)舉。
Tesla K20X/K20助力Titan(泰坦)系統(tǒng)榮膺TOP500冠軍
在談到GPU運算加速的時候,Sumit Gupta先生認為——目前近乎所有的超級計算機都采用了GPU加速的方式,這已經(jīng)是大勢所趨。例如本次TOP500第一名Titan(泰坦),它由2009年最快的超級計算機Jaguar美洲豹升級而來,正是NVIDIA Tesla K20 GPU加速芯片提供了如此強大的性能。如果僅僅依靠CPU進行計算的話,不僅僅需要更大面積的計算機集群,其耗電量也會相當驚人(大約相當于6-8萬戶居民的年耗電量),這是完全不可想象的事情。
同時在談到節(jié)能與功耗的時候,Sumit Gupta先生也談到了最新的Green 500排名。超級計算機Titan(泰坦)在Green 500中排名第三,雖然并未獲得第一,但是Titan是其中最大的系統(tǒng),能夠讓如此巨大的系統(tǒng)達到良好的節(jié)能效果也是非常難得,也從側面反映出Tesla K20 GPU加速芯片的節(jié)能性。
談到世界上最快的超級計算機泰坦,就不能不談到NVIDIA Tesla Kepler K20芯片。在這一代的Kepler家族中包括了 K20和K20X兩款芯片,也是目前NVIDIA速度最快的芯片,兩者的區(qū)別在于規(guī)格的不同,K20X的版本更高一些。具體說來,本次泰坦使用的K20芯片可以提供3.52TF的單精度浮點性能和1.17TF雙精度浮點性能,顯存容量為5GB,帶寬為208GB/s。相比上一代的Fermi產品來說,同樣平臺下Kepler K20的實測效率可以達到2.25TF,芯片利用率為76%;上一代的Fermi芯片利用率只有61%。
這里我們有必要就帶寬問題進行一個說明——不久前,英特爾發(fā)布了最新的至強融核(Xeon Phi)協(xié)處理器,其標稱帶寬高達300MB/s,也可以算是目前Tesla產品強勁的競爭對手。不過對此,Sumit Gupta先生認為理論帶寬只是產品的硬件規(guī)格標準,具體的計算能力還應該在應用中體現(xiàn)。并且即使從硬件規(guī)格的角度上看,通過諸多用戶的測試發(fā)現(xiàn),Kepler K20與Xeon Phi在實際應用中的表現(xiàn)相當,這是因為Kepler K20的帶寬利用率可以達到70%以上,而Xeon Phi根據(jù)STREAM 基準測試的結果顯示也只有50%的帶寬利用率。因此,事實上來兩者的有效帶寬不相伯仲,不能單純依靠理論帶寬來判斷產品的性能優(yōu)劣,一切都應該從實際的應用出發(fā)。 #p#page_title#e#
CUDA編程的應用與優(yōu)勢
GPGPU的快速發(fā)展,一方面是由于硬件配置的強大,但更多還是得益于CUDA編程的便捷與高效。目前CUDA在全球范圍內的62個國家、近630所大學都有相關的合作, 并且有超過8000個開發(fā)機構、超過150萬次的軟件下載率。以最新的Tesla K20X/K20芯片為例,包括橡樹嶺國家實驗室、瑞士國家超級計算中心以及中國上海交通大學等31個科研機構和大學都采用了這款世界最快的產品,這也幫助他們在ANSYS Fluent (計算流體動力學)、MSC Nastran (結構力學)和CHARMM (生命科學)等多個關鍵的科研領域獲得了突破。
現(xiàn)場,筆者就CUDA產品的編程易用性問題與Sumit Gupta先生進行了交流。對于異構計算的應用來說,編程是至關重要的工作,而是否易于編程則直接關系到了用戶的應用能否正常運行。Sumit Gupta先生通過一個實例詳細而直觀的解釋了CUDA編程的優(yōu)勢與便捷性。
Sumit Gupta先生談到,如果按照標準的C語言編程,一個簡單的計算案例需要進行一步步的順序計算,會需要大量的時間。而在通過CUDA編程之后,只需要加入幾個簡單的關鍵性語句,就可以實現(xiàn)快速并行計算,大大縮減計算時間,提升效率。總結起來,CUDA編程只是基于原有的C、C++等語言進行編譯,并不需要改變語言本身,具備了上手簡單、操作便捷等優(yōu)勢。
關于Tesla K20X/K20的其他問題
記得在Fermi時代,NVIDIA曾在平衡產品性能與良品率時有過困擾,那么對于新一代的Kepler芯片來說,是否還會有這樣的困擾呢?Sumit Gupta先生表示之前Fermi的問題的確非常棘手,當時NVIDIA只能保證高端的Tesla供貨。但目前Kepler芯片目前產能充足,一次性供應Titan多達18000顆芯片就很能說明問題。而且Kepler經(jīng)過了在GeForce產品中的測試,良品率非常高,目前在Tesla供貨方面毫無壓力。
談到CUDA普及化教育的問題,NVIDIA表示長期以來一直與國內外許多大學保持著良好的合作關系,從師資力量的培養(yǎng)和學員的教育方面都提供了大力的支持。就國內來說,所有開設并行課程的高校也都提供了CUDA課程,而且在今年9月NVIDIA也與浪潮集團聯(lián)合發(fā)布了“GPU卓越人才計劃”,打造中國ICCE(Inspur NVIDIA CUDA CERTIFIED ENGINEER)技術應用工程師認證第一品牌,從而進一步推動中國GPU應用的發(fā)展。
如今,談到高性能計算或者超級計算機,已經(jīng)不僅僅是單純的CPU計算,因為隨著計算性能和應用需求的不斷發(fā)展,任何單純的CPU計算都被證明是不可行的,傳統(tǒng)意義上依靠大量CPU計算節(jié)點和大規(guī)模供電的時代已經(jīng)是一去不復返了。正是NVIDIA對于GPGPU的推廣,讓行業(yè)迅速進入到了異構計算的時代,從而不再僅僅依靠CPU提供所有的計算能力。
將運算需求按照不同的類型進行劃分,為每一種處理器選擇最佳的計算內容,這就是異構計算的魅力。異構計算已經(jīng)成為了行業(yè)發(fā)展的大勢所趨,NVIDIA在推動行業(yè)發(fā)展和促進人才培養(yǎng)的方向上功不可沒。未來,NVIDIA還將繼續(xù)拓展異構計算業(yè)務,爭取將高性能計算,特別是國內的高性能計算應用推向普及。