揭開Google數(shù)據(jù)中心五大神話
各種媒體上關(guān)于Google的數(shù)據(jù)中心有很多文章,包括他們怎樣進行數(shù)據(jù)中心的運營、管理和分析,造成了一大批Google的神話,但這里有些并不準確,這是我從與Google的工程師與數(shù)據(jù)中心生態(tài)系統(tǒng)的專家們討論后得出的結(jié)論。
雖然表面上看Google正在做的就是數(shù)據(jù)中心的最佳實踐,但并非總是如此。Google數(shù)據(jù)中心的運轉(zhuǎn)是為他們的業(yè)務(wù)——廣告收入而服務(wù)的。而重要的是你的數(shù)據(jù)中心應該為你的企業(yè)服務(wù),而不是為了Google。每當我談到這里,總是會聽到一些數(shù)據(jù)中心的專業(yè)人員叫著“天啊”,這讓人無法理解,因為用蘋果(Google的內(nèi)容交付)和桔子(企業(yè)應用)相比是不公平的。你的目標和Google的并不一致,你以可用性和可靠性為重點,而Google則更重視對可用性的成本控制。
閑話少說,下面就是我所認為的Google數(shù)據(jù)中心的五大神話。
神話1:Google的業(yè)務(wù)關(guān)鍵應用和廣告系統(tǒng)都運行在PUE 1.2的數(shù)據(jù)中心上。
這大概是最大的神話。Google運行著兩種類型的IT系統(tǒng):內(nèi)容交付和關(guān)鍵業(yè)務(wù)服務(wù)。讓我們來看看Google這兩種類型的數(shù)據(jù)中心各有什么目標。
首先是內(nèi)容交付,這是一種基于Google文件系統(tǒng)與MapReduce模型的軟硬件系統(tǒng),是YouTube、GMail和Google Apps保存所有數(shù)據(jù)的地方。內(nèi)容交付系統(tǒng)必須保證絕大部分時間可用,但Google早已為一些冗余故障和斷電問題設(shè)置的是一些道歉的消息。在這種環(huán)境里他們可以這樣做,因為這里可用性并不是頭號要求。內(nèi)容交付系統(tǒng)遵循的原則是成本最小化利潤最大化,這些確實是PUE非常非常低的大型設(shè)施。
關(guān)鍵業(yè)務(wù)服務(wù)包括Google的內(nèi)部事務(wù),比如保持企業(yè)的日常運行(客戶管理和人力資源等內(nèi)部系統(tǒng)),以及他們用來發(fā)布廣告和收錢的廣告系統(tǒng)。如果沒有這些系統(tǒng),Google作為一個企業(yè)就不存在。這些系統(tǒng)是異構(gòu)的,各種軟件包運行在各種各樣的常規(guī)硬件上。這些系統(tǒng)可是Google的命脈,因此可用性是第一位的。這些常規(guī)設(shè)施的最佳實踐的PUE大概在1.5和1.9之間,Google從沒有透露有關(guān)這些設(shè)施的資料。
神話2:Google使用PUE作為管理數(shù)據(jù)中心的主要指標。
雖然PUE的確是Google的一個重要指標,但它更多是充當衡量怎樣把成本降到最低的手段,Google的工程師們告訴我他們還是根據(jù)“業(yè)務(wù)單位”(比如YouTube和GMail)的單位收益率來衡量的。當然我很贊賞Google納入PUE這個指標,但希望他們會公開承認管理IT底層架構(gòu)的真實方法。
神話3:Google使用可再生能源來給數(shù)據(jù)中心供電。
雖然Google確實使用可再生能源來給許多設(shè)備供電,但這些設(shè)備目前沒有任何跡象表明這些設(shè)備是大量用在Google的數(shù)據(jù)中心里的。即使是最先進的太陽能設(shè)計(這來自艾默生而不是Google)也只能給數(shù)據(jù)中心提供16%的小部分電力,而且使用太陽能還要面對太陽下山的問題。
當Bloom Energy拿出小型的電池盒Bloom Box時,他們稱Google已經(jīng)測試了18個月,測試是在Google山景城的總部進行的,而且他們說已經(jīng)Bloom Box是98%可靠的(可用的)。雖然這是燃料電池在擴展性和可靠性的偉大一步,但目前的可靠性還不足以支撐任何數(shù)據(jù)中心。當許多記者發(fā)現(xiàn)Google是他們的客戶時他們立即得出結(jié)論說Google的數(shù)據(jù)中心已經(jīng)在使用了。不,這不是真的,他們只是測試而已。
神話4:Google battery-on-server(服務(wù)器上的電池)技術(shù)提供了一個更強大的能源備份解決方案。
Google的內(nèi)容交付數(shù)據(jù)中心的服務(wù)器設(shè)計包括了一個鉛酸電池備份的12V系統(tǒng),而不使用中央UPS。這種電池據(jù)說可以在斷電后幾分鐘內(nèi)恢復供電,但注意,如果不成功,還需要另外的備用發(fā)電機來供電,這是Google在數(shù)據(jù)中心效率峰會上特別指出的,“如果發(fā)電機在幾分鐘內(nèi)無法啟動,這說明你有更大的麻煩,因此最好有一個以上的斷電保護策略。”
這重新回到可用性與效率的選擇上,Google再次選擇了成本。傳統(tǒng)的UPS電源系統(tǒng)可以支持數(shù)據(jù)中心一個小時或更多,電池系統(tǒng)則可以將運行時間延長的更長。battery-on-server基本上不能擴展,但它確實提供了一個分布式的電池備份,消除了傳統(tǒng)設(shè)計對中央UPS的需要。 #p#page_title#e#
神話5:你的數(shù)據(jù)中心應該準備與Google同樣的標準。
讓我們來看看,Google的內(nèi)容交付數(shù)據(jù)中心在完全一樣的物理架構(gòu)上運行著單一應用。但你的數(shù)據(jù)中心中運行的是ERP、CRM、HR、交易和網(wǎng)絡(luò)應用。這些應用具有不同的架構(gòu)以及在服務(wù)、可用性與性能上的不同要求。
雖然Google的內(nèi)容交付數(shù)據(jù)中心在執(zhí)行任務(wù)時的表現(xiàn)非常好,但它們與一個運行關(guān)鍵業(yè)務(wù)的企業(yè)數(shù)據(jù)中心是截然不同的。管理好你的團隊以及員工做好溝通是更重要的,因為這時候談?wù)?ldquo;我的PUE比你更低”或者“我的PUE和Google相同”是最沒有意義的,因為你提供的服務(wù)和Google所提供的完全不同。
除了這五個,當然還有更多的神話。但我們應該了解的不是怎樣追隨某個內(nèi)容交付系統(tǒng),而是如何最好的運行企業(yè)數(shù)據(jù)中心,而并找出優(yōu)化企業(yè)的最佳實踐。(編譯/小龍)