親歷驚心48小時搶救35億交易數(shù)據(jù)
以前總聽說老大們遇到DOWN機的事情怎樣怎樣,多么急迫怎樣怎樣,但卻一直沒有感覺,總以為老大們言過其實。但是前不久一次真實的經(jīng)歷,讓我終于對存儲工程師這一職業(yè)有了更深層的認識……
起因是某月某日某時,我的一個哥們準備在新上的IBM DS4800盤陣上做RAID,剛剛做完時鐘同步,就看見客戶方所有的技術(shù)人員一陣風似的全部沖進了機房,帶頭的主管劈頭就是一句:你們干什么了?不待我們緩過神來,6、7個人就開始瘋狂的查找各自負責的部分。“趕快,趕快,查找原因!”
在過后的幾個小時情況調(diào)查的時候,我們終于知道,當時的盤陣上面存儲著該客戶35億的交易記錄和10條要人命的信息!然而,當我哥們完成時鐘同步的操作后,盤陣上的所有Volumn Group全部不見!
噩夢開始,35億交易記錄不翼而飛
只見客戶方6、7個人分別查找各自的原因,數(shù)據(jù)庫配置,光纖交換機,網(wǎng)絡(luò),主機上的應(yīng)用,甚至電源、機柜都一一仔細檢查過,統(tǒng)統(tǒng)沒有問題。于是,所有人的目光都轉(zhuǎn)向了我們:你們到底做了什么?
我們一下子也沒回過神:“只是,只是在還沒有使用的盤陣上做了時鐘同步,怎么會和生產(chǎn)系統(tǒng)扯上關(guān)系?”
大家的目光隨即投向了連接KVM和盤陣的HUB。咦?上邊怎么還有兩根線纜?那么我們現(xiàn)在操作的這兩根線纜是?……生產(chǎn)系統(tǒng)盤陣上的!而且使用的是默認IP?。?....我的天!我們前面的操作是做在哪里了啊?為什么沒有出現(xiàn)IP沖突?
這時我們才意識到我們犯了什么樣的錯誤:我們將KVM連在了生產(chǎn)系統(tǒng)的HUB上,對客戶新上的盤陣DS4800和原有生產(chǎn)系統(tǒng)上的盤陣DS4300同時做了一個DEMO,并進行了時鐘同步,于是,所有的Volumn Group掉下去了,生產(chǎn)停止了……
四處支援,各路神仙愛莫能助
搞清楚狀況后,已經(jīng)2個小時過去了??蛻舴降娜艘膊辉倮砦覀儯械娜碎_始打電話,尋求技術(shù)支持。在此后的4個小時中,分別有來自各方的支持陸續(xù)趕到,其中包括原設(shè)備維護廠商,新設(shè)備廠商、總代。以及陸續(xù)到來的7位IBM的工程師。我哥們至少20次的向各路神仙說明故障原因,客戶方也不停的展示目前盤陣的狀況,但事情仍然陷入僵局……
在我們感嘆客戶方主管巨大能力的同時,也被打入冷宮了,被安排在一個辦公室里不能出來,更別說進機房。還好客戶方還允許我們繼續(xù)找人支持和打800報修,所以我也有機會看了一眼客戶受重創(chuàng)后的盤陣,除了ROOTVG,其他的全都沒了,就好像連在一個完全空白的新盤陣一樣,我當時那個汗?。?/p>
回到辦公室繼續(xù)打800報修,提示音之后是長時間的廢話,我一遍一遍的報上姓名地址,說明情況,無論你磨破嘴皮,只有一個結(jié)果:除了產(chǎn)品硬件故障不能派人解決。我狂暈!
先來的是我們找的代理商方面的小型機和存儲技術(shù)支持,分別來的3個人同一個看法,這些操作按道理不會出現(xiàn)這樣的狀況,除了重新啟動下看看情況以外好像都別無辦法。
后來的總代技術(shù)明顯要略勝一籌,從了解實情經(jīng)過的方式和建議都是更加的謹慎,看得出來經(jīng)驗豐富。他在打電話給他的公司的時候加上意味深長的一句:記住這個教訓吧。但是結(jié)論仍然是沒有什么辦法。
與此同時,公司通過其它渠道聯(lián)系上IBM工程師,于是大家苦等IBM工程師。
在此之前總有耳聞,說現(xiàn)在的IBM工程師水平也是一般,于是在心理并沒有對他們有多大的期待,心想用戶就是迷信,干脆重起得了。事情發(fā)生后4個小時,所有人都看完了現(xiàn)場以后,IBM工程師到了。先是2位,再來又是2位,然后是3位。分別來自不同的TEAM負責不同的系統(tǒng),有負責小機的,有負責存儲的,還有售前方案的,但是他們在一起卻能很好的協(xié)商和達成一致,沒有人口出狂言或者輕舉妄動。這里不得不客觀評價,IBM工程師還是訓練有素。 #p#page_title#e#
實在是我們的誤操作愚蠢得太不可原諒,最后IBM的7位工程師也不敢貿(mào)然給出任何的動作和建議,唯一的舉措就是將現(xiàn)場情況抓圖整理,上傳給2線。希望有人在線,能有解決的辦法……
然后,IBM的工程師也走了……
緊急預(yù)案,又出節(jié)外生枝
與此同時,客戶方也臨時召開緊急會議,經(jīng)討論后給我們公布了他們的緊急預(yù)案措施:凍結(jié)原有的業(yè)務(wù)存儲系統(tǒng)DS4300,連夜在新的存儲系統(tǒng)DS4800上做RAID,建Volumn Group,將所有應(yīng)用和數(shù)據(jù)轉(zhuǎn)移,先讓系統(tǒng)跑起來,數(shù)據(jù)再說。于是,大家紛紛給家人電話或者短信“今晚通宵加班,我不回去了。“
這時回到那兩臺為了配置它們而闖禍的DS4800面前,它們卻嚇得再不敢抬眼看我們,死活就是不和我們的管理系統(tǒng)連接。。。。氣得我•##¥%……—
客戶算是有水平了,并沒有在這個時候追究責任。而是讓我們?nèi)ヌ幚韱栴},如果這個問題都沒處理好。那,那。。。。。
看來連DS4800也指望不上的時候,一直在一邊幫助客戶協(xié)調(diào)跑前跑后的我們公司的銷售經(jīng)理突然對我說:“你跑一趟,和XXX聯(lián)系,這是電話,拉一臺DS4300回來,再帶6塊300G的硬盤,就對他說是X總叫你來取的。”我當時那個樂??!趕緊屁顛屁顛的就打車過去了(那時都半夜了)。到了銷售說的地方,領(lǐng)到機器,也顧不得新洗的白衣服了,和司機、庫管一起把機器扛到了車上。
車剛要發(fā)動返回客戶現(xiàn)場,就收到銷售的短信:硬盤拿了么?車還沒開到客戶大門,老遠就看見銷售在門口蹲著等著了……所有的人都在期待這臺DS4300,但是,新拉來的DS4300卻沒有接上……
原來,在場的人七手八腳的把這臺救命稻草DS4300抬上樓,打開箱子一瞅,樂了。原來打算用6塊300G的硬盤做臨時空間有點緊張,只能做RAID5,不能做hotspare,沒想到上面整整齊齊的插著7塊146G的硬盤,再加上6塊300G硬盤,嘿,這下夠了!
銷售在這個時候還不忘打趣:“慢點慢點,這可是咱們的最后一棵救命稻草,有了它我就算是有了一條活路,沒它我就得從這窗戶口跳下去了。嘿嘿。。”要知道,當時我們可是在19層的機房啊。
上好架,通上電,開始練。第一個分區(qū)100G,ok!第二個分區(qū),400G,咦?怎么出錯了?
再來一遍還是不行!這時候,一直鎮(zhèn)定的,老練的,不懂技術(shù)的銷售一直直勾勾瞅著屏幕,憋不住了問一句:“這是怎么回事?”操刀的哥們沒有回答,讓我把某一塊盤拔出來,等一下再插上……故障依舊,關(guān)掉再開盤柜……故障還是依舊……
柳暗花明,35億交易數(shù)據(jù)失而復得
銷售看不下去了,但是畢竟好涵養(yǎng),壓了壓焦慮的心情,拉我到外面抽煙去了。煙霧繚繞中,給我講了上次誤操作將一所大學的學籍檔案全部刪除的事情……。最后,掐滅了煙頭:“走,回去看看!”
回到機房,RAID居然已經(jīng)做好了。問了我哥們,原來是這樣:這臺DS4300上原來的幾塊盤是做過RAID的,但是缺少了一塊。于是盤陣總認為后來插上的硬盤就是原來缺的那塊硬盤,但實際上不是,而且我們還插了不止一塊盤,所以就出錯了。
哥們將所有的盤都拔出去,再將盤陣重起,清除里面的信息,再關(guān)閉,把盤都插回去,就一切OK了。
哦,這樣?。⌒乃闶欠呕囟亲永锪?。再接著就是普通的劃區(qū)后的工作,忙到了天亮。
這邊問題暫時解決了,但原來的陣列還一動不動躺在那里,里面的數(shù)據(jù)仍然沒法兒拿出來,所有人的希望也就寄托在IBM的二線上,希望他們能夠拿出最佳的解決方案來。 #p#page_title#e#
第二天早上9點整,IBM的工程師來了,并且?guī)砹?線的解決方案。很可惜具體的操作方式他們不肯透露,大意是將上面的RAID按照原來最初的重新做一遍。由IBM的工程師講解方案,客戶方系統(tǒng)維護人員操作。整個恢復過程中,現(xiàn)場氣氛緊張啊,連插拔光纖的動作都做得極為謹慎,所有操作完成后,一查看,35億的交易數(shù)據(jù)總算是失而復得!
當時那個興奮啊,要是有蛋糕都能開個PARTY!然后是一些后續(xù)的工作,又忙了大半天才結(jié)束。
走出客戶的大廈時正是第二天中午,我這才意識到已經(jīng)2天沒有看到這輪太陽了,沐浴在久違的陽光下,發(fā)現(xiàn)周圍的一切都是這樣的美好!
后記:噩夢方醒不忘經(jīng)驗教訓
曾經(jīng)聽老大們講過,小型機和存儲盤陣的操作都極為復雜,很多地方和PC機器完全不同。操作PC機的,可以經(jīng)常自己嘗試和摸索,但在小型機和存儲系統(tǒng)上瞎鼓搗就是自己找死。只要做過客戶系統(tǒng)維護的人員都能深切感受到這份壓力,不少都曾經(jīng)親身經(jīng)歷過這種要人命的時刻。曾經(jīng)聽說過有人深夜3點打車去五百里之外,和夜里9點打車去千里之外的情況,一旦客戶系統(tǒng)發(fā)生問題,影響業(yè)務(wù)運營,就是打飛機也一定要趕到客戶現(xiàn)場。
還有一個問題就是,由于實施維護的時候壓力大強度大,所以經(jīng)常工作到深夜,加上開的窗口會比較多,這個時候是極易出現(xiàn)人為錯誤的時候。所以老大們告誡我們,再復雜的工作一定要一步一步按部就班,另外每做一步操作,保留數(shù)據(jù)的備份是極其重要的,否則敲錯一個命令,就有可能帶來追悔莫及的損失,而這樣的例子也的確不在少數(shù)。
上周四剛剛將借來的那臺DS4300還了回去,仍然記得那天打車去取這臺機器的緊張勁兒。心中不免還是有點那么擔心:如果給的方案不好用呢?如果這臺備機不好使呢?如果在后面長時間、高負荷、緊張的情況下操作失誤呢?如果再有其他設(shè)備的損壞?如果……我實在不敢想象下去了。如果,這件事能給所有的同行一點幫助,我就會很欣慰了。