Google數(shù)據(jù)庫(kù)中心眼里的服務(wù)器揭秘
- 摘要:在Google I/O會(huì)議上,Jeffrey Dean略微透露一點(diǎn)Google龐大數(shù)據(jù)庫(kù)中心服務(wù)器的內(nèi)部情況,在Dean眼里,1,800臺(tái)的服務(wù)器集群根本是小菜一碟:
- 標(biāo)簽:數(shù)據(jù)庫(kù)中心服務(wù)器
沒(méi)人確切知道搜索巨人有多少臺(tái)服務(wù)器,但以小可見(jiàn)大:一次簡(jiǎn)簡(jiǎn)單單的搜索查詢就要?jiǎng)佑玫?00到1000臺(tái)服務(wù)器.根據(jù)現(xiàn)有的資料,Google有36個(gè)數(shù)據(jù)庫(kù)中心服務(wù)器,每個(gè)數(shù)據(jù)庫(kù)中心有150個(gè)柜式服務(wù)器,每個(gè)柜含40臺(tái)服務(wù)器,這樣計(jì)算起來(lái)Google擁有的服務(wù)器超過(guò)20萬(wàn)臺(tái),這個(gè)數(shù)字每天還在增加.
在Google I/O會(huì)議上,Jeffrey Dean略微透露一點(diǎn)Google龐大數(shù)據(jù)庫(kù)中心服務(wù)器的內(nèi)部情況,在Dean眼里,1,800臺(tái)的服務(wù)器集群根本是小菜一碟:
Dean說(shuō),更多的硬件并不意味著可靠性更高,你還需要在軟件層次上提高可靠性.“如果你運(yùn)行1萬(wàn)臺(tái)機(jī)器,肯定每天都會(huì)有問(wèn)題發(fā)生.”
Dean用了一個(gè)計(jì)算機(jī)集群來(lái)說(shuō)明硬件故障頻率,他說(shuō),“在一個(gè)集群上線的第一年,會(huì)有1000臺(tái)獨(dú)立的機(jī)器發(fā)生故障,數(shù)以千計(jì)的硬盤故障,一個(gè)分布式電力單元出問(wèn)題,500到1,000臺(tái)機(jī)器下線6小時(shí);20個(gè)柜式服務(wù)器會(huì)出現(xiàn)問(wèn)題;每次會(huì)導(dǎo)致40到80臺(tái)機(jī)器從網(wǎng)絡(luò)中消失;5個(gè)柜會(huì)變得不可靠,通過(guò)其中的一半信息包會(huì)丟失;集群需要更換一次連接的電線,每次會(huì)影響5%的機(jī)器停止工作兩天.”
Dean還稱,一個(gè)集群有50%的幾率過(guò)熱,不到5分鐘內(nèi)整個(gè)服務(wù)器癱瘓,需要花1到2天時(shí)間去恢復(fù).
以上情況真的說(shuō)明了,Google龐大數(shù)據(jù)庫(kù)中心服務(wù)器的內(nèi)部情況,在Dean眼里,1,800臺(tái)的服務(wù)器集群根本是小菜一碟。