并行文件系統(tǒng)構(gòu)筑高性能計(jì)算數(shù)據(jù)基石
長(zhǎng)期以來(lái),磁盤(pán)帶寬的增長(zhǎng)速度都遠(yuǎn)小于計(jì)算能力的增長(zhǎng)速度,而雙核、四核乃至多核服務(wù)器的普及與發(fā)展讓這種不匹配的差距進(jìn)一步拉大。包括RAID陣列等,我們目前有多種技術(shù)可提高I/O性能,并行文件系統(tǒng)也是其中之一。它可以把多個(gè)結(jié)點(diǎn)上的磁盤(pán)組織成為一個(gè)大的存儲(chǔ)系統(tǒng),提供更大的存儲(chǔ)容量和聚集的I/O 帶寬,并隨系統(tǒng)規(guī)模的擴(kuò)大而擴(kuò)展,在多種存儲(chǔ)環(huán)境下發(fā)揮著重要的作用,尤其是集群結(jié)構(gòu)的高性能計(jì)算領(lǐng)域。
xFS作為一種采用無(wú)服務(wù)方式以提供可擴(kuò)展的文件服務(wù)的機(jī)群文件系統(tǒng)。它同 zebra 一樣,xFS 集成了存儲(chǔ)分組結(jié)構(gòu)和日志結(jié)構(gòu),并且也實(shí)現(xiàn)了數(shù)據(jù)存儲(chǔ)于元數(shù)據(jù)管理的彼此分離。
COSMOS 中文件數(shù)據(jù)的定位是由管理服務(wù)器來(lái)完成的,并且在 COSMOS 中實(shí)現(xiàn)的是分布式的元數(shù)據(jù)管理機(jī)制以提供可擴(kuò)展的定位服務(wù)。另外,管理服務(wù)器的另一個(gè)任務(wù)是維持緩存的一致性。在 COSMOS 中,每一個(gè)管理服務(wù)器負(fù)責(zé)維護(hù)整個(gè)文件系統(tǒng)的一個(gè)子集的位置信息,管理服務(wù)器可以應(yīng)用這種信息來(lái)轉(zhuǎn)發(fā) I/O 需求到正確的位置信息(合作緩存或附屬存儲(chǔ)器)。管理服務(wù)器也控制對(duì)相同數(shù)據(jù)塊的并行存取。COSMOS 利用一個(gè)管理服務(wù)器映射來(lái)實(shí)現(xiàn)分布式元數(shù)據(jù)管理。這種映射包括了一系列的機(jī)器標(biāo)志符,運(yùn)用這個(gè)可以知道哪個(gè)機(jī)器管理文件系統(tǒng)的哪一部分子集。
我們?cè)倏纯?/span> GPFS 這個(gè)商業(yè)產(chǎn)品,GPFS 是用于 IBM Linux 集群系統(tǒng)的高性能、可擴(kuò)展、并行文件系統(tǒng)。它可以通過(guò)所有的集群節(jié)點(diǎn)來(lái)共享文件。GPFS 可以充分利用 IBM Linux 集群系統(tǒng)中的“虛擬”共享磁盤(pán),使得在多節(jié)點(diǎn)上運(yùn)行的多個(gè)應(yīng)用程序可以同時(shí)讀寫(xiě)同一文件;它包含了 IBM 可擴(kuò)展集群系統(tǒng)技術(shù)(RSCT),可將存儲(chǔ)內(nèi)容自動(dòng)恢復(fù)到活節(jié)點(diǎn);在發(fā)生故障時(shí),記錄(日志)能夠快速恢復(fù)數(shù)據(jù),并恢復(fù)數(shù)據(jù)的一致性;具有文件訪問(wèn)的單一鏡像,可以從任意節(jié)點(diǎn)訪問(wèn)文件,而無(wú)需改變應(yīng)用程序。
PVFS用來(lái)為運(yùn)行 Linux 操作系統(tǒng)的 PC 群集創(chuàng)建一個(gè)開(kāi)放源碼的并行文件系統(tǒng)。PVFS 已被廣泛地用作臨時(shí)存儲(chǔ)的高性能的大型文件系統(tǒng)和并行 I/O 研究的基礎(chǔ)架構(gòu)。作為一個(gè)并行文件系統(tǒng),PVFS將數(shù)據(jù)存儲(chǔ)到多個(gè)群集節(jié)點(diǎn)的已有的文件系統(tǒng)中,而且多個(gè)客戶(hù)端可以同時(shí)訪問(wèn)這些數(shù)據(jù)。
最后我們談?wù)労苡星熬暗姆植际讲⑿形募到y(tǒng)——Lustre。Lustre 是 HP,Intel,Cluster File System 公司聯(lián)合美國(guó)能源部開(kāi)發(fā)的 Linux 集群并行文件系統(tǒng)。該系統(tǒng)目前推出 1.4.6 的發(fā)布版本,是第一個(gè)基于對(duì)象存儲(chǔ)設(shè)備的,開(kāi)源的并行文件系統(tǒng)。整個(gè)系統(tǒng)由客戶(hù)端,兩個(gè) MDS,OSD 設(shè)備池通過(guò)高速的以太網(wǎng)所構(gòu)成。目前可以支持 1000 個(gè)客戶(hù)端節(jié)點(diǎn)的 I/O 請(qǐng)求,兩個(gè) MDS采用共享存儲(chǔ)設(shè)備的 Active-Standby 方式的容錯(cuò)機(jī)制,存儲(chǔ)設(shè)備跟普通的,基于塊的 IDE 存儲(chǔ)設(shè)備不同,是基于對(duì)象的智能存儲(chǔ)設(shè)備。