基于層次式混合存儲技術(shù)的并行文件系統(tǒng)關(guān)鍵技術(shù)研究
發(fā)布時間:2020-08-14 23:07
【摘要】:超級計算機(jī)規(guī)模、數(shù)據(jù)密集型應(yīng)用和大數(shù)據(jù)應(yīng)用規(guī)模的多重快速增長的疊加作用,對當(dāng)前超級計算機(jī)中廣泛采用的基于磁盤的并行文件系統(tǒng)帶來巨大技術(shù)挑戰(zhàn)。在超級計算機(jī)中,計算分系統(tǒng)與存儲分系統(tǒng)分離,增大了I/O延遲。計算結(jié)點(diǎn)不配置磁盤~([1,2]),難以在所有計算結(jié)點(diǎn)中配置固態(tài)盤(SSD),使得數(shù)量巨大的本地I/O匯聚到共享并行文件系統(tǒng),并產(chǎn)生巨大I/O壓力。超級計算機(jī)中CPU核數(shù)已經(jīng)達(dá)到千萬量級~([2,3]),它將聚合產(chǎn)生數(shù)量巨大的I/O請求。研究和實(shí)際應(yīng)用表明,當(dāng)前基于磁盤構(gòu)建的單一存儲層次的并行文件系統(tǒng)在提供超大存儲容量的同時,難以同時滿足Exascale超級計算機(jī)提出的高并行、高帶寬和低延遲的要求。本文以天河一號超級計算機(jī)、高性能計算應(yīng)用和大數(shù)據(jù)應(yīng)用為基礎(chǔ),面向Exascale超級計算機(jī)對并行文件系統(tǒng)的要求,研究新的并行文件系統(tǒng)結(jié)構(gòu)和關(guān)鍵實(shí)現(xiàn)技術(shù),主要研究工作和創(chuàng)新點(diǎn)如下:1)提出了基于層次式混合存儲技術(shù)的并行文件系統(tǒng)結(jié)構(gòu)ONFS當(dāng)前在超級計算機(jī)中廣泛使用基于磁盤的并行文件系統(tǒng),它只有單一存儲層次,由于存儲服務(wù)器遠(yuǎn)離計算結(jié)點(diǎn),并受限于磁盤固有的性能不足,使得它們難以滿足高速低延遲的要求;赟DD的Burst Buffer Node和ION僅用于構(gòu)建局部文件系統(tǒng),沒有與底層基于磁盤的存儲系統(tǒng)融為一體。本文根據(jù)Exascale超級計算應(yīng)用的I/O需求特性,提出了基于DRAM、SSD和磁盤構(gòu)建的具有三個存儲層次的并行文件系統(tǒng)ONFS,以靠近計算結(jié)點(diǎn)的基于DRAM和SSD的存儲層次為用戶程序提供高速低延遲的并行文件讀/寫服務(wù),利用基于磁盤的存儲層次實(shí)現(xiàn)超大存儲容量,文件可以在三個存儲層次之間動態(tài)高效遷移,實(shí)現(xiàn)單一名空間,支持POSIX協(xié)議。經(jīng)過與典型并行文件系統(tǒng)比較,ONFS是首個可綜合實(shí)現(xiàn)超大存儲容量、高并行、高速度和低延遲文件服務(wù)的并行文件系統(tǒng),可滿足Exascale超級計算機(jī)對并行文件系統(tǒng)的綜合高要求。2)提出了基于用戶組子目錄的元數(shù)據(jù)劃分、分布存儲和處理的方法元數(shù)據(jù)的高效管理是實(shí)現(xiàn)高性能并行文件系統(tǒng)的重要基礎(chǔ),它包括元數(shù)據(jù)的劃分、分布、存儲和服務(wù)。劃分方法主要有靜態(tài)子樹、動態(tài)子樹和哈希分布三大類。靜態(tài)子樹粒度大,難以支持負(fù)載和規(guī)模的有效動態(tài)調(diào)整;動態(tài)子樹粒度小,子樹關(guān)系復(fù)雜,管理的開銷大;哈希分布丟棄元數(shù)據(jù)之間的相互關(guān)系,在目錄名和文件名修改時將產(chǎn)生元數(shù)據(jù)遷移。本文基于用戶目錄構(gòu)建過程,提出以根目錄之下的用戶組子目錄(UGSD)為元數(shù)據(jù)劃分粒度,它保持了目錄固有的樹狀結(jié)構(gòu),簡化了元數(shù)據(jù)劃分的描述和管理;提出了在UGSD上增加自然整數(shù)后綴,實(shí)現(xiàn)UGSD在映射函數(shù)輸入變量空間的均勻分布;采用簡單的MOD函數(shù)和查找表,實(shí)現(xiàn)UGSD到MDS、MDS到MDSS之間的映射;采用同步更新和調(diào)峰機(jī)制,實(shí)現(xiàn)元數(shù)據(jù)負(fù)載動態(tài)調(diào)整和MDS規(guī)模動態(tài)增減,等。由實(shí)驗(yàn)和比較分析可知:UGSD的元數(shù)據(jù)劃分粒度合理,易于描述和管理;文件路徑名到MDS之間的映射算法簡單,分布均勻;可動態(tài)實(shí)現(xiàn)元數(shù)據(jù)負(fù)載和MDS規(guī)模的調(diào)整;綜合解決了元數(shù)據(jù)劃分、存儲和處理上存在的主要技術(shù)問題。3)提出了DS-m的內(nèi)存借用和歸還策略、并行存儲控制和綜合性能優(yōu)化方法在超級計算機(jī)中,計算結(jié)點(diǎn)內(nèi)存是專供用戶程序使用的。基于結(jié)點(diǎn)內(nèi)存構(gòu)建高速低延遲存儲層次最關(guān)鍵的問題是如何獲得可以使用的內(nèi)存。迄今為止,所有基于HPC計算結(jié)點(diǎn)內(nèi)存構(gòu)建存儲系統(tǒng)的研究工作都回避該問題。本文基于計算密集型和數(shù)據(jù)密集型程序使用內(nèi)存的不同情況,將所有計算結(jié)點(diǎn)劃分為小內(nèi)存分區(qū)和全內(nèi)存分區(qū),采用靜態(tài)方式先從小內(nèi)存分區(qū)的結(jié)點(diǎn)中借用確定數(shù)量的內(nèi)存;根據(jù)用戶程序使用內(nèi)存的動態(tài)變化情況,采用最大值方法,動態(tài)竊用小內(nèi)存分區(qū)結(jié)點(diǎn)中的剩余內(nèi)存;采用靜態(tài)與動態(tài)結(jié)合的方法,及時歸還程序需要的內(nèi)存,確保程序正確執(zhí)行。本方法首次解決了基于結(jié)點(diǎn)內(nèi)存構(gòu)建存儲系統(tǒng)的內(nèi)存來源和管理的關(guān)鍵問題,F(xiàn)有的存儲空間分配方法是面向磁盤的,不適合DS-m。DS-m的可用內(nèi)存容量小,讀/寫帶寬受限于互連接口帶寬,這影響了大文件存儲和多進(jìn)程并行讀/寫帶寬。DRAM為易失性存儲器件,通常采用雙副本方法解決存儲可靠性問題,現(xiàn)行的串行更新主輔副本的方法,延遲大。VFS的頁緩存控制策略是面向磁盤小數(shù)據(jù)塊的,在大文件讀/寫時性能低;FUSE分拆大數(shù)據(jù)塊的讀/寫請求,引入較大的讀/寫請求發(fā)送延遲。為了解決上述問題,本文提出由多個DS-m/DS-s并行工作,提高DS-m組的可用存儲容量和多進(jìn)程的聚合帶寬;采用主輔副本并行更新方法,消除串行更新方法引入的寫延遲;提出了關(guān)閉VFS頁緩存,增大FUSE的MAX_size參數(shù),構(gòu)建和管理客戶端緩存的方法,大幅提升了大數(shù)據(jù)塊的讀/寫性能。實(shí)驗(yàn)和分析表明,由4個DS-m構(gòu)成的分組并行存儲,提高存儲容量4倍,平均提高讀/寫帶寬3.4倍;并行副本更新時間僅為串行方式的48.8%;客戶端緩存的讀和寫速度分別是使用VFS頁緩存的6.7倍和1.78倍。4)提出了基于內(nèi)存容量閥值控制的文件向下遷移和基于應(yīng)用特性的文件向上預(yù)遷移的控制策略文件數(shù)據(jù)遷移是層次式存儲系統(tǒng)獲得高性能的關(guān)鍵技術(shù)。當(dāng)前,向下遷移主要以可用存儲容量作為遷移條件,向上遷移主要以文件訪問特性,如讀/寫、訪問請求大小等,為遷移條件,F(xiàn)有的方法或是基于低速磁盤的,或是沒有考慮高性能計算應(yīng)用程序訪問文件的特性。使用文件訪問的動態(tài)特性計算熱度,開銷大;僅僅使用可用存儲容量控制向下遷移,不考慮文件所處的open/close狀態(tài),易于使處于open狀態(tài)的文件產(chǎn)生遷移乒乓效應(yīng)。本文按照文件所處的open和close狀態(tài),使用雙LRU表,實(shí)現(xiàn)文件冷度計算;在DS-m中設(shè)立三個可用內(nèi)存容量閥值,并與文件冷度結(jié)合觸發(fā)向下遷移;基于數(shù)據(jù)密集型應(yīng)用程序讀/寫和處理文件數(shù)據(jù)的特性,提出了全文件和部分文件結(jié)合的混合遷移粒度方法,以及向上主動預(yù)遷移和被動預(yù)遷移結(jié)合的控制策略。實(shí)驗(yàn)和分析結(jié)果表明,冷度計算方法的計算開銷小;向下遷移可在遷出文件數(shù)據(jù)量和寫入數(shù)據(jù)量兩個方面取得性能均衡;全文件和部分文件數(shù)據(jù)向上遷移、主動向上預(yù)遷移可減少無效遷移操作,在DS-m與DS-d之間可提高讀帶寬16倍以上。ONFS支持POSIX協(xié)議,我們在天河一號超級計算機(jī)上實(shí)現(xiàn)了ONFS原型系統(tǒng),用戶程序不需要修改便可在ONFS上運(yùn)行。IOR benchmark測試表明,ONFS的文件讀/寫帶寬是Lustre的7.7倍或以上;典型數(shù)據(jù)密集型應(yīng)用程序測試結(jié)果表明,ONFS文件讀和寫帶寬分別是Lustre的5.44倍和4.67倍,實(shí)際應(yīng)用效果良好。
【學(xué)位授予單位】:國防科技大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2018
【分類號】:TP333
【圖文】:
圖 1.1 美國能源部 Fast Forward Storage and I/O Stack 研究課題提出的 I/O 系統(tǒng)組成結(jié)構(gòu)該結(jié)構(gòu)中包含了兩個最為重要的技術(shù)概念,I/O 轉(zhuǎn)發(fā)(Forwarding)和 I/O (Stack)。前者是 I/O 請求的處理流程,研究小組認(rèn)為,在 I/O 請求的轉(zhuǎn)發(fā)過中,應(yīng)該盡早地對 I/O 請求進(jìn)行處理,為此提出了 I/ONode(I/O 管理服務(wù)器,ION和 BurstBufferNode(BBN)等新的 I/O 處理方法和處理層次,這使得現(xiàn)有的基磁盤的存儲系統(tǒng)的地位已經(jīng)降低到最底層,主要提供存儲容量,啟動了存儲系統(tǒng)的變革。I/O 棧是在 I/O 轉(zhuǎn)發(fā)過程中,處理 I/O 請求的不同軟件模塊。如果 I/O 求的處理流程發(fā)生了變化,I/O 棧也要做相應(yīng)的改變。從圖 1.1 可以看出,研究小組建議在 Exascale 計算機(jī)的計算結(jié)點(diǎn)中不配置存部件,如磁盤和 SSD;在系統(tǒng)中,可以設(shè)立專門的 I/O 服務(wù)結(jié)點(diǎn),如專門用于緩?fù)话l(fā) I/O 請求的 BBN 和專門用于轉(zhuǎn)發(fā) I/O 請求的 ION 等。BBN 是一類使用 SS提供存儲服務(wù)的專用結(jié)點(diǎn),與內(nèi)部高速互連網(wǎng)相連,在物理上,可以以機(jī)柜為單分布安放,也可以集中安放在若干個專用機(jī)柜中;趯Τ売嬎阌脩糇x/寫操作特性的深入分析,特別是對 checkpoint workflow 中寫操作的數(shù)據(jù)量和突發(fā)請求特性的分析,人們提出在 burst buffer 中
論文組織結(jié)構(gòu)
有必要對 Lustre 的結(jié)構(gòu)組成和性能進(jìn)行分析,以吸導(dǎo)新的文件系統(tǒng)的研究。一個獨(dú)立的存儲系統(tǒng),它與計算子系統(tǒng)分離,通過內(nèi)部象存儲技術(shù),由三類部件構(gòu)成,分別為:元數(shù)據(jù)服務(wù)器(OSS)和運(yùn)行在計算結(jié)點(diǎn)上的客戶端軟件(Client)。圖結(jié)構(gòu)示意圖[124]。
本文編號:2793660
【學(xué)位授予單位】:國防科技大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2018
【分類號】:TP333
【圖文】:
圖 1.1 美國能源部 Fast Forward Storage and I/O Stack 研究課題提出的 I/O 系統(tǒng)組成結(jié)構(gòu)該結(jié)構(gòu)中包含了兩個最為重要的技術(shù)概念,I/O 轉(zhuǎn)發(fā)(Forwarding)和 I/O (Stack)。前者是 I/O 請求的處理流程,研究小組認(rèn)為,在 I/O 請求的轉(zhuǎn)發(fā)過中,應(yīng)該盡早地對 I/O 請求進(jìn)行處理,為此提出了 I/ONode(I/O 管理服務(wù)器,ION和 BurstBufferNode(BBN)等新的 I/O 處理方法和處理層次,這使得現(xiàn)有的基磁盤的存儲系統(tǒng)的地位已經(jīng)降低到最底層,主要提供存儲容量,啟動了存儲系統(tǒng)的變革。I/O 棧是在 I/O 轉(zhuǎn)發(fā)過程中,處理 I/O 請求的不同軟件模塊。如果 I/O 求的處理流程發(fā)生了變化,I/O 棧也要做相應(yīng)的改變。從圖 1.1 可以看出,研究小組建議在 Exascale 計算機(jī)的計算結(jié)點(diǎn)中不配置存部件,如磁盤和 SSD;在系統(tǒng)中,可以設(shè)立專門的 I/O 服務(wù)結(jié)點(diǎn),如專門用于緩?fù)话l(fā) I/O 請求的 BBN 和專門用于轉(zhuǎn)發(fā) I/O 請求的 ION 等。BBN 是一類使用 SS提供存儲服務(wù)的專用結(jié)點(diǎn),與內(nèi)部高速互連網(wǎng)相連,在物理上,可以以機(jī)柜為單分布安放,也可以集中安放在若干個專用機(jī)柜中;趯Τ売嬎阌脩糇x/寫操作特性的深入分析,特別是對 checkpoint workflow 中寫操作的數(shù)據(jù)量和突發(fā)請求特性的分析,人們提出在 burst buffer 中
論文組織結(jié)構(gòu)
有必要對 Lustre 的結(jié)構(gòu)組成和性能進(jìn)行分析,以吸導(dǎo)新的文件系統(tǒng)的研究。一個獨(dú)立的存儲系統(tǒng),它與計算子系統(tǒng)分離,通過內(nèi)部象存儲技術(shù),由三類部件構(gòu)成,分別為:元數(shù)據(jù)服務(wù)器(OSS)和運(yùn)行在計算結(jié)點(diǎn)上的客戶端軟件(Client)。圖結(jié)構(gòu)示意圖[124]。
本文編號:2793660
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2793660.html
最近更新
教材專著