多HDFS命名空間管理與Alluxio讀性能優(yōu)化
發(fā)布時間:2021-11-24 18:22
隨著計算機和信息技術的不斷發(fā)展,傳統(tǒng)的單機系統(tǒng)已無法處理日益增長的海量數(shù)據(jù),大數(shù)據(jù)分布并行處理技術應運而生。分布式文件系統(tǒng)是大數(shù)據(jù)生態(tài)中的重要組成部分。HDFS(Hadoop Distributed File System)因為其可靠性和良好的擴展性已經(jīng)成為廣為使用的大數(shù)據(jù)分布式存儲系統(tǒng)。HDFS采用典型的主從式架構(gòu),單NameNode節(jié)點的元數(shù)據(jù)承載能力有限,而且會成為HDFS訪問的單點瓶頸。常用的水平擴展方案是增加HDFS集群中的NameNode節(jié)點數(shù)量,每個NameNode節(jié)點管理一個獨立的命名空間,形成多個HDFS命名空間。多HDFS命名空間管理方案通過向上層應用提供一個統(tǒng)一命名空間,減輕了上層應用使用多HDFS命名空間的負擔,同時也消除單NameNode節(jié)點帶來的單點瓶頸問題。已有的多HDFS命名空間管理方案提供了一定的統(tǒng)一命名空間管理能力,但還存在管理復雜、不易使用等問題和不足。以ViewFS為例,ViewFS下的某個HDFS命名空間變動時,需要所有上層應用修改配置,因此使用顯然不方便,易用性上存在不足。目前缺乏一個綜合考慮易用性和元數(shù)據(jù)訪問性能的多HDFS命名空間管理方案...
【文章來源】:南京大學江蘇省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:79 頁
【學位級別】:碩士
【部分圖文】:
圖2?-?1?HDFS系統(tǒng)架構(gòu)??
Alluxio中,從而將上層大數(shù)據(jù)計算框架的數(shù)據(jù)訪問速度提升幾個數(shù)量級。由于??其顯著的性能優(yōu)勢,Alluxio受到了工業(yè)界的廣泛關注,己經(jīng)在百度、京東、Intel??等超過100家公司的生產(chǎn)環(huán)境中進行部署,有在超過1000個節(jié)點的集群上運行。??2.2.1?Alluxio系統(tǒng)架構(gòu)??如圖2-3所不,Alluxio米用主從式架構(gòu),包括一個ActiveMaster節(jié)點和多個??Worker節(jié)點,以及多個StandbyMaster節(jié)點,StandbyMaster節(jié)點不提供對外服??務,負責復制ActiveMaster的元數(shù)據(jù)信息,并在Master節(jié)點失效時迅速接替??Master節(jié)點的工作。??
r端的遠程過程調(diào)用,降低了?Alluxio客戶端的元數(shù)據(jù)訪問性能。????mount????alluxio://host:port?^??hdfs://host:port??I??「??mount?????????s3n?://bucket/directoiy???User?Data?Data??■—“—?—?r?——?——'??Foo?Bar?Foo?Bar?Reports?Sales?Reports?Sales??圖2-4Alluxio統(tǒng)一命名空間??2.2.3分布式內(nèi)存存儲系統(tǒng)性能優(yōu)化相關工作??隨著上層大數(shù)據(jù)應用對底層數(shù)據(jù)讀寫訪問時延的要求越來越高,出現(xiàn)了各種??不同設計目標的分布式內(nèi)存存儲系統(tǒng),這些分布式內(nèi)存存儲系統(tǒng)中通過使用大頁??面內(nèi)存或者優(yōu)化mmap讀取文件過程等方式提升系統(tǒng)的吞吐量,對優(yōu)化分布式內(nèi)??存文件系統(tǒng)具有參考意義。??Crail[35]是支持使用RDMA高性能網(wǎng)絡連接多種高速存儲設備(如內(nèi)存、??NVMeF等)的分布式內(nèi)存存儲系統(tǒng)。Crail的從節(jié)點默認使用tmpfs[36]作為內(nèi)存??存儲,同時支持使用hugetlbfs作為內(nèi)存存儲。使用hugetlbfs減少了?Crail客戶端??讀取Cmil從節(jié)點數(shù)據(jù)時的缺頁中斷次數(shù),提升了上層大數(shù)據(jù)系統(tǒng)的數(shù)據(jù)訪問性??能。??Plasma是實時機器學習框架Ray[37]使用的分布式對象存儲系統(tǒng),單節(jié)點上??的多個Ray?Worker進程通過mmap系統(tǒng)調(diào)用將Plasma中存儲的對象映射到進程??地址空間中,實現(xiàn)對象的共享訪問。Plasma同樣支持使用tmpfs或Linux?hugetl
本文編號:3516519
【文章來源】:南京大學江蘇省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:79 頁
【學位級別】:碩士
【部分圖文】:
圖2?-?1?HDFS系統(tǒng)架構(gòu)??
Alluxio中,從而將上層大數(shù)據(jù)計算框架的數(shù)據(jù)訪問速度提升幾個數(shù)量級。由于??其顯著的性能優(yōu)勢,Alluxio受到了工業(yè)界的廣泛關注,己經(jīng)在百度、京東、Intel??等超過100家公司的生產(chǎn)環(huán)境中進行部署,有在超過1000個節(jié)點的集群上運行。??2.2.1?Alluxio系統(tǒng)架構(gòu)??如圖2-3所不,Alluxio米用主從式架構(gòu),包括一個ActiveMaster節(jié)點和多個??Worker節(jié)點,以及多個StandbyMaster節(jié)點,StandbyMaster節(jié)點不提供對外服??務,負責復制ActiveMaster的元數(shù)據(jù)信息,并在Master節(jié)點失效時迅速接替??Master節(jié)點的工作。??
r端的遠程過程調(diào)用,降低了?Alluxio客戶端的元數(shù)據(jù)訪問性能。????mount????alluxio://host:port?^??hdfs://host:port??I??「??mount?????????s3n?://bucket/directoiy???User?Data?Data??■—“—?—?r?——?——'??Foo?Bar?Foo?Bar?Reports?Sales?Reports?Sales??圖2-4Alluxio統(tǒng)一命名空間??2.2.3分布式內(nèi)存存儲系統(tǒng)性能優(yōu)化相關工作??隨著上層大數(shù)據(jù)應用對底層數(shù)據(jù)讀寫訪問時延的要求越來越高,出現(xiàn)了各種??不同設計目標的分布式內(nèi)存存儲系統(tǒng),這些分布式內(nèi)存存儲系統(tǒng)中通過使用大頁??面內(nèi)存或者優(yōu)化mmap讀取文件過程等方式提升系統(tǒng)的吞吐量,對優(yōu)化分布式內(nèi)??存文件系統(tǒng)具有參考意義。??Crail[35]是支持使用RDMA高性能網(wǎng)絡連接多種高速存儲設備(如內(nèi)存、??NVMeF等)的分布式內(nèi)存存儲系統(tǒng)。Crail的從節(jié)點默認使用tmpfs[36]作為內(nèi)存??存儲,同時支持使用hugetlbfs作為內(nèi)存存儲。使用hugetlbfs減少了?Crail客戶端??讀取Cmil從節(jié)點數(shù)據(jù)時的缺頁中斷次數(shù),提升了上層大數(shù)據(jù)系統(tǒng)的數(shù)據(jù)訪問性??能。??Plasma是實時機器學習框架Ray[37]使用的分布式對象存儲系統(tǒng),單節(jié)點上??的多個Ray?Worker進程通過mmap系統(tǒng)調(diào)用將Plasma中存儲的對象映射到進程??地址空間中,實現(xiàn)對象的共享訪問。Plasma同樣支持使用tmpfs或Linux?hugetl
本文編號:3516519
本文鏈接:http://sikaile.net/guanlilunwen/shequguanli/3516519.html
最近更新
教材專著