HDFS文件系統(tǒng)的改進(jìn)研究
發(fā)布時(shí)間:2022-01-24 08:42
對(duì)于云端存儲(chǔ)的海量數(shù)據(jù)來(lái)說(shuō),提升分布式文件系統(tǒng)的性能以及云端存儲(chǔ)數(shù)據(jù)的安全性與可問(wèn)責(zé)能力是必要的。然而,HDFS默認(rèn)的副本存放策略進(jìn)行副本存放節(jié)點(diǎn)的選擇時(shí)具有隨機(jī)性,那么隨之而來(lái)的問(wèn)題是節(jié)點(diǎn)間副本存放不均衡以及數(shù)據(jù)恢復(fù)時(shí)由于距離因素造成內(nèi)部帶寬的巨大消耗;與此同時(shí),對(duì)于需要將海量數(shù)據(jù)寄存在云服務(wù)平臺(tái)上的用戶來(lái)說(shuō),HDFS未能提供足夠的安全機(jī)制來(lái)確保數(shù)據(jù)的安全性。因此,針對(duì)HDFS默認(rèn)副本存放策略以及如何提供安全的數(shù)據(jù)存儲(chǔ)及操作環(huán)境的研究是有意義的。本文在對(duì)HDFS進(jìn)行研究與分析的基礎(chǔ)上,從默認(rèn)副本存放策略以及數(shù)據(jù)安全性兩個(gè)角度來(lái)考慮改進(jìn)工作。針對(duì)HDFS默認(rèn)副本存放策略中存在的不足,改進(jìn)后的副本存放策略將節(jié)點(diǎn)之間的距離、節(jié)點(diǎn)當(dāng)前的負(fù)載情況、節(jié)點(diǎn)磁盤I/O效率以及副本失效次數(shù)等因素納入節(jié)點(diǎn)選擇的考慮范圍內(nèi),并依此計(jì)算出每個(gè)節(jié)點(diǎn)的匹配度,隨后選出匹配度最高的節(jié)點(diǎn)作為遠(yuǎn)端機(jī)架間的副本存放最佳節(jié)點(diǎn)。實(shí)驗(yàn)結(jié)果表明,不但實(shí)現(xiàn)了節(jié)點(diǎn)間副本數(shù)目的負(fù)載均衡,而且兼顧了數(shù)據(jù)恢復(fù)時(shí)消耗的內(nèi)部帶寬;由于將數(shù)據(jù)副本失效次數(shù)納入考慮因素,可以實(shí)現(xiàn)經(jīng)常失效數(shù)據(jù)副本的快速恢復(fù)。為了應(yīng)對(duì)云存儲(chǔ)中數(shù)據(jù)安全性問(wèn)題,本文設(shè)計(jì)...
【文章來(lái)源】:南京郵電大學(xué)江蘇省
【文章頁(yè)數(shù)】:77 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
GFS系統(tǒng)架構(gòu)
供的是基于網(wǎng)孔結(jié)構(gòu)的分布式文件系統(tǒng),其明顯的優(yōu)勢(shì)在外單元格內(nèi)的用戶之間的共享信息,那么需要獲得其它網(wǎng)孔。對(duì)于傳統(tǒng)文件系統(tǒng)來(lái)說(shuō),提供用戶文件目錄進(jìn)行訪問(wèn);對(duì)路徑來(lái)實(shí)現(xiàn),此路徑具有唯一性并且對(duì)用戶來(lái)說(shuō)是完全透明文件目錄一樣。ile System System(TFS)[19]是中國(guó)阿里巴巴公司推出的一款國(guó)內(nèi)分布是海量小文件的存儲(chǔ)。一般情況下文件大小不大于 1MB;部寶網(wǎng)之上,高效、可靠地實(shí)現(xiàn)淘寶網(wǎng)的海量數(shù)據(jù)的存儲(chǔ)工作
這種方式的優(yōu)勢(shì)是恢復(fù)之后的狀態(tài)與失效之前的 Namenode 保持高度數(shù)據(jù)丟失的情形;缺點(diǎn)就是同步所帶來(lái)的帶寬的消耗。)通過(guò)從 Namenode 來(lái)實(shí)現(xiàn)當(dāng)主 Namenode 失效之后的迅速切換,從而保證務(wù)能力不會(huì)中斷。由于從 Namenode 運(yùn)行于另一個(gè)節(jié)點(diǎn)之上,存在從 Nam落后主 Namenode 當(dāng)前狀態(tài)的現(xiàn)象,導(dǎo)致的結(jié)果就是部分?jǐn)?shù)據(jù)的丟失現(xiàn)象。數(shù)據(jù)流戶端執(zhí)行讀取操作時(shí),客戶端和 HDFS 之間存在交互過(guò)程以及 NameNde 之間存在交互的數(shù)據(jù)流。文件讀取FS 讀取文件時(shí)時(shí)序圖如圖 2.2 所示:
【參考文獻(xiàn)】:
期刊論文
[1]初始信息素篩選的蟻群優(yōu)化算法在HDFS副本選擇中的研究[J]. 段效琛,李英娜,賈會(huì)玲,趙振剛,李川. 傳感器與微系統(tǒng). 2017(04)
[2]基于低密度隨機(jī)糾刪碼的TFS容災(zāi)優(yōu)化方案[J]. 王子偉,王曉京. 計(jì)算機(jī)應(yīng)用. 2016(S2)
[3]分布式存儲(chǔ)中的糾刪碼容錯(cuò)技術(shù)研究[J]. 王意潔,許方亮,裴曉強(qiáng). 計(jì)算機(jī)學(xué)報(bào). 2017(01)
[4]Hadoop分布式文件系統(tǒng)原理[J]. 曹卉. 軟件導(dǎo)刊. 2016(03)
[5]基于HDFS的云存儲(chǔ)系統(tǒng)小文件優(yōu)化方案[J]. 鄒振宇,鄭烇,王嵩,楊堅(jiān). 計(jì)算機(jī)工程. 2016(03)
[6]基于HDFS的分布式存儲(chǔ)策略分析[J]. 王來(lái),翟健宏. 智能計(jì)算機(jī)與應(yīng)用. 2016(01)
[7]分布式文件系統(tǒng)綜述[J]. 文莎. 軟件導(dǎo)刊. 2015(11)
[8]谷歌大數(shù)據(jù)技術(shù)的研究及開源實(shí)現(xiàn)[J]. 陳晨,陳達(dá)麗. 軟件產(chǎn)業(yè)與工程. 2015(05)
[9]SFFS:低延遲的面向小文件的分布式文件系統(tǒng)[J]. 王魯俊,龍翔,吳興博,王雷. 計(jì)算機(jī)科學(xué)與探索. 2014(04)
[10]Hadoop副本放置策略[J]. 邵秀麗,王亞光,李云龍,劉一偉. 智能系統(tǒng)學(xué)報(bào). 2013(06)
碩士論文
[1]HDFS下文件存儲(chǔ)研究與優(yōu)化[D]. 張波.廣東工業(yè)大學(xué) 2013
[2]HDFS環(huán)境下的訪問(wèn)控制技術(shù)研究[D]. 陳貞.重慶大學(xué) 2013
[3]基于HDFS的存儲(chǔ)技術(shù)的研究[D]. 王永洲.南京郵電大學(xué) 2013
[4]基于云存儲(chǔ)的數(shù)據(jù)存儲(chǔ)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 郭耀華.北京郵電大學(xué) 2012
[5]基于HDFS的分布式存儲(chǔ)研究與應(yīng)用[D]. 童明.華中科技大學(xué) 2012
[6]Hadoop平臺(tái)高可用性方案的設(shè)計(jì)與實(shí)現(xiàn)[D]. 楊帆.北京郵電大學(xué) 2012
[7]基于HDFS的分布式Namenode節(jié)點(diǎn)模型的研究[D]. 李寬.華南理工大學(xué) 2011
[8]云存儲(chǔ)系統(tǒng)服務(wù)質(zhì)量控制與可靠性技術(shù)研究[D]. 許信.浙江大學(xué) 2011
[9]面向云存儲(chǔ)的分布式文件系統(tǒng)關(guān)鍵技術(shù)研究[D]. 趙黎斌.西安電子科技大學(xué) 2011
[10]基于HDFS的云存儲(chǔ)服務(wù)系統(tǒng)研究[D]. 黃曉云.大連海事大學(xué) 2010
本文編號(hào):3606263
【文章來(lái)源】:南京郵電大學(xué)江蘇省
【文章頁(yè)數(shù)】:77 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
GFS系統(tǒng)架構(gòu)
供的是基于網(wǎng)孔結(jié)構(gòu)的分布式文件系統(tǒng),其明顯的優(yōu)勢(shì)在外單元格內(nèi)的用戶之間的共享信息,那么需要獲得其它網(wǎng)孔。對(duì)于傳統(tǒng)文件系統(tǒng)來(lái)說(shuō),提供用戶文件目錄進(jìn)行訪問(wèn);對(duì)路徑來(lái)實(shí)現(xiàn),此路徑具有唯一性并且對(duì)用戶來(lái)說(shuō)是完全透明文件目錄一樣。ile System System(TFS)[19]是中國(guó)阿里巴巴公司推出的一款國(guó)內(nèi)分布是海量小文件的存儲(chǔ)。一般情況下文件大小不大于 1MB;部寶網(wǎng)之上,高效、可靠地實(shí)現(xiàn)淘寶網(wǎng)的海量數(shù)據(jù)的存儲(chǔ)工作
這種方式的優(yōu)勢(shì)是恢復(fù)之后的狀態(tài)與失效之前的 Namenode 保持高度數(shù)據(jù)丟失的情形;缺點(diǎn)就是同步所帶來(lái)的帶寬的消耗。)通過(guò)從 Namenode 來(lái)實(shí)現(xiàn)當(dāng)主 Namenode 失效之后的迅速切換,從而保證務(wù)能力不會(huì)中斷。由于從 Namenode 運(yùn)行于另一個(gè)節(jié)點(diǎn)之上,存在從 Nam落后主 Namenode 當(dāng)前狀態(tài)的現(xiàn)象,導(dǎo)致的結(jié)果就是部分?jǐn)?shù)據(jù)的丟失現(xiàn)象。數(shù)據(jù)流戶端執(zhí)行讀取操作時(shí),客戶端和 HDFS 之間存在交互過(guò)程以及 NameNde 之間存在交互的數(shù)據(jù)流。文件讀取FS 讀取文件時(shí)時(shí)序圖如圖 2.2 所示:
【參考文獻(xiàn)】:
期刊論文
[1]初始信息素篩選的蟻群優(yōu)化算法在HDFS副本選擇中的研究[J]. 段效琛,李英娜,賈會(huì)玲,趙振剛,李川. 傳感器與微系統(tǒng). 2017(04)
[2]基于低密度隨機(jī)糾刪碼的TFS容災(zāi)優(yōu)化方案[J]. 王子偉,王曉京. 計(jì)算機(jī)應(yīng)用. 2016(S2)
[3]分布式存儲(chǔ)中的糾刪碼容錯(cuò)技術(shù)研究[J]. 王意潔,許方亮,裴曉強(qiáng). 計(jì)算機(jī)學(xué)報(bào). 2017(01)
[4]Hadoop分布式文件系統(tǒng)原理[J]. 曹卉. 軟件導(dǎo)刊. 2016(03)
[5]基于HDFS的云存儲(chǔ)系統(tǒng)小文件優(yōu)化方案[J]. 鄒振宇,鄭烇,王嵩,楊堅(jiān). 計(jì)算機(jī)工程. 2016(03)
[6]基于HDFS的分布式存儲(chǔ)策略分析[J]. 王來(lái),翟健宏. 智能計(jì)算機(jī)與應(yīng)用. 2016(01)
[7]分布式文件系統(tǒng)綜述[J]. 文莎. 軟件導(dǎo)刊. 2015(11)
[8]谷歌大數(shù)據(jù)技術(shù)的研究及開源實(shí)現(xiàn)[J]. 陳晨,陳達(dá)麗. 軟件產(chǎn)業(yè)與工程. 2015(05)
[9]SFFS:低延遲的面向小文件的分布式文件系統(tǒng)[J]. 王魯俊,龍翔,吳興博,王雷. 計(jì)算機(jī)科學(xué)與探索. 2014(04)
[10]Hadoop副本放置策略[J]. 邵秀麗,王亞光,李云龍,劉一偉. 智能系統(tǒng)學(xué)報(bào). 2013(06)
碩士論文
[1]HDFS下文件存儲(chǔ)研究與優(yōu)化[D]. 張波.廣東工業(yè)大學(xué) 2013
[2]HDFS環(huán)境下的訪問(wèn)控制技術(shù)研究[D]. 陳貞.重慶大學(xué) 2013
[3]基于HDFS的存儲(chǔ)技術(shù)的研究[D]. 王永洲.南京郵電大學(xué) 2013
[4]基于云存儲(chǔ)的數(shù)據(jù)存儲(chǔ)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 郭耀華.北京郵電大學(xué) 2012
[5]基于HDFS的分布式存儲(chǔ)研究與應(yīng)用[D]. 童明.華中科技大學(xué) 2012
[6]Hadoop平臺(tái)高可用性方案的設(shè)計(jì)與實(shí)現(xiàn)[D]. 楊帆.北京郵電大學(xué) 2012
[7]基于HDFS的分布式Namenode節(jié)點(diǎn)模型的研究[D]. 李寬.華南理工大學(xué) 2011
[8]云存儲(chǔ)系統(tǒng)服務(wù)質(zhì)量控制與可靠性技術(shù)研究[D]. 許信.浙江大學(xué) 2011
[9]面向云存儲(chǔ)的分布式文件系統(tǒng)關(guān)鍵技術(shù)研究[D]. 趙黎斌.西安電子科技大學(xué) 2011
[10]基于HDFS的云存儲(chǔ)服務(wù)系統(tǒng)研究[D]. 黃曉云.大連海事大學(xué) 2010
本文編號(hào):3606263
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/3606263.html
最近更新
教材專著