基于HDFS的海量小文件讀寫策略研究
本文關(guān)鍵詞:基于HDFS的海量小文件讀寫策略研究
更多相關(guān)文章: 云存儲(chǔ) HDFS Redis集群 小文件問題
【摘要】:當(dāng)前網(wǎng)絡(luò)信息技術(shù)與云計(jì)算技術(shù)迅猛發(fā)展,互聯(lián)網(wǎng)內(nèi)容由網(wǎng)站管理人員主導(dǎo)逐漸過渡為用戶主導(dǎo),這種變化使得人們可以隨時(shí)隨地通過互聯(lián)網(wǎng)服務(wù)獲取或者生成海量的數(shù)據(jù),如何有效地管理這些個(gè)人或公共數(shù)據(jù)已成為當(dāng)務(wù)之急。傳統(tǒng)的存儲(chǔ)架構(gòu)在當(dāng)前互聯(lián)網(wǎng)數(shù)據(jù)存儲(chǔ)場景中表現(xiàn)較差,且其擴(kuò)展性差、數(shù)據(jù)安全性低、維護(hù)與管理成本高、災(zāi)備能力差等缺陷日益明顯。將個(gè)人數(shù)據(jù)集中存儲(chǔ)至云服務(wù)中統(tǒng)一管理的分布式云存儲(chǔ)系統(tǒng)受到IT界的廣泛關(guān)注,用戶無需在本地持有大量的存儲(chǔ)空間,只需要通過智能設(shè)備就能夠便捷地獲取到云端數(shù)據(jù)。這種分布式的云存取結(jié)構(gòu)可以很好地解決上述問題,并且滿足大規(guī)模用戶并發(fā)訪問的需求。Hadoop是一個(gè)可部署在廉價(jià)設(shè)備上的分布式開源平臺(tái),其核心之一的HDFS作為一種新型的云存儲(chǔ)平臺(tái),能夠很好地解決爆炸性數(shù)據(jù)的存儲(chǔ)與管理難題。本文主要針對海量小文件讀寫這一場景,對分布式文件系統(tǒng)HDFS進(jìn)行了詳細(xì)分析,并關(guān)于HDFS存在的小文件問題、節(jié)點(diǎn)選擇問題和讀取緩存問題,提出了基于Redis集群的HDFS改進(jìn)方案RCHDFS。首先,從基本系統(tǒng)組成與工作原理方面對GFS、MooseFS、HDFS等典型的分布式存儲(chǔ)系統(tǒng)進(jìn)行研究,分析HDFS系統(tǒng)的主要組件與依賴關(guān)系,深入研究了NameNode、DataNode、DFSClient的工作原理及對應(yīng)源碼實(shí)現(xiàn)。然后,通過對大量中外文獻(xiàn)的分析與相關(guān)技術(shù)的研究,針對HDFS的固有問題,分析了已有的解決方案,隨后提出了改進(jìn)方案,分為3個(gè)部分。一是提出了在DataNode節(jié)點(diǎn)中部署Redis集群服務(wù)的方法,使得Redis服務(wù)可以承擔(dān)大部分NameNode的管理任務(wù),集群的內(nèi)存使用可以均勻地分布在不同的DataNode節(jié)點(diǎn)上,緩解NameNode的內(nèi)存消耗和NameNode并發(fā)壓力;二是提出了基于節(jié)點(diǎn)處理能力和數(shù)據(jù)塊在節(jié)點(diǎn)中分布均衡性的最優(yōu)讀寫節(jié)點(diǎn)選擇方法,優(yōu)化了HDFS機(jī)架感知策略,既保證了數(shù)據(jù)塊的均衡,又降低了文件讀寫時(shí)延;三是提出了基于混合緩存的中小文件讀取方法,在Redis中緩存熱點(diǎn)小文件,在Client端緩存中等文件元信息,進(jìn)一步提升了海量文件的訪問速度。最后,針對提出的RCHDFS與HDFS方案進(jìn)行了測試對比。測試結(jié)果表明,本文提出的方案可以明顯地降低海量小文件元數(shù)據(jù)信息的內(nèi)存消耗,在并發(fā)性大量文件讀寫操作時(shí)可以有效地降低時(shí)間消耗,并且保證了所有塊和文件元信息在節(jié)點(diǎn)中分布均衡。
【學(xué)位授予單位】:山東大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP333
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 曲秀華;劉曉波;;區(qū)分文件保存價(jià)值的主客觀因素[J];黑龍江檔案;2002年01期
2 朱麗霞;電子文件必須立卷[J];滄桑;2004年03期
3 李婉秋;張利萍;;電子文件長期保存的問題與對策[J];中國信息界;2004年13期
4 ella;;輕松將文件保存為指定格式[J];電腦迷;2006年24期
5 甘曉;;淺談電子文件的管理[J];科學(xué)大眾(科學(xué)教育);2012年08期
6 王金鳳;;小議建設(shè)電子文件的收集與積累[J];民營科技;2012年11期
7 章波;;國務(wù)院機(jī)關(guān)是怎樣整理會(huì)媝文件的[J];檔案工作;1957年01期
8 沈麗華;文件與文件生命周期——莫斯在華講學(xué)部分內(nèi)容綜述之二[J];檔案學(xué)通訊;1993年06期
9 王珠珠;吳凱媛;;新形勢下電子文件長期保存問題研究[J];黑龍江檔案;2014年01期
10 韓海龍;給文件“動(dòng)手術(shù)”——破損文件巧復(fù)制[J];電腦校園;2004年04期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前10條
1 于星海;張海霞;毛建斌;;淺析電子文件的銷毀[A];齊魯檔案論壇——山東省檔案學(xué)會(huì)2008年學(xué)術(shù)年會(huì)會(huì)刊[C];2008年
2 紀(jì)發(fā)文;李媛媛;溫春燕;;論電子文件的收集和歸檔[A];齊魯檔案論壇——山東省檔案學(xué)會(huì)2009年學(xué)術(shù)年會(huì)會(huì)刊[C];2009年
3 胡魁海;;電子文件的收集、整理與歸檔[A];高教科研2006(下冊:專題研究)[C];2006年
4 顧玉芳;;淺談電子文件的鑒定[A];江蘇省檔案現(xiàn)代化管理與檔案信息化建設(shè)學(xué)術(shù)研討會(huì)交流材料[C];2002年
5 徐昱;;電子文件——檔案工作的新課題[A];貴州省檔案學(xué)會(huì)2004年檔案學(xué)術(shù)研討會(huì)論文集[C];2004年
6 楊茹;;文件連續(xù)體理論視角下的核電文件管理模式研究[A];檔案與文化建設(shè):2012年全國檔案工作者年會(huì)論文集(中)[C];2012年
7 陶毓;;《淺議電子文件的管理》[A];檔案工作應(yīng)對入世挑戰(zhàn)學(xué)術(shù)研討會(huì)文集[C];2002年
8 蔣建梅;;淺談電子文件的歸檔與管理[A];創(chuàng)新與發(fā)展——山東省檔案學(xué)會(huì)第六次會(huì)員代表大會(huì)暨山東省檔案學(xué)會(huì)第六次檔案學(xué)術(shù)討論會(huì)論文集[C];2006年
9 段瑋瑤;;電子文件與檔案管理[A];源于實(shí)踐 服務(wù)全局——蘭臺(tái)工作縱橫[C];2008年
10 王泰山;;關(guān)于社會(huì)保障業(yè)務(wù)電子文件的管理[A];江蘇省檔案現(xiàn)代化管理與檔案信息化建設(shè)學(xué)術(shù)研討會(huì)交流材料[C];2002年
中國重要報(bào)紙全文數(shù)據(jù)庫 前10條
1 江蘇 王志軍;找回誤刪出的文件[N];電腦報(bào);2003年
2 袁恩泉;淺談企業(yè)電子文件的鑒定與歸檔[N];中國檔案報(bào);2002年
3 LZY;WPS Office技巧三則[N];電腦報(bào);2002年
4 鳴澗;文件是這樣搜出來的[N];中國電腦教育報(bào);2003年
5 湖南 何曉;給你的文件增加記憶[N];電腦報(bào);2004年
6 江蘇 顧祥華;巧將視頻文件轉(zhuǎn)為可執(zhí)行文件[N];電腦報(bào);2003年
7 天津 寒燕天;多個(gè)VCD文件巧壓縮[N];電腦報(bào);2004年
8 江蘇 王東;Excel 2000同時(shí)打開多個(gè)文件的方法[N];中國電腦教育報(bào);2001年
9 俞木發(fā);用OE“保管”重要文件[N];中國電腦教育報(bào);2004年
10 王蘭婷;用Word打印文件[N];中國電腦教育報(bào);2005年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 游小容;基于Hadoop的海量教育資源小文件的存儲(chǔ)研究與實(shí)現(xiàn)[D];電子科技大學(xué);2015年
2 宋凱;電子文件真實(shí)性研究[D];南京大學(xué);2014年
3 金裔云;文件隱藏方法的研究[D];吉林大學(xué);2015年
4 王彥彬;加拿大電子文件真實(shí)性永久保障研究[D];天津師范大學(xué);2016年
5 高宗寶;基于HDFS的海量小文件讀寫策略研究[D];山東大學(xué);2016年
6 鄭姍姍;電子文件銷毀研究[D];蘇州大學(xué);2012年
7 章丹;論電子文件的鑒定[D];蘇州大學(xué);2002年
8 張先鋒;電子文件的法律證據(jù)地位研究[D];安徽大學(xué);2007年
9 顏曉棟;電子文件的長期保存研究[D];武漢大學(xué);2004年
10 林明東;各級(jí)國家綜合檔案館電子文件接收策略研究[D];福建師范大學(xué);2012年
,本文編號(hào):1189393
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/1189393.html