基于HDFS分布式存儲(chǔ)技術(shù)研究與優(yōu)化
本文關(guān)鍵詞:基于HDFS分布式存儲(chǔ)技術(shù)研究與優(yōu)化
更多相關(guān)文章: HDFS 小文件優(yōu)化 文件合并 負(fù)載均衡 日志分析 云存儲(chǔ)
【摘要】:隨著互聯(lián)網(wǎng)的高速發(fā)展、互聯(lián)網(wǎng)用戶的快速增長(zhǎng),互聯(lián)網(wǎng)中的數(shù)據(jù)也急劇的膨脹。為了給用戶提供更好的服務(wù)互聯(lián)網(wǎng)企業(yè)就要保存和分析這些數(shù)據(jù),,由此產(chǎn)生了云計(jì)算的概念。云計(jì)算的出現(xiàn)很好的解決了大數(shù)據(jù)的運(yùn)算與存儲(chǔ)的難題,其中云存儲(chǔ)作為云計(jì)算的衍生也成為了國(guó)內(nèi)外研究的熱點(diǎn)。 Hadoop的分布式文件系統(tǒng)HDFS憑借著高性能、高可靠性等優(yōu)勢(shì)已成為業(yè)界研究云存儲(chǔ)的標(biāo)準(zhǔn)模型。在HDFS中以流式的方式訪問(wèn)大文件時(shí)效率很高但是對(duì)海量小文件的存取效率比較低。針對(duì)這個(gè)問(wèn)題本文提出了一種基于關(guān)系數(shù)據(jù)庫(kù)的小文件合并策略,在集群中為每個(gè)用戶建立一個(gè)用戶文件,當(dāng)用戶上傳小文件時(shí)把文件的元數(shù)據(jù)信息存入到關(guān)系數(shù)據(jù)庫(kù)中并將文件追加寫(xiě)入到用戶文件中,用戶讀取小文件時(shí)通過(guò)元數(shù)據(jù)信息直接以流式方式進(jìn)行讀取。此外當(dāng)用戶讀取小于一個(gè)文件塊大小的文件時(shí)還采取了數(shù)據(jù)節(jié)點(diǎn)負(fù)載均衡策略,直接由存儲(chǔ)數(shù)據(jù)的DataNode傳送給客戶端從而減輕主服務(wù)器壓力提高文件傳送效率。 除了對(duì)HDFS現(xiàn)有架構(gòu)優(yōu)化之外,本文還將Web技術(shù)與分布式存儲(chǔ)技術(shù)結(jié)合到一起搭建了一個(gè)云存儲(chǔ)平臺(tái),同時(shí)利用Hadoop下的Hive工具對(duì)網(wǎng)站和集群的日志進(jìn)行分析與挖掘從而獲得用戶瀏覽行為與服務(wù)器的運(yùn)行狀況。實(shí)驗(yàn)結(jié)果表明改進(jìn)后的架構(gòu)很好地解決了HDFS對(duì)大量小文件存取支持不足的缺點(diǎn),提高了HDFS文件系統(tǒng)對(duì)海量小文件的讀寫(xiě)性能,此方案適用于具有海量小文件的云存儲(chǔ)系統(tǒng)。
【關(guān)鍵詞】:HDFS 小文件優(yōu)化 文件合并 負(fù)載均衡 日志分析 云存儲(chǔ)
【學(xué)位授予單位】:河北工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類(lèi)號(hào)】:TP333
【目錄】:
- 摘要5-6
- ABSTRACT6-9
- 第一章 緒論9-15
- 1.1 研究背景9-10
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀10-11
- 1.3 研究意義11-12
- 1.4 本文研究?jī)?nèi)容與章節(jié)安排12-13
- 1.5 本章小結(jié)13-15
- 第二章 HDFS 文件系統(tǒng)的架構(gòu)與特點(diǎn)15-25
- 2.1 HDFS 基本概述15-16
- 2.2 HDFS 的體系結(jié)構(gòu)16-19
- 2.2.1 NameNode 節(jié)點(diǎn)分析16-17
- 2.2.2 DataNode 節(jié)點(diǎn)分析17-18
- 2.2.3 SecondNameNode 節(jié)點(diǎn)分析18-19
- 2.2.4 客戶端分析19
- 2.3 HDFS 源代碼結(jié)構(gòu)19-20
- 2.4 HDFS 讀寫(xiě)文件流程20-22
- 2.4.1 HDFS 讀取文件20-21
- 2.4.2 HDFS 寫(xiě)入文件21-22
- 2.5 HDFS 的高可用性22
- 2.6 本章小結(jié)22-25
- 第三章 HDFS 架構(gòu)的優(yōu)化25-39
- 3.1 小文件存儲(chǔ)問(wèn)題25
- 3.2 現(xiàn)有的小文件優(yōu)化方案25-29
- 3.2.1 HBase 存儲(chǔ)小文件25-27
- 3.2.2 小文件的歸檔與合并27-28
- 3.2.3 多 NameNode 架構(gòu)28-29
- 3.3 HDFS 小文件讀寫(xiě)的改進(jìn)29-31
- 3.3.1 架構(gòu)的設(shè)計(jì)29-30
- 3.3.2 小文件讀寫(xiě)過(guò)程分析30-31
- 3.4 小文件存儲(chǔ)架構(gòu)的不足與改進(jìn)31-34
- 3.4.1 小文件存儲(chǔ)架構(gòu)的不足31-32
- 3.4.2 DFS 服務(wù)器的優(yōu)化32-33
- 3.4.3 文件碎片的清理33-34
- 3.5 小文件架構(gòu)的實(shí)現(xiàn)34-35
- 3.6 小文件架構(gòu)的測(cè)試與分析35-38
- 3.6.1 實(shí)驗(yàn)的軟硬件環(huán)境35-36
- 3.6.2 實(shí)驗(yàn)結(jié)果與分析36-38
- 3.7 本章小結(jié)38-39
- 第四章 基于 HDFS 云存儲(chǔ)平臺(tái)的設(shè)計(jì)與應(yīng)用39-55
- 4.1 基于 HDFS 云存儲(chǔ)平臺(tái)的設(shè)計(jì)39-44
- 4.1.1 云存儲(chǔ)平臺(tái)的體系結(jié)構(gòu)39
- 4.1.2 云存儲(chǔ)平臺(tái)的功能設(shè)計(jì)39-40
- 4.1.3 云存儲(chǔ)平臺(tái)數(shù)據(jù)庫(kù)的設(shè)計(jì)40-42
- 4.1.4 云存儲(chǔ)平臺(tái)日志分析模塊設(shè)計(jì)42-44
- 4.2 基于 HDFS 云存儲(chǔ)平臺(tái)的應(yīng)用44-52
- 4.2.1 云存儲(chǔ)平臺(tái)的搭建44-46
- 4.2.2 日志分析的應(yīng)用46-49
- 4.2.3 文件管理的應(yīng)用49-52
- 4.3 云存儲(chǔ)平臺(tái)的展示52-54
- 4.4 本章小結(jié)54-55
- 第五章 總結(jié)與展望55-57
- 5.1 論文總結(jié)55
- 5.2 論文展望55-57
- 參考文獻(xiàn)57-61
- 攻讀學(xué)位期間所取得的相關(guān)科研成果61-63
- 致謝63-64
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 王征;劉心松;李美安;;企業(yè)信息分布式存儲(chǔ)的熱點(diǎn)處理策略[J];計(jì)算機(jī)集成制造系統(tǒng);2006年09期
2 李磊;沈海斌;黃凱;嚴(yán)曉浪;Han Sangil;Ahmed A Jerraya;;分布式存儲(chǔ)管理在多核設(shè)計(jì)中的高層建模[J];電子與信息學(xué)報(bào);2008年11期
3 劉翔;汪海玲;;分布式存儲(chǔ)中的一種數(shù)據(jù)放置策略[J];計(jì)算機(jī)與數(shù)字工程;2009年05期
4 陳衛(wèi)衛(wèi);吳海佳;胥光輝;;分布式存儲(chǔ)中文件分割的最優(yōu)化模型[J];解放軍理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年04期
5 崔忠強(qiáng);左德承;張展;;在云間可重構(gòu)的分布式存儲(chǔ)[J];系統(tǒng)工程理論與實(shí)踐;2011年S2期
6 郝杰;逯彥博;劉鑫吉;夏樹(shù)濤;;分布式存儲(chǔ)中的再生碼綜述[J];重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版);2013年01期
7 唐京偉;;基于云計(jì)算的分布式存儲(chǔ)技術(shù)[J];中國(guó)傳媒科技;2013年15期
8 郭棟;王偉;曾國(guó)蓀;;基于一致性樹(shù)分布的數(shù)據(jù)分布式存儲(chǔ)方法[J];計(jì)算機(jī)應(yīng)用;2013年12期
9 蘇李亮;王云福;侯斌;;海量設(shè)計(jì)文檔分布式存儲(chǔ)及負(fù)載均衡的研究與實(shí)現(xiàn)[J];電信科學(xué);2013年12期
10 謝然;;敢問(wèn)存儲(chǔ)之路在何方?見(jiàn)分布式存儲(chǔ)搖曳在數(shù)據(jù)枝頭[J];互聯(lián)網(wǎng)周刊;2014年02期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前7條
1 蘇李亮;王云福;侯斌;;海量設(shè)計(jì)文檔分布式存儲(chǔ)及負(fù)載均衡的研究與實(shí)現(xiàn)[A];2013電力行業(yè)信息化年會(huì)論文集[C];2013年
2 蘇李亮;王云福;侯斌;;海量設(shè)計(jì)文檔分布式存儲(chǔ)及負(fù)載均衡的研究與實(shí)現(xiàn)[A];2013電力行業(yè)信息化年會(huì)論文集[C];2013年
3 鄭文武;李先緒;黃植勤;邱紅飛;;云存儲(chǔ)關(guān)鍵技術(shù)[A];2012全國(guó)無(wú)線及移動(dòng)通信學(xué)術(shù)大會(huì)論文集(下)[C];2012年
4 蔣軼林;郭淑琴;;分布式存儲(chǔ)在數(shù)字集群移動(dòng)通信系統(tǒng)中的應(yīng)用[A];浙江省電子學(xué)會(huì)2013學(xué)術(shù)年會(huì)論文集[C];2013年
5 姜繼忱;陳鋼;;P2P之路——締造“分布式對(duì)等”的Internet3.0[A];全面建設(shè)小康社會(huì):中國(guó)科技工作者的歷史責(zé)任——中國(guó)科協(xié)2003年學(xué)術(shù)年會(huì)論文集(下)[C];2003年
6 付偉;肖儂;盧錫城;;QoS感知的副本放置問(wèn)題研究綜述[A];第15屆全國(guó)信息存儲(chǔ)技術(shù)學(xué)術(shù)會(huì)議論文集[C];2008年
7 張彥;劉欣然;徐慧彬;;一種基于虛擬計(jì)算環(huán)境的分布式存儲(chǔ)體系結(jié)構(gòu)[A];2009全國(guó)計(jì)算機(jī)網(wǎng)絡(luò)與通信學(xué)術(shù)會(huì)議論文集[C];2009年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前8條
1 京東架構(gòu)委員會(huì)主任 云平臺(tái)首席架構(gòu)師 系統(tǒng)技術(shù)部負(fù)責(zé)人 劉海鋒;京東:分布式存儲(chǔ)體系成為業(yè)務(wù)基石[N];中國(guó)信息化周報(bào);2014年
2 《網(wǎng)絡(luò)世界》記者 于翔;京東分布式存儲(chǔ)體系研發(fā)歷程[N];網(wǎng)絡(luò)世界;2014年
3 《網(wǎng)絡(luò)世界》記者 于翔;融合一體機(jī)投入大規(guī)模商用[N];網(wǎng)絡(luò)世界;2013年
4 記者 余榮華;大數(shù)據(jù),催生大變革[N];人民日?qǐng)?bào);2014年
5 本報(bào)記者 張佳星;新生產(chǎn)業(yè)布局如何“云”中索驥[N];科技日?qǐng)?bào);2014年
6 本報(bào)記者 甘露;物聯(lián)網(wǎng)讓管理更美妙[N];計(jì)算機(jī)世界;2013年
7 本報(bào)記者 郭濤;華為幫用戶定制HANA一體機(jī)[N];中國(guó)計(jì)算機(jī)報(bào);2013年
8 臨江;手機(jī)瀏覽器,3G時(shí)代的采礦機(jī)?[N];人民郵電;2009年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前8條
1 胡q
本文編號(hào):810739
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/810739.html