HDFS的副本管理策略研究
本文關(guān)鍵詞:HDFS的副本管理策略研究
更多相關(guān)文章: 云存儲(chǔ) 副本策略 分布式文件系統(tǒng) 負(fù)載均衡 支持向量機(jī)
【摘要】:云存儲(chǔ)作為云計(jì)算的存儲(chǔ)基礎(chǔ)正隨著大數(shù)據(jù)時(shí)代的到來發(fā)揮著越來越重要的作用。云存儲(chǔ)采用分布式架構(gòu)來應(yīng)對(duì)海量數(shù)據(jù)的存儲(chǔ)。如何在可靠性、高性能等方面提高云存儲(chǔ)的服務(wù)能力一直都是研究關(guān)注的熱點(diǎn)。云存儲(chǔ)中數(shù)據(jù)的安全依賴于它的副本技術(shù)。副本技術(shù)是一種數(shù)據(jù)管理機(jī)制,它將存儲(chǔ)的數(shù)據(jù)復(fù)制多份并分布在多個(gè)節(jié)點(diǎn)上,以此來提高云存儲(chǔ)系統(tǒng)的可靠性、負(fù)載均衡性、數(shù)據(jù)訪問效率。本文以提高云存儲(chǔ)的服務(wù)能力為目標(biāo),主要圍繞分布式文件系統(tǒng)HDFS(Hadoop Distributed File System)的副本創(chuàng)建和放置策略進(jìn)行研究。本文根據(jù)存儲(chǔ)系統(tǒng)中文件訪問的特點(diǎn)提出并設(shè)計(jì)了一種依據(jù)熱度動(dòng)態(tài)創(chuàng)建副本的算法。針對(duì)HDFS原有副本創(chuàng)建方式的不足,基于文件訪問熱度的副本創(chuàng)建算法通過綜合考慮每個(gè)文件的訪問頻率以及訪問時(shí)間的差異,使整個(gè)HDFS集群能夠動(dòng)態(tài)的調(diào)整每個(gè)文件的副本數(shù)。對(duì)于訪問頻率高的文件可以依據(jù)其特點(diǎn)為其增加副本的個(gè)數(shù)。增加的多個(gè)副本能夠更好地分散訪問請(qǐng)求,使整個(gè)系統(tǒng)不會(huì)出現(xiàn)熱點(diǎn)故障,從而有效降低了系統(tǒng)出現(xiàn)單點(diǎn)故障的概率。另外由于有多個(gè)副本,可以使來自用戶的訪問請(qǐng)求就近選擇副本數(shù)據(jù),從而有效降低網(wǎng)絡(luò)延遲。而對(duì)于訪問頻率低的數(shù)據(jù),該算法可以在不影響其可用性的情況下為其分配更少的副本,這樣就能有效的降低集群的負(fù)載。本文提出一種基于SVM(Support Vector Machine)的副本放置策略模型SRPM(SVM Replica Placement Model)。為了能夠應(yīng)對(duì)超大規(guī)模數(shù)據(jù)的存儲(chǔ)以及提高容錯(cuò)性,Hadoop分布式文件系統(tǒng)HDFS采用一種機(jī)架感知的多副本放置策略。但HDFS在副本放置過程中沒有綜合考慮各節(jié)點(diǎn)服務(wù)器的差異性,這會(huì)導(dǎo)致集群出現(xiàn)負(fù)載失衡。并且HDFS在選擇遠(yuǎn)程機(jī)架節(jié)點(diǎn)放置副本時(shí)采用隨機(jī)方式,而這有可能導(dǎo)致節(jié)點(diǎn)之間的網(wǎng)絡(luò)距離過長,使得在節(jié)點(diǎn)之間傳輸數(shù)據(jù)會(huì)消耗大量時(shí)間。針對(duì)以上問題,副本放置策略模型(SRPM)基于SVM通過綜合考慮節(jié)點(diǎn)負(fù)載情況,節(jié)點(diǎn)硬件性能,節(jié)點(diǎn)網(wǎng)絡(luò)距離來為副本找到一個(gè)最佳的放置節(jié)點(diǎn)。實(shí)驗(yàn)結(jié)果表明與HDFS原有的副本放置策略相比SRPM能更有效的實(shí)現(xiàn)負(fù)載均衡。
【關(guān)鍵詞】:云存儲(chǔ) 副本策略 分布式文件系統(tǒng) 負(fù)載均衡 支持向量機(jī)
【學(xué)位授予單位】:重慶大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP333;TP18
【目錄】:
- 中文摘要3-4
- 英文摘要4-8
- 1 緒論8-13
- 1.1 課題研究的背景和意義8-9
- 1.2 國內(nèi)外研究現(xiàn)狀9-11
- 1.3 本文的研究目的和研究內(nèi)容11-12
- 1.3.1 研究目的11
- 1.3.2 研究內(nèi)容11-12
- 1.4 論文的結(jié)構(gòu)安排12-13
- 2 云存儲(chǔ)基本知識(shí)13-28
- 2.1 云存儲(chǔ)技術(shù)13-18
- 2.1.1 云存儲(chǔ)概念13
- 2.1.2 云存儲(chǔ)架構(gòu)模型13-14
- 2.1.3 云存儲(chǔ)分類14-15
- 2.1.4 云存儲(chǔ)關(guān)鍵技術(shù)15-16
- 2.1.5 云存儲(chǔ)優(yōu)勢(shì)16-17
- 2.1.6 云存儲(chǔ)發(fā)展趨勢(shì)17-18
- 2.2 副本技術(shù)18-21
- 2.2.1 副本技術(shù)概述18-19
- 2.2.2 副本管理策略分類19-20
- 2.2.3 副本技術(shù)研究方向20-21
- 2.3 分布式文件系統(tǒng)HDFS21-27
- 2.3.1 HDFS概述21-22
- 2.3.2 HDFS架構(gòu)22-23
- 2.3.3 HDFS工作流程23-25
- 2.3.4 HDFS異常處理25-26
- 2.3.5 HDFS副本機(jī)制26-27
- 2.4 本章小結(jié)27-28
- 3 基于文件熱度的動(dòng)態(tài)副本創(chuàng)建策略28-40
- 3.1 副本創(chuàng)建研究現(xiàn)狀28
- 3.2 HDFS原有副本創(chuàng)建策略28-29
- 3.3 HDFS原有副本創(chuàng)建策略存在的問題29
- 3.4 基于文件熱度的動(dòng)態(tài)副本創(chuàng)建策略29-35
- 3.4.1 基本思想29
- 3.4.2 文件訪問熱度計(jì)算方法29-32
- 3.4.3 副本創(chuàng)建時(shí)機(jī)32-33
- 3.4.5 動(dòng)態(tài)副本創(chuàng)建算法33-35
- 3.5 實(shí)驗(yàn)分析及總結(jié)35-39
- 3.5.1 實(shí)驗(yàn)環(huán)境35-38
- 3.5.2 性能分析及對(duì)比38-39
- 3.6 本章小結(jié)39-40
- 4 基于SVM的副本放置策略模型40-50
- 4.1 副本放置研究現(xiàn)狀40
- 4.2 HDFS原有副本放置策略的不足40-41
- 4.3 改進(jìn)的副本放置策略模型41-43
- 4.3.1 基本思想41
- 4.3.2 問題描述41-42
- 4.3.3 節(jié)點(diǎn)特征選取42-43
- 4.4 算法描述43-44
- 4.5 實(shí)驗(yàn)與結(jié)果分析44-49
- 4.5.1 實(shí)驗(yàn)環(huán)境44-45
- 4.5.2 改進(jìn)策略模型的具體實(shí)現(xiàn)45
- 4.5.3 性能分析及對(duì)比45-49
- 4.6 本章總結(jié)49-50
- 5 總結(jié)及展望50-52
- 5.1 本文總結(jié)50-51
- 5.2 本文展望51-52
- 致謝52-53
- 參考文獻(xiàn)53-56
- 附錄56
- A. 作者在碩士學(xué)位期間發(fā)表的學(xué)術(shù)論文56
- B. 作者在攻讀學(xué)位期間參加的科研項(xiàng)目56
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 陳劍;龔發(fā)根;;一種優(yōu)化分布式文件系統(tǒng)的文件合并策略[J];計(jì)算機(jī)應(yīng)用;2011年S2期
2 郎為民;楊德鵬;;云計(jì)算中的分布式文件系統(tǒng)[J];電信快報(bào);2012年02期
3 陳文捷;蔡立志;樓志斌;王潔萍;李海波;;應(yīng)用級(jí)分布式文件系統(tǒng)接口標(biāo)準(zhǔn)化探索[J];信息技術(shù)與標(biāo)準(zhǔn)化;2012年10期
4 應(yīng)朝暉,高洪奎,,黃若衡;分布式文件系統(tǒng)[J];計(jì)算機(jī)工程與科學(xué);1995年03期
5 盧軍;盧顯良;韓宏;許騰;;基于移動(dòng)Agent的新型分布式文件系統(tǒng)研究[J];計(jì)算機(jī)科學(xué);2002年10期
6 寒江約叟;N個(gè)資源一次看——分布式文件系統(tǒng)妙用[J];電腦應(yīng)用文萃;2004年07期
7 黃華,張建剛,許魯;藍(lán)鯨分布式文件系統(tǒng)的分布式分層資源管理模型[J];計(jì)算機(jī)研究與發(fā)展;2005年06期
8 黃華;張建剛;許魯;;藍(lán)鯨分布式文件系統(tǒng)的客戶端元數(shù)據(jù)緩存模型[J];計(jì)算機(jī)科學(xué);2005年09期
9 黃華;張敬亮;張建剛;許魯;;藍(lán)鯨分布式文件系統(tǒng)的物理資源管理模型[J];計(jì)算機(jī)工程;2006年06期
10 陰四海;王文杰;李秀斌;范軍濤;;并行分布式文件系統(tǒng)的改進(jìn)[J];計(jì)算機(jī)應(yīng)用;2007年S2期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前4條
1 華清;黃林鵬;;基于分片、松耦合的分布式文件系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];2006年全國開放式分布與并行計(jì)算學(xué)術(shù)會(huì)議論文集(二)[C];2006年
2 洪穗;;微軟WINDOWS Server 2003 R2分布式文件系統(tǒng)解決方案分析[A];中國新聞技術(shù)工作者聯(lián)合會(huì)2008年學(xué)術(shù)年會(huì)論文集(上)[C];2008年
3 羅志明;張大華;王電鋼;常健;;電力分布式云存儲(chǔ)關(guān)鍵技術(shù)研究[A];2012年電力通信管理暨智能電網(wǎng)通信技術(shù)論壇論文集[C];2013年
4 徐文斌;;大數(shù)據(jù)時(shí)代的交管綜合應(yīng)用云平臺(tái)[A];第八屆中國智能交通年會(huì)論文集[C];2013年
中國重要報(bào)紙全文數(shù)據(jù)庫 前10條
1 國家高性能計(jì)算機(jī)工程技術(shù)研究中心 黃華 楊德志 張建剛;分布式文件系統(tǒng)的歷史與現(xiàn)狀[N];中國計(jì)算機(jī)報(bào);2005年
2 國家高性能計(jì)算機(jī)工程技術(shù)研究中心 黃華 楊德志 張建剛;分布式文件系統(tǒng)趨向成熟[N];中國計(jì)算機(jī)報(bào);2005年
3 國防科學(xué)技術(shù)大學(xué)計(jì)算機(jī)學(xué)院軟件所 董勇 周恩強(qiáng);構(gòu)建分布式文件系統(tǒng)[N];中國計(jì)算機(jī)報(bào);2005年
4 ;分布式文件系統(tǒng)一瞥[N];網(wǎng)絡(luò)世界;2002年
5 王春海 劉立;分布式文件系統(tǒng)在網(wǎng)絡(luò)中的應(yīng)用[N];電腦報(bào);2004年
6 ;Hadoop:為構(gòu)建海量數(shù)據(jù)架構(gòu)而生[N];人民郵電;2012年
7 本報(bào)記者 于翔;“大數(shù)據(jù)”的大承諾[N];網(wǎng)絡(luò)世界;2010年
8 IBM大數(shù)據(jù)專家 James Kobielus 范范 編譯;YARN動(dòng)搖了MapReduce對(duì)Hadoop的掌控[N];網(wǎng)絡(luò)世界;2013年
9 張力平;云計(jì)算和物聯(lián)網(wǎng)的美妙融合[N];學(xué)習(xí)時(shí)報(bào);2014年
10 《網(wǎng)絡(luò)世界》記者 于翔;大數(shù)據(jù)治理多管齊下[N];網(wǎng)絡(luò)世界;2012年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前4條
1 趙鐵柱;分布式文件系統(tǒng)性能建模及應(yīng)用研究[D];華南理工大學(xué);2011年
2 史小冬;分布式文件系統(tǒng)高可用問題研究[D];中國科學(xué)院研究生院(計(jì)算技術(shù)研究所);2002年
3 黃華;藍(lán)鯨分布式文件系統(tǒng)的資源管理[D];中國科學(xué)院研究生院(計(jì)算技術(shù)研究所);2005年
4 楊德志;分布式文件系統(tǒng)可擴(kuò)展元數(shù)據(jù)服務(wù)關(guān)鍵問題研究[D];中國科學(xué)院研究生院(計(jì)算技術(shù)研究所);2008年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 冷志強(qiáng);基于分布式文件系統(tǒng)GlusterFS的橫向擴(kuò)展云存儲(chǔ)的研究與實(shí)現(xiàn)[D];復(fù)旦大學(xué);2014年
2 黎斌;基于HDFS的分布式文件系統(tǒng)存儲(chǔ)研究與優(yōu)化[D];電子科技大學(xué);2015年
3 何雄;大小文件跨網(wǎng)絡(luò)集群快速遷移協(xié)議[D];電子科技大學(xué);2015年
4 焦晨宇;可伸縮分布式文件系統(tǒng)及其應(yīng)用[D];北京理工大學(xué);2015年
5 譙林飛;云計(jì)算環(huán)境中分布式文件系統(tǒng)數(shù)據(jù)一致性問題研究[D];電子科技大學(xué);2014年
6 秦小寒;優(yōu)化性能的分布式存儲(chǔ)子系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2014年
7 牛升;分布式文件系統(tǒng)的負(fù)載均衡策略研究[D];電子科技大學(xué);2014年
8 郭建國;基于分布式文件系統(tǒng)FastDFS的圖片服務(wù)器件設(shè)計(jì)與應(yīng)用[D];中國科學(xué)院大學(xué)(工程管理與信息技術(shù)學(xué)院);2015年
9 白鋮;一種分布式文件系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2015年
10 吳霖;分布式微信公眾平臺(tái)爬蟲系統(tǒng)的研究與應(yīng)用[D];南華大學(xué);2015年
本文編號(hào):639165
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/639165.html