HDFS分布式文件系統(tǒng)數(shù)據(jù)放置均衡研究
本文關鍵詞:HDFS分布式文件系統(tǒng)數(shù)據(jù)放置均衡研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著Internet規(guī)模擴大和信息化的提高,對于海量大數(shù)據(jù)的存儲,人們越來越依賴云存儲分布式文件系統(tǒng)。HDFS作為分布式文件系統(tǒng)的典型代表,它運用副本管理策略來提高集群的可用性和容錯性有著無可比擬的優(yōu)勢。然而對副本管理策略的研究處于初始階段,副本創(chuàng)建、維護副本一致性和負載均衡等都是目前計算機存儲技術領域中的重要研究課題。副本創(chuàng)建包括副本個數(shù)、副本放置位置和創(chuàng)建時機等。在HDFS運行過程中,它的副本放置位置規(guī)則可以通過副本放置策略來進行實現(xiàn),然而在現(xiàn)有的副本放置策略中,HDFS默認副本放置策略假設集群是同構的并隨機選擇節(jié)點,它沒有考慮節(jié)點可用存儲空間的情況,即使有一個節(jié)點可用存儲空間遠小于其他節(jié)點,該節(jié)點仍然有概率繼續(xù)存儲數(shù)據(jù)塊副本。另外如果客戶端所在節(jié)點屬于HDFS集群,默認策略優(yōu)先將第一個數(shù)據(jù)塊副本放置在該客戶端,它并沒有考慮該客戶端的可用存儲空間情況,如果某一客戶端一直向HDFS上傳文件,這個客戶端可用存儲空間會變得很小。默認策略的結果是造成存儲節(jié)點可用存儲空間差異性,產(chǎn)生可用存儲空間不足的節(jié)點,這些節(jié)點可能由于存儲空間不足造成該節(jié)點存儲數(shù)據(jù)塊副本或者執(zhí)行MapReduce任務失敗。默認策略也不能均衡節(jié)點網(wǎng)絡負載,當集群中文件被大量讀取或者寫入時,會增加相關節(jié)點網(wǎng)絡負載,默認策略不能將新數(shù)據(jù)塊副本存儲在網(wǎng)絡負載小的節(jié)點,分散某些節(jié)點的網(wǎng)絡負載,減少存儲數(shù)據(jù)塊副本的等待時間。因此,本文重點針對HDFS副本創(chuàng)建策略中的副本放置策略這個科學問題進行了系統(tǒng)的研究,本文所做的主要工作和創(chuàng)新點如下:(1)提出了一種可用存儲空間敏感的副本放置策略。針對HDFS默認副本放置策略不能匹配節(jié)點可用存儲空間和數(shù)據(jù)塊放置數(shù)量的不足,可用存儲空間敏感的副本放置策略根據(jù)實時采集的節(jié)點可用存儲空間和節(jié)點訪問連接數(shù),按照基于可用存儲空間和訪問連接數(shù)的節(jié)點評價值數(shù)學模型計算節(jié)點的評價值,將該評價值作為管理節(jié)點選擇存儲節(jié)點的標準,將每個數(shù)據(jù)塊副本存儲在最佳副本存儲節(jié)點上。實驗結果表明,可用存儲空間敏感的副本放置策略通過在不同可用存儲空間的節(jié)點上進行針對性數(shù)據(jù)塊副本放置,實現(xiàn)了匹配節(jié)點可用存儲空間與數(shù)據(jù)塊放置數(shù)量,避免了可用存儲空間不足節(jié)點產(chǎn)生,大大降低了節(jié)點由于可用存儲空間不足而存儲數(shù)據(jù)塊副本失敗和執(zhí)行MapReduce任務失敗的可能性。(2)提出了一種網(wǎng)絡負載敏感的副本均衡策略。針對HDFS默認副本放置策略在有大量文件訪問和寫入時,不能將網(wǎng)絡數(shù)據(jù)流量分擔到多個節(jié)點,無法均衡節(jié)點網(wǎng)絡負載問題,網(wǎng)絡負載敏感的副本均衡策略通過周期性探測存儲節(jié)點的網(wǎng)卡信息,將各個存儲節(jié)點一段時間內的收發(fā)數(shù)據(jù)塊數(shù)量作為衡量網(wǎng)絡負載的指標,在存儲數(shù)據(jù)塊副本時,綜合考慮了節(jié)點網(wǎng)絡負載和可用存儲空間兩個目標,當機架中高網(wǎng)絡負載節(jié)點與低網(wǎng)絡負載節(jié)點平均存儲空間差值超過5G時,選擇機架中可用存儲空間最大的節(jié)點存儲數(shù)據(jù)塊副本,如果不超過5G,則隨機選擇一個低網(wǎng)絡負載節(jié)點存儲數(shù)據(jù)塊副本。通過實驗驗證了網(wǎng)絡負載敏感的副本均衡策略通過對高網(wǎng)絡負載節(jié)點與低網(wǎng)絡負載節(jié)點平均存儲空間的比較,實現(xiàn)了均衡網(wǎng)絡負載,避免了節(jié)點由于高網(wǎng)絡負載而延長存儲數(shù)據(jù)塊等待時間。
【關鍵詞】:HDFS 數(shù)據(jù)塊副本 可用存儲空間 網(wǎng)絡負載
【學位授予單位】:河南理工大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP316.4;TP333
【目錄】:
- 致謝4-5
- 摘要5-7
- Abstract7-11
- 1 緒論11-21
- 1.1 研究背景與意義11-13
- 1.2 國內外研究現(xiàn)狀及存在問題13-18
- 1.2.1 HDFS的數(shù)據(jù)塊放置方法13-16
- 1.2.2 其他文件系統(tǒng)數(shù)據(jù)塊放置方法16-18
- 1.2.3 存在問題18
- 1.3 論文的主要工作及特色18-19
- 1.4 論文組織結構19-21
- 2 分布式文件系統(tǒng)數(shù)據(jù)放置策略21-31
- 2.1 HDFS分布式文件系統(tǒng)原理21-22
- 2.2 數(shù)據(jù)塊放置策略22-26
- 2.3 數(shù)據(jù)塊均衡策略26-28
- 2.4 存在問題28-30
- 2.5 本章小結30-31
- 3 可用存儲空間敏感的副本放置算法31-49
- 3.1 問題分析31-32
- 3.2 算法設計32-38
- 3.2.1 算法原理33-35
- 3.2.2 算法描述35-38
- 3.3 算法實現(xiàn)38-43
- 3.3.1 相關類及方法介紹38-39
- 3.3.2 選擇第一個副本的存儲節(jié)點39-42
- 3.3.3 選擇第二個副本的存儲節(jié)點42
- 3.3.4 選擇第三個副本的存儲節(jié)點42-43
- 3.4 實驗43-49
- 3.4.1 實驗環(huán)境43
- 3.4.2 結果分析43-49
- 4 網(wǎng)絡負載敏感的副本均衡算法49-65
- 4.1 問題分析49-50
- 4.2 算法設計50-54
- 4.2.1 算法原理50-51
- 4.2.2 算法描述51-54
- 4.3 算法實現(xiàn)54-59
- 4.3.1 相關類及方法介紹55-57
- 4.3.2 選擇第一個副本的存儲節(jié)點57-58
- 4.3.3 選擇第二個副本的存儲節(jié)點58-59
- 4.3.4 選擇第三個副本的存儲節(jié)點59
- 4.4 實驗59-65
- 4.4.1 實驗環(huán)境60
- 4.4.2 結果分析60-65
- 5 總結與展望65-67
- 5.1 全文總結65-66
- 5.2 展望66-67
- 參考文獻67-71
- 作者簡介71-73
- 學位論文數(shù)據(jù)集73
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 唐曉華,宋杰,盧顯良,江春華;一種網(wǎng)絡負載發(fā)生器的設計[J];福建電腦;2005年04期
2 黃欣,楊帆;網(wǎng)絡負載平衡技術應用[J];遼陽石油化工高等?茖W校學報;2002年04期
3 王麗,李敬有,王巖;面向工作站群機系統(tǒng)的網(wǎng)絡負載預測[J];齊齊哈爾大學學報;2000年03期
4 王莉;;站點部署的最佳實踐方法——蜂窩網(wǎng)絡負載分流[J];電信網(wǎng)技術;2012年04期
5 胡永培,盧顯良;網(wǎng)絡負載分流器的實現(xiàn)技術[J];計算機應用;2001年04期
6 陸俊;祁兵;;多蟻群算法的網(wǎng)絡負載動態(tài)均衡方法[J];計算機應用;2008年03期
7 車駕雄;以太網(wǎng)網(wǎng)絡負載討論[J];計算機工程;2000年08期
8 王宇坤;胡_g;;基于多出口鏈路網(wǎng)絡負載平衡模型研究[J];茂名學院學報;2007年03期
9 沈富可;張衛(wèi);常潘;;應用時間序列分析進行網(wǎng)絡負載預測[J];中山大學學報(自然科學版);2009年S1期
10 金正誼,汪溟,白英彩;自動切換混合型MAC的分析與研究[J];小型微型計算機系統(tǒng);1994年10期
中國重要會議論文全文數(shù)據(jù)庫 前1條
1 趙水寧;邵軍力;;Web服務器的網(wǎng)絡負載評價和檢測[A];開創(chuàng)新世紀的通信技術——第七屆全國青年通信學術會議論文集[C];2001年
中國重要報紙全文數(shù)據(jù)庫 前1條
1 Linnan;網(wǎng)絡負載均衡的實現(xiàn)[N];電腦報;2004年
中國碩士學位論文全文數(shù)據(jù)庫 前3條
1 丁揚;HDFS分布式文件系統(tǒng)數(shù)據(jù)放置均衡研究[D];河南理工大學;2014年
2 胡永培;網(wǎng)絡負載平衡系統(tǒng)的設計與實現(xiàn)[D];電子科技大學;2001年
3 薛濤;認知無線網(wǎng)絡負載管理方法的研究與實現(xiàn)[D];西安電子科技大學;2014年
本文關鍵詞:HDFS分布式文件系統(tǒng)數(shù)據(jù)放置均衡研究,由筆耕文化傳播整理發(fā)布。
本文編號:336344
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/336344.html