科技云平臺(tái)的數(shù)據(jù)存儲(chǔ)管理技術(shù)研究
本文關(guān)鍵詞:科技云平臺(tái)的數(shù)據(jù)存儲(chǔ)管理技術(shù)研究
更多相關(guān)文章: 云存儲(chǔ) HDFS 異構(gòu)集群 分級(jí)存儲(chǔ) 存儲(chǔ)調(diào)度
【摘要】:近些年來(lái)國(guó)家在不斷地推廣云計(jì)算產(chǎn)業(yè),使其與具體行業(yè)相結(jié)合。因此,作為云計(jì)算中著名開源架構(gòu)之一的Hadoop也受到了獨(dú)特的青睞,許多企業(yè)都是在此技術(shù)之上發(fā)展的。國(guó)家科技管理系統(tǒng)同樣也將云計(jì)算技術(shù)作為基礎(chǔ),用于保障存儲(chǔ)數(shù)據(jù)的高可用性,以及方便對(duì)后續(xù)空間或計(jì)算性能彈性擴(kuò)展的需求。我們承擔(dān)了科技數(shù)據(jù)相似性檢測(cè)系統(tǒng)的設(shè)計(jì)與開發(fā)工作,它利用Hadoop平臺(tái)中的MapReduce實(shí)現(xiàn)了對(duì)項(xiàng)目申報(bào)書全文比對(duì)的并行計(jì)算。其中,所有比對(duì)的樣本文件數(shù)據(jù)都存儲(chǔ)在Hadoop的分布式文件系統(tǒng)HDFS上?紤]到要充分利舊,我們搭建的Hadoop集群由舊有設(shè)備和新購(gòu)置設(shè)備組成,這些節(jié)點(diǎn)在存儲(chǔ)性能、計(jì)算性能、IO性能等方面存在較大差異。在系統(tǒng)的實(shí)際運(yùn)行中發(fā)現(xiàn)數(shù)據(jù)塊分布的不均會(huì)降低MapReduce的運(yùn)行速度,從而影響Hadoop集群響應(yīng)的速度。由于HDFS默認(rèn)采用的機(jī)架感知存儲(chǔ)策略,存儲(chǔ)節(jié)點(diǎn)選擇時(shí)不考慮節(jié)點(diǎn)的性能差異,所以可能導(dǎo)致訪問頻率高的數(shù)據(jù)存儲(chǔ)在低性能節(jié)點(diǎn)上,而訪問頻率低的數(shù)據(jù)存儲(chǔ)在高性能節(jié)點(diǎn)上,既影響集群響應(yīng)時(shí)間,又降低了資源利用率。針對(duì)以上問題,本文提出了一種分級(jí)存儲(chǔ)調(diào)度機(jī)制。在HDFS機(jī)架感知調(diào)度策略基礎(chǔ)上,首先根據(jù)節(jié)點(diǎn)的CPU、內(nèi)存大小、磁盤大小、磁盤I/O等固有硬件性能將節(jié)點(diǎn)劃分為高配置節(jié)點(diǎn)和低配置節(jié)點(diǎn),其次根據(jù)節(jié)點(diǎn)的CPU使用率、內(nèi)存使用率、網(wǎng)絡(luò)帶寬使用率、磁盤使用率等性能的動(dòng)態(tài)因素建立節(jié)點(diǎn)的性能評(píng)價(jià)模型,并建立三個(gè)性能級(jí)別。根據(jù)節(jié)點(diǎn)配置情況、性能級(jí)別及網(wǎng)絡(luò)位置等多方面因素進(jìn)行綜合調(diào)度。同時(shí)在集群運(yùn)行過程中,會(huì)根據(jù)數(shù)據(jù)的訪問頻率對(duì)數(shù)據(jù)塊的分布進(jìn)行動(dòng)態(tài)調(diào)整。通過將訪問頻率高的數(shù)據(jù)存儲(chǔ)在高性能節(jié)點(diǎn)上的方法,提升副本的訪問速度,同時(shí)把其中的低訪問頻率數(shù)據(jù)移出,節(jié)省高性能節(jié)點(diǎn)的空間。將這種改進(jìn)的分級(jí)存儲(chǔ)調(diào)度機(jī)制應(yīng)用到科技數(shù)據(jù)相似性檢測(cè)系統(tǒng)中,使全文相似比對(duì)計(jì)算的時(shí)間提升了6%。
【關(guān)鍵詞】:云存儲(chǔ) HDFS 異構(gòu)集群 分級(jí)存儲(chǔ) 存儲(chǔ)調(diào)度
【學(xué)位授予單位】:北方工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP311.52
【目錄】:
- 摘要3-4
- ABSTRACT4-8
- 第一章 緒論8-12
- 1.1 研究背景和意義8-9
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀9-10
- 1.3 研究?jī)?nèi)容10-11
- 1.4 章節(jié)組織結(jié)構(gòu)11-12
- 第二章 相關(guān)技術(shù)12-19
- 2.1 云計(jì)算概念12-13
- 2.2 云存儲(chǔ)概念13-14
- 2.3 分布式計(jì)算14-15
- 2.4 HADOOP平臺(tái)簡(jiǎn)介15-18
- 2.4.1 Hadoop基礎(chǔ)概述15
- 2.4.2 HDFS分布式文件系統(tǒng)15-16
- 2.4.3 MapReduce分布式計(jì)算框架16-18
- 2.5 本章小結(jié)18-19
- 第三章 分級(jí)存儲(chǔ)調(diào)度機(jī)制19-26
- 3.1 概述19-20
- 3.2 相關(guān)定義20-22
- 3.2.1 節(jié)點(diǎn)性能評(píng)價(jià)模型20-21
- 3.2.2 節(jié)點(diǎn)網(wǎng)絡(luò)距離21
- 3.2.3 熱(冷)閾值21-22
- 3.3 初始調(diào)度方案22-23
- 3.4 動(dòng)態(tài)調(diào)度方案23-25
- 3.5 本章小結(jié)25-26
- 第四章 分級(jí)存儲(chǔ)調(diào)度機(jī)制的實(shí)現(xiàn)與實(shí)驗(yàn)26-36
- 4.1 方案實(shí)現(xiàn)26-30
- 4.1.1 初始調(diào)度方案實(shí)現(xiàn)26-28
- 4.1.2 動(dòng)態(tài)調(diào)度方案實(shí)現(xiàn)28-30
- 4.2 測(cè)試實(shí)驗(yàn)環(huán)境30-32
- 4.3 實(shí)驗(yàn)內(nèi)容與結(jié)果分析32-35
- 4.3.1 初始調(diào)度測(cè)試32-34
- 4.3.2 動(dòng)態(tài)調(diào)整測(cè)試34-35
- 4.4 監(jiān)控平臺(tái)35
- 4.5 本章小結(jié)35-36
- 第五章 分級(jí)存儲(chǔ)調(diào)度機(jī)制的應(yīng)用36-45
- 5.1 科技數(shù)據(jù)相似性檢測(cè)系統(tǒng)背景36-37
- 5.2 分級(jí)存儲(chǔ)調(diào)度機(jī)制與科技數(shù)據(jù)相似性檢測(cè)系統(tǒng)的關(guān)系37-38
- 5.3 科技數(shù)據(jù)相似性檢測(cè)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)38-43
- 5.3.1 文件比對(duì)模塊38-40
- 5.3.2 相似度計(jì)算模塊40-41
- 5.3.3 報(bào)告生成模塊41-42
- 5.3.4 歷史記錄模塊42-43
- 5.4 應(yīng)用效果分析43-44
- 5.5 本章小結(jié)44-45
- 第六章 結(jié)論與展望45-46
- 6.1 主要結(jié)論45
- 6.2 研究展望45-46
- 參考文獻(xiàn)46-49
- 在學(xué)期間的研究成果49-50
- 致謝50
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 鄭士貴;數(shù)據(jù)存儲(chǔ)的全面管理[J];管理科學(xué)文摘;1997年09期
2 相曉明;網(wǎng)上存儲(chǔ):X:Drive[J];互聯(lián)網(wǎng)周刊;2000年30期
3 王宇葳;誰(shuí)來(lái)吞吐你的數(shù)據(jù)[J];互聯(lián)網(wǎng)周刊;2000年30期
4 袁勝,馮毅,伍顯峰,涂春明,盛云川;移動(dòng)計(jì)費(fèi)營(yíng)業(yè)系統(tǒng)中數(shù)據(jù)存儲(chǔ)的考慮[J];電信技術(shù);2001年01期
5 楊向東;數(shù)據(jù)存儲(chǔ)——深化金融電子化的奠基之石[J];華南金融電腦;2002年03期
6 李子臣,王振光,王文靜;外包數(shù)據(jù)存儲(chǔ)——經(jīng)濟(jì)、安全、高效[J];現(xiàn)代情報(bào);2002年11期
7 楊向東;數(shù)據(jù)存儲(chǔ)——金融電子化的基石[J];中國(guó)金融電腦;2002年03期
8 黃重訊;企業(yè)的數(shù)據(jù)存儲(chǔ)[J];鄉(xiāng)鎮(zhèn)企業(yè)研究;2003年06期
9 李婕;;醫(yī)院信息化促進(jìn)數(shù)據(jù)存儲(chǔ)中心的建立[J];醫(yī)學(xué)信息;2006年09期
10 夏歡;熊前興;馮櫻;;數(shù)據(jù)存儲(chǔ)的探討[J];科技信息;2006年S4期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 孫崢皓;汪宏f;閻巖;岑小鋒;鄧志均;;淺談信息化戰(zhàn)爭(zhēng)對(duì)大數(shù)據(jù)存儲(chǔ)與分析的要求及對(duì)策[A];2013第一屆中國(guó)指揮控制大會(huì)論文集[C];2013年
2 張沁川;王厚軍;;基于大容量閃存的數(shù)據(jù)存儲(chǔ)與管理[A];2008中國(guó)儀器儀表與測(cè)控技術(shù)進(jìn)展大會(huì)論文集(Ⅲ)[C];2008年
3 霍躍華;;IP SAN在煤炭企業(yè)數(shù)據(jù)存儲(chǔ)的應(yīng)用研究[A];煤礦自動(dòng)化與信息化——第20屆全國(guó)煤礦自動(dòng)化與信息化學(xué)術(shù)會(huì)議暨第2屆中國(guó)煤礦信息化與自動(dòng)化高層論壇論文集[C];2010年
4 盛磊;李美華;程林;;一種軋鋼過程數(shù)據(jù)存儲(chǔ)方法[A];全國(guó)冶金自動(dòng)化信息網(wǎng)2014年會(huì)論文集[C];2014年
5 王文峰;李佳;;芻議信息系統(tǒng)數(shù)據(jù)存儲(chǔ)與備份系統(tǒng)的構(gòu)建方式[A];2011年云南電力技術(shù)論壇論文集(入選部分)[C];2011年
6 張艷秋;李建中;楊艷;張兆功;;混合負(fù)載多媒體服務(wù)器的數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)提交[A];第二十屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2003年
7 王淑江;;煙臺(tái)日?qǐng)?bào)傳媒集團(tuán)存儲(chǔ)體系規(guī)劃[A];中國(guó)新聞技術(shù)工作者聯(lián)合會(huì)五屆一次理事會(huì)暨學(xué)術(shù)年會(huì)論文集(上篇)[C];2009年
8 ;Wallstor網(wǎng)絡(luò)數(shù)據(jù)存儲(chǔ)的新技術(shù)應(yīng)用[A];江蘇省微型電腦應(yīng)用協(xié)會(huì)產(chǎn)學(xué)研成果交流會(huì)會(huì)議資料[C];2010年
9 韋大偉;;分布式數(shù)據(jù)存儲(chǔ)中的機(jī)密性保護(hù)[A];2006年全國(guó)開放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集(三)[C];2006年
10 韓德志;;內(nèi)網(wǎng)數(shù)據(jù)存儲(chǔ)安全關(guān)鍵技術(shù)的研究與實(shí)現(xiàn)[A];2010年第16屆全國(guó)信息存儲(chǔ)技術(shù)大會(huì)(IST2010)論文集[C];2010年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前10條
1 中國(guó)惠普公司網(wǎng)絡(luò)存儲(chǔ)事業(yè)部技術(shù)顧問 周志峰;數(shù)據(jù)存儲(chǔ)面臨七大挑戰(zhàn)[N];計(jì)算機(jī)世界;2001年
2 本報(bào)記者 郭濤;中興通訊打造安全高效的大數(shù)據(jù)存儲(chǔ)[N];中國(guó)計(jì)算機(jī)報(bào);2013年
3 本報(bào)記者 陳巍巍;數(shù)據(jù)存儲(chǔ) 進(jìn)化正當(dāng)時(shí)[N];計(jì)算機(jī)世界;2013年
4 本報(bào)記者 黃銳;綠源巢:大數(shù)據(jù)存儲(chǔ)弄潮兒[N];東莞日?qǐng)?bào);2014年
5 毛玲玲 吳非;數(shù)據(jù)存儲(chǔ) 安全為重[N];解放軍報(bào);2014年
6 本報(bào)記者 郭濤;華為存儲(chǔ):高端存儲(chǔ)、大數(shù)據(jù)存儲(chǔ)齊頭并進(jìn)[N];中國(guó)計(jì)算機(jī)報(bào);2013年
7 本報(bào)記者 方慧玲;糾刪碼技術(shù):大數(shù)據(jù)存儲(chǔ)的“安全衛(wèi)士”[N];江蘇科技報(bào);2014年
8 ;培養(yǎng)皿中的數(shù)據(jù)存儲(chǔ)[N];網(wǎng)絡(luò)世界;2007年
9 ;2010年中小企業(yè)數(shù)據(jù)存儲(chǔ)市場(chǎng)六大趨勢(shì)[N];網(wǎng)絡(luò)世界;2010年
10 本報(bào)實(shí)習(xí)記者 陳勛燕;數(shù)據(jù)存儲(chǔ)網(wǎng)絡(luò)凸現(xiàn)商機(jī) 上海郵通轉(zhuǎn)型前景看好[N];通信信息報(bào);2002年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前3條
1 付松齡;分布式在線社交網(wǎng)絡(luò)數(shù)據(jù)存儲(chǔ)及優(yōu)化技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2014年
2 張杰;一種高速數(shù)據(jù)存儲(chǔ)方法的研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2013年
3 付永忠;基于AFM和硫系相變材料的超高密度數(shù)據(jù)存儲(chǔ)機(jī)理研究[D];江蘇大學(xué);2010年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 葛佳;P2P網(wǎng)絡(luò)信譽(yù)數(shù)據(jù)存儲(chǔ)與恢復(fù)方法的研究與實(shí)現(xiàn)[D];昆明理工大學(xué);2015年
2 潘陽(yáng);基于Hadoop技術(shù)在分布式數(shù)據(jù)存儲(chǔ)中的應(yīng)用研究[D];大連海事大學(xué);2015年
3 秦崢惠;基于Leveldb的企業(yè)級(jí)大數(shù)據(jù)集群化存儲(chǔ)設(shè)計(jì)與實(shí)現(xiàn)[D];遼寧科技大學(xué);2015年
4 吉瑛;基于MongoDB的團(tuán)隊(duì)協(xié)作數(shù)據(jù)存儲(chǔ)方案研究與實(shí)現(xiàn)[D];中國(guó)科學(xué)院大學(xué)(工程管理與信息技術(shù)學(xué)院);2015年
5 姜威靈;CT仿真數(shù)據(jù)存儲(chǔ)與高速傳輸裝置設(shè)計(jì)[D];東北大學(xué);2014年
6 方頎;基于行數(shù)據(jù)存儲(chǔ)的CBCT圖像重建FPGA電路的優(yōu)化與設(shè)計(jì)[D];哈爾濱工業(yè)大學(xué);2015年
7 張路路;基于MongoDB的大數(shù)據(jù)存儲(chǔ)方法研究與應(yīng)用[D];成都理工大學(xué);2015年
8 張磊;基于Hadoop分布式數(shù)據(jù)存儲(chǔ)傳感設(shè)備平臺(tái)的描述[D];南京郵電大學(xué);2015年
9 賈新宇;基于云計(jì)算的GIS柵格數(shù)據(jù)存儲(chǔ)與算法研究[D];吉林大學(xué);2015年
10 李青;科技云平臺(tái)的數(shù)據(jù)存儲(chǔ)管理技術(shù)研究[D];北方工業(yè)大學(xué);2016年
,本文編號(hào):1058296
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1058296.html