基于Hadoop的分布式存儲(chǔ)與數(shù)據(jù)分發(fā)策略研究
發(fā)布時(shí)間:2017-10-02 16:21
本文關(guān)鍵詞:基于Hadoop的分布式存儲(chǔ)與數(shù)據(jù)分發(fā)策略研究
更多相關(guān)文章: 分布式存儲(chǔ) Hadoop 再生碼 數(shù)據(jù)分發(fā)策略
【摘要】:隨著計(jì)算機(jī)技術(shù)的快速發(fā)展、互聯(lián)網(wǎng)帶寬的增長(zhǎng)以及智能設(shè)備的普及,信息處理與網(wǎng)絡(luò)服務(wù)已經(jīng)融入到人們生活的點(diǎn)點(diǎn)滴滴。尤其近些年P(guān)2P、社交網(wǎng)絡(luò)、移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、電子商務(wù)與多媒體共享等網(wǎng)絡(luò)技術(shù)的發(fā)展,給人們提供便利的同時(shí),也帶來(lái)了全球信息數(shù)據(jù)的爆炸性增長(zhǎng)。圖靈獎(jiǎng)獲得者Jim Gray曾就全球數(shù)據(jù)量的增長(zhǎng)提出了一條新的經(jīng)驗(yàn)定律:未來(lái)全球每18個(gè)月產(chǎn)生的數(shù)據(jù)量等于從此以前所產(chǎn)生的數(shù)據(jù)量總和!如何有效地存儲(chǔ)、管理和利用如此龐大的數(shù)據(jù)成為了亟待解決的問(wèn)題,對(duì)其進(jìn)行深入地研究,具有很重要的現(xiàn)實(shí)意義。如今各個(gè)行業(yè)、各種應(yīng)用對(duì)其所需存儲(chǔ)系統(tǒng)的要求越來(lái)越高。分布式存儲(chǔ)系統(tǒng)以其廉價(jià)性和高擴(kuò)展性等優(yōu)點(diǎn),理所當(dāng)然地成為了海量數(shù)據(jù)存儲(chǔ)的首要選擇。然而,由于在分布式存儲(chǔ)系統(tǒng)中各個(gè)存儲(chǔ)節(jié)點(diǎn)的可靠性不高,為了保證數(shù)據(jù)的可靠性,系統(tǒng)會(huì)較頻繁地對(duì)失效節(jié)點(diǎn)進(jìn)行修復(fù)。本文基于OpenStack平臺(tái)搭建了一個(gè)Hadoop實(shí)驗(yàn)集群,并在搭建的實(shí)驗(yàn)集群中應(yīng)用了復(fù)制策略、XOR策略、RS策略和SR策略四種存儲(chǔ)策略。我們通過(guò)理論分析,對(duì)比了四種存儲(chǔ)策略的理論存儲(chǔ)開(kāi)銷、理論修復(fù)網(wǎng)絡(luò)流量開(kāi)銷和存儲(chǔ)單個(gè)文件的可靠性。接著通過(guò)在所搭建Hadoop實(shí)驗(yàn)集群上進(jìn)行的實(shí)驗(yàn),得出了四種存儲(chǔ)策略存儲(chǔ)不同大小文件的實(shí)驗(yàn)存儲(chǔ)開(kāi)銷、實(shí)驗(yàn)修復(fù)網(wǎng)絡(luò)流量開(kāi)銷等性能,將其和理論性能進(jìn)行了對(duì)比,并根據(jù)所得實(shí)驗(yàn)結(jié)果和各個(gè)存儲(chǔ)策略的特點(diǎn),通過(guò)較為全面的分析,給出了四種存儲(chǔ)策略所適用的不同應(yīng)用場(chǎng)景。分布式存儲(chǔ)系統(tǒng)有“一次寫入,多次讀取”的特點(diǎn),當(dāng)用戶在從分布式文件系統(tǒng)中讀取文件時(shí),需要從各個(gè)節(jié)點(diǎn)下載所需的數(shù)據(jù)塊,重構(gòu)出原始文件,特別是對(duì)于一些熱門的文件,在用戶讀取文件的高峰時(shí)期,分布式存儲(chǔ)系統(tǒng)這種“多次讀取”的特點(diǎn)就會(huì)造成網(wǎng)絡(luò)擁塞,不僅影響文件的可用性,還可能影響文件的可靠性。論文通過(guò)研究基于分布式存儲(chǔ)系統(tǒng)的數(shù)據(jù)分發(fā)策略,將分布式存儲(chǔ)技術(shù)與CDN的思想結(jié)合,把通信問(wèn)題轉(zhuǎn)換為分布式存儲(chǔ)問(wèn)題,在分布式存儲(chǔ)架構(gòu)下利用增加存儲(chǔ)開(kāi)銷來(lái)緩解高峰期網(wǎng)絡(luò)擁塞。并以Hadoop集群實(shí)驗(yàn)為例,驗(yàn)證了此數(shù)據(jù)分發(fā)策略的可行性。
【關(guān)鍵詞】:分布式存儲(chǔ) Hadoop 再生碼 數(shù)據(jù)分發(fā)策略
【學(xué)位授予單位】:西南交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP333
【目錄】:
- 摘要6-7
- Abstract7-11
- 第1章 緒論11-16
- 1.1 研究意義11-12
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀12-14
- 1.3 本文的主要研究?jī)?nèi)容與章節(jié)安排14-16
- 第2章 分布式存儲(chǔ)相關(guān)理論及Hadoop簡(jiǎn)介16-26
- 2.1 分布式存儲(chǔ)相關(guān)理論16-21
- 2.1.1 復(fù)制策略16
- 2.1.2 糾刪碼策略16-18
- 2.1.3 再生碼18-21
- 2.2 Hadoop介紹21-25
- 2.2.1 MapReduce并行編程模型21-22
- 2.2.2 HDFS文件系統(tǒng)22-25
- 2.3 本章小結(jié)25-26
- 第3章 不同存儲(chǔ)策略的性能對(duì)比26-45
- 3.1 基于OpenStack平臺(tái)的Hadoop實(shí)驗(yàn)集群搭建26-30
- 3.1.1 Linux系統(tǒng)配置27
- 3.1.2 SSH免密碼登錄配置27-28
- 3.1.3 Hadoop安裝配置28
- 3.1.4 監(jiān)控軟件配置28-30
- 3.2 存儲(chǔ)策略性能分析30-34
- 3.2.1 復(fù)制策略30-31
- 3.2.2 XOR策略31
- 3.2.3 RS策略31-32
- 3.2.4 SR策略32-33
- 3.2.5 理論存儲(chǔ)策略性能對(duì)比33-34
- 3.3 實(shí)驗(yàn)中存儲(chǔ)策略的實(shí)現(xiàn)及結(jié)果對(duì)比34-44
- 3.3.1 實(shí)驗(yàn)中存儲(chǔ)策略的實(shí)現(xiàn)34-38
- 3.3.2 實(shí)驗(yàn)存儲(chǔ)性能對(duì)比38-41
- 3.3.3 實(shí)驗(yàn)修復(fù)網(wǎng)絡(luò)流量開(kāi)銷對(duì)比41-43
- 3.3.4 不同存儲(chǔ)策略適用的應(yīng)用場(chǎng)景總結(jié)43-44
- 3.4 本章小結(jié)44-45
- 第4章 基于Hadoop的數(shù)據(jù)分發(fā)策略驗(yàn)證45-58
- 4.1 CDN技術(shù)45-46
- 4.2 分布式存儲(chǔ)架構(gòu)下的數(shù)據(jù)分發(fā)策略46-49
- 4.3 數(shù)據(jù)分發(fā)策略可行性驗(yàn)證49-57
- 4.4 本章小結(jié)57-58
- 第5章 總結(jié)與展望58-59
- 5.1 本文工作總結(jié)58
- 5.2 未來(lái)工作展望58-59
- 致謝59-60
- 參考文獻(xiàn)60-64
- 攻讀碩士學(xué)位期間發(fā)表的論文64
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前1條
1 胡飛,朱耀庭,朱光喜;基于Galois域Reed-Solomon碼的數(shù)據(jù)包層FEC編碼軟件實(shí)現(xiàn)[J];通信學(xué)報(bào);2002年03期
,本文編號(hào):960617
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/960617.html
最近更新
教材專著