基于Hadoop的分布式存儲與數(shù)據(jù)分發(fā)策略研究
發(fā)布時間:2017-10-02 16:21
本文關鍵詞:基于Hadoop的分布式存儲與數(shù)據(jù)分發(fā)策略研究
更多相關文章: 分布式存儲 Hadoop 再生碼 數(shù)據(jù)分發(fā)策略
【摘要】:隨著計算機技術的快速發(fā)展、互聯(lián)網(wǎng)帶寬的增長以及智能設備的普及,信息處理與網(wǎng)絡服務已經(jīng)融入到人們生活的點點滴滴。尤其近些年P2P、社交網(wǎng)絡、移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、電子商務與多媒體共享等網(wǎng)絡技術的發(fā)展,給人們提供便利的同時,也帶來了全球信息數(shù)據(jù)的爆炸性增長。圖靈獎獲得者Jim Gray曾就全球數(shù)據(jù)量的增長提出了一條新的經(jīng)驗定律:未來全球每18個月產(chǎn)生的數(shù)據(jù)量等于從此以前所產(chǎn)生的數(shù)據(jù)量總和!如何有效地存儲、管理和利用如此龐大的數(shù)據(jù)成為了亟待解決的問題,對其進行深入地研究,具有很重要的現(xiàn)實意義。如今各個行業(yè)、各種應用對其所需存儲系統(tǒng)的要求越來越高。分布式存儲系統(tǒng)以其廉價性和高擴展性等優(yōu)點,理所當然地成為了海量數(shù)據(jù)存儲的首要選擇。然而,由于在分布式存儲系統(tǒng)中各個存儲節(jié)點的可靠性不高,為了保證數(shù)據(jù)的可靠性,系統(tǒng)會較頻繁地對失效節(jié)點進行修復。本文基于OpenStack平臺搭建了一個Hadoop實驗集群,并在搭建的實驗集群中應用了復制策略、XOR策略、RS策略和SR策略四種存儲策略。我們通過理論分析,對比了四種存儲策略的理論存儲開銷、理論修復網(wǎng)絡流量開銷和存儲單個文件的可靠性。接著通過在所搭建Hadoop實驗集群上進行的實驗,得出了四種存儲策略存儲不同大小文件的實驗存儲開銷、實驗修復網(wǎng)絡流量開銷等性能,將其和理論性能進行了對比,并根據(jù)所得實驗結果和各個存儲策略的特點,通過較為全面的分析,給出了四種存儲策略所適用的不同應用場景。分布式存儲系統(tǒng)有“一次寫入,多次讀取”的特點,當用戶在從分布式文件系統(tǒng)中讀取文件時,需要從各個節(jié)點下載所需的數(shù)據(jù)塊,重構出原始文件,特別是對于一些熱門的文件,在用戶讀取文件的高峰時期,分布式存儲系統(tǒng)這種“多次讀取”的特點就會造成網(wǎng)絡擁塞,不僅影響文件的可用性,還可能影響文件的可靠性。論文通過研究基于分布式存儲系統(tǒng)的數(shù)據(jù)分發(fā)策略,將分布式存儲技術與CDN的思想結合,把通信問題轉換為分布式存儲問題,在分布式存儲架構下利用增加存儲開銷來緩解高峰期網(wǎng)絡擁塞。并以Hadoop集群實驗為例,驗證了此數(shù)據(jù)分發(fā)策略的可行性。
【關鍵詞】:分布式存儲 Hadoop 再生碼 數(shù)據(jù)分發(fā)策略
【學位授予單位】:西南交通大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP333
【目錄】:
- 摘要6-7
- Abstract7-11
- 第1章 緒論11-16
- 1.1 研究意義11-12
- 1.2 國內(nèi)外研究現(xiàn)狀12-14
- 1.3 本文的主要研究內(nèi)容與章節(jié)安排14-16
- 第2章 分布式存儲相關理論及Hadoop簡介16-26
- 2.1 分布式存儲相關理論16-21
- 2.1.1 復制策略16
- 2.1.2 糾刪碼策略16-18
- 2.1.3 再生碼18-21
- 2.2 Hadoop介紹21-25
- 2.2.1 MapReduce并行編程模型21-22
- 2.2.2 HDFS文件系統(tǒng)22-25
- 2.3 本章小結25-26
- 第3章 不同存儲策略的性能對比26-45
- 3.1 基于OpenStack平臺的Hadoop實驗集群搭建26-30
- 3.1.1 Linux系統(tǒng)配置27
- 3.1.2 SSH免密碼登錄配置27-28
- 3.1.3 Hadoop安裝配置28
- 3.1.4 監(jiān)控軟件配置28-30
- 3.2 存儲策略性能分析30-34
- 3.2.1 復制策略30-31
- 3.2.2 XOR策略31
- 3.2.3 RS策略31-32
- 3.2.4 SR策略32-33
- 3.2.5 理論存儲策略性能對比33-34
- 3.3 實驗中存儲策略的實現(xiàn)及結果對比34-44
- 3.3.1 實驗中存儲策略的實現(xiàn)34-38
- 3.3.2 實驗存儲性能對比38-41
- 3.3.3 實驗修復網(wǎng)絡流量開銷對比41-43
- 3.3.4 不同存儲策略適用的應用場景總結43-44
- 3.4 本章小結44-45
- 第4章 基于Hadoop的數(shù)據(jù)分發(fā)策略驗證45-58
- 4.1 CDN技術45-46
- 4.2 分布式存儲架構下的數(shù)據(jù)分發(fā)策略46-49
- 4.3 數(shù)據(jù)分發(fā)策略可行性驗證49-57
- 4.4 本章小結57-58
- 第5章 總結與展望58-59
- 5.1 本文工作總結58
- 5.2 未來工作展望58-59
- 致謝59-60
- 參考文獻60-64
- 攻讀碩士學位期間發(fā)表的論文64
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前1條
1 胡飛,朱耀庭,朱光喜;基于Galois域Reed-Solomon碼的數(shù)據(jù)包層FEC編碼軟件實現(xiàn)[J];通信學報;2002年03期
,本文編號:960617
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/960617.html
最近更新
教材專著