云環(huán)境下海量小文件存儲技術(shù)的研究與應(yīng)用
本文關(guān)鍵詞:云環(huán)境下海量小文件存儲技術(shù)的研究與應(yīng)用,由筆耕文化傳播整理發(fā)布。
【摘要】:大數(shù)據(jù)時代的到來,導致人類所產(chǎn)生的信息數(shù)據(jù)量以井噴的形勢洶涌而來,尤其是像圖片、郵件、電子檔案這類的海量小文件。傳統(tǒng)的存儲技術(shù)已經(jīng)無法適應(yīng)大數(shù)據(jù)時代海量文件的存儲需求,如何高效地應(yīng)對海量小文件的存儲是當前技術(shù)領(lǐng)域一個有待解決的問題。大數(shù)據(jù)與云計算相伴相隨,而云存儲則是在云計算的概念之上產(chǎn)生出來的,它是云計算的發(fā)展和延生,它具有響應(yīng)速度快,管理高效,結(jié)構(gòu)靈活多變等優(yōu)點,已經(jīng)成為世界各國解決數(shù)據(jù)爆炸性增長的重要解決方案。因此,云環(huán)境下海量小文件處理技術(shù)是一個重要的課題。本文深入分析了HADDOP分布式文件系統(tǒng)(HDFS)的工作原理,重點討論了它作為現(xiàn)如今炙手可熱的云存儲平臺,具有的開源、高容錯、可擴展性強和成本相對節(jié)約的優(yōu)點。同時針對目前的應(yīng)用環(huán)境和需求,提出了海量小文件存儲這一現(xiàn)實性的問題,結(jié)合HADOOP架構(gòu)自身的主從結(jié)構(gòu)和元數(shù)據(jù)存儲方式,提出了它在處理海量小文件的時候會出現(xiàn)存取時間長和NameNode節(jié)點內(nèi)存占有率高這兩個方面的問題。為了解決這一問題,本文研究了現(xiàn)有的小文件處理方法,分析了各自的優(yōu)缺點之后,提出了一個云環(huán)境下小文件問題的通用解決方案,具有獨立小文件處理模塊的分布式文件系統(tǒng)。這一架構(gòu)是在現(xiàn)有的分布式文件系統(tǒng)之前加入小文件處理模塊來實現(xiàn)小文件的合并、分離、緩存等功能,進而再交由傳統(tǒng)HDFS進行處理,既不改變原有的架構(gòu),也不影響對大文件的和合并后的小文件的處理,從而提高整個系統(tǒng)對小文件的存取效率。進一步提出了相適應(yīng)的的元數(shù)據(jù)類型與結(jié)構(gòu),通過分組算法、合并算法、檢索算法和緩存方法,修改了相關(guān)接口功能,最后實現(xiàn)了新的小文件讀寫流程。最后通過系統(tǒng)的仿真實驗,對比HDFS原有方法,證實了此改進方式對于系統(tǒng)在存取時間的減少和元數(shù)據(jù)內(nèi)存消耗的降低有很大的幫助,整體上提高了系統(tǒng)的小文件存儲性能。
【關(guān)鍵詞】:云存儲 海量小文件 HADOOP平臺 HDFS
【學位授予單位】:廣東工業(yè)大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP333
【目錄】:
- 摘要4-5
- Abstract5-10
- Contents10-13
- 第一章 緒論13-19
- 1.1 選題背景和意義13-16
- 1.1.1 選題背景13-16
- 1.1.2 研究意義16
- 1.2 技術(shù)研究現(xiàn)狀16-18
- 1.3 本文結(jié)構(gòu)安排18-19
- 第二章 相關(guān)技術(shù)研究綜述19-40
- 2.1 云存儲19-22
- 2.1.1 云存儲的分類19-20
- 2.1.2 云存儲的技術(shù)支撐20-21
- 2.1.3 云存儲的應(yīng)用21-22
- 2.2 分布式存儲系統(tǒng)22-30
- 2.2.1 Amazon S3系統(tǒng)23-24
- 2.2.2 淘寶TFS系統(tǒng)24-26
- 2.2.3 Google GFS系統(tǒng)26-27
- 2.2.4 Haystack系統(tǒng)27-30
- 2.3 HADOOP平臺30-39
- 2.3.1 HDFS分布式存儲31-34
- 2.3.2 MapReduce分布式計算34-36
- 2.3.3 Hadoop處理小文件時存在的問題36-39
- 2.4 本章小結(jié)39-40
- 第三章 小文件處理技術(shù)研究與優(yōu)化設(shè)計實現(xiàn)40-60
- 3.1 HADOOP自帶的解決方案40-43
- 3.1.1 Hadoop Archive40-42
- 3.1.2 SequenceFile42
- 3.1.3 MapFile42-43
- 3.1.4 HDFS Federation方案43
- 3.2 設(shè)計方案目的和思路43-45
- 3.2.1 設(shè)計目的43-45
- 3.2.2 系統(tǒng)設(shè)計思路45
- 3.3 優(yōu)化方案設(shè)計45-51
- 3.3.1 總體方案設(shè)計46-47
- 3.3.2 小文件合并47-48
- 3.3.3 小文件分解48-50
- 3.3.4 小文件緩存50-51
- 3.4 相關(guān)數(shù)據(jù)結(jié)構(gòu)與算法51-56
- 3.4.1 元數(shù)據(jù)類型與結(jié)構(gòu)51-53
- 3.4.2 分組算法53-54
- 3.4.3 合并算法54-55
- 3.4.4 分解算法55
- 3.4.5 緩存相關(guān)信息說明55-56
- 3.5 小文件的讀寫流程與接口56-58
- 3.5.1 小文件讀56-57
- 3.5.2 小文件寫57-58
- 3.6 實現(xiàn)58-59
- 3.7 本章小結(jié)59-60
- 第四章 小文件優(yōu)化處理仿真及結(jié)果分析60-71
- 4.1 HDFS原有讀寫過程60-63
- 4.1.1 HDFS數(shù)據(jù)寫入流程60-62
- 4.1.2 HDFS的讀出流程62-63
- 4.2 帶有小文件處理模塊的HDFS讀寫實現(xiàn)過程63-64
- 4.2.1 改進后的寫入流程63
- 4.2.2 改進后的讀出流程63-64
- 4.3 實驗環(huán)境64-65
- 4.4 仿真及分析65-70
- 4.4.1 小文件讀寫時間性能測試及分析65-68
- 4.4.2 Namenode備份元數(shù)據(jù)變化測試及分析68-70
- 4.5 本章小結(jié)70-71
- 總結(jié)與展望71-72
- 參考文獻72-76
- 攻讀碩士學位期間發(fā)表的論文76-77
- 致謝77
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 王春靖;FAT32的優(yōu)點[J];電腦愛好者;1998年03期
2 何文才;鄭釗;劉培鶴;杜敏;;一種基于目錄數(shù)據(jù)分離存儲的文件存儲方法的研究與實現(xiàn)[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2014年01期
3 飛雪散花;;手機文件存儲看我的[J];電腦迷;2012年05期
4 孫有軍;張大興;;海量圖片文件存儲去重技術(shù)研究[J];計算機應(yīng)用與軟件;2014年04期
5 ;金剛指——計算機文件存儲的保護神[J];信息安全與通信保密;2001年12期
6 趙躍龍;謝曉玲;蔡詠才;王國華;劉霖;;一種性能優(yōu)化的小文件存儲訪問策略的研究[J];計算機研究與發(fā)展;2012年07期
7 周國安;李強;陳新;胡旭;;云環(huán)境下海量小文件存儲技術(shù)研究綜述[J];信息網(wǎng)絡(luò)安全;2014年06期
8 張美芳;電子文件存儲方式的研究[J];數(shù)字與縮微影像;2005年02期
9 陶慧;于守謙;劉夏;;適于測控系統(tǒng)的文件存儲結(jié)構(gòu)研究[J];計算機應(yīng)用與軟件;2010年11期
10 方勇;史躍輝;;淺談減少地形圖電子文件存儲冗余的幾種方法[J];江西測繪;2006年02期
中國重要會議論文全文數(shù)據(jù)庫 前6條
1 任勇;朱立谷;張雷;彭建峰;;新型虛擬文件存儲系統(tǒng)的設(shè)計[A];第15屆全國信息存儲技術(shù)學術(shù)會議論文集[C];2008年
2 李浩;;基于制播分離的文件存儲和傳輸方式的探討[A];中國新聞技術(shù)工作者聯(lián)合會五屆二次理事會暨學術(shù)年會論文集(上篇)[C];2010年
3 陳海波;侯建衛(wèi);;針對海量詳單快速存儲檢索的實現(xiàn)方法[A];2011年通信與信息技術(shù)新進展——第八屆中國通信學會學術(shù)年會論文集[C];2011年
4 陳海波;侯建衛(wèi);;針對海量詳單快速存儲檢索的實現(xiàn)方法[A];2011全國無線及移動通信學術(shù)大會論文集[C];2011年
5 袁旦;張智君;;預覽時間對顏色判斷任務(wù)下客體文件存儲的影響[A];第十一屆全國心理學學術(shù)會議論文摘要集[C];2007年
6 黃步根;黃政;劉建軍;;SANYO數(shù)碼相機中被刪除視頻的恢復[A];第26次全國計算機安全學術(shù)交流會論文集[C];2011年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 本報記者 郭平;Isilon擴充文件存儲產(chǎn)品線[N];計算機世界;2009年
2 本報記者 郭平;容量與性能 一樣都不能少[N];計算機世界;2010年
3 張峰;統(tǒng)一存儲 業(yè)務(wù)連續(xù)[N];網(wǎng)絡(luò)世界;2006年
4 清水 編譯;基于文件存儲大行其道[N];計算機世界;2011年
5 本報記者 郭濤;HCP Anywhere:為HDS內(nèi)容云錦上添花[N];中國計算機報;2013年
6 于翔;讓IT如業(yè)務(wù)般運營的應(yīng)用路徑[N];網(wǎng)絡(luò)世界;2009年
7 劉一冰;IBM SoNAS專攻高端存儲客戶[N];電腦商報;2010年
8 清水 編譯;云存儲:機遇下暗藏挑戰(zhàn)[N];計算機世界;2010年
9 沈建苗;互聯(lián)網(wǎng)存儲 你信得過嗎[N];計算機世界;2007年
10 ;一月 筆類和文件存儲產(chǎn)品關(guān)注度較高[N];消費日報;2010年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 宮海林;支持事務(wù)的文件存儲技術(shù)研究與系統(tǒng)實現(xiàn)[D];國防科學技術(shù)大學;2006年
2 曹挹芬;分布式文件存儲與檢索平臺的設(shè)計與實現(xiàn)[D];湖南大學;2009年
3 黃斌;并行文件存儲系統(tǒng)關(guān)鍵技術(shù)的研究[D];華南理工大學;2012年
4 蔣浩;分布式文件存儲系統(tǒng)副本管理方法研究[D];浙江大學;2013年
5 張聰萍;錢塘分布式文件存儲系統(tǒng)性能優(yōu)化[D];浙江大學;2011年
6 周峰;互聯(lián)網(wǎng)文件存儲服務(wù)系統(tǒng)研究[D];華中科技大學;2011年
7 鄭釗;?赜嬎銠C分離式文件存儲的研究[D];西安電子科技大學;2014年
8 何娟;基于分布式文件存儲的個人信息融合系統(tǒng)的研究與實踐[D];北京郵電大學;2010年
9 江柳;HDFS下小文件存儲優(yōu)化相關(guān)技術(shù)研究[D];北京郵電大學;2011年
10 董其文;基于HDFS的小文件存儲方法的研究[D];大連海事大學;2013年
本文關(guān)鍵詞:云環(huán)境下海量小文件存儲技術(shù)的研究與應(yīng)用,由筆耕文化傳播整理發(fā)布。
,本文編號:302474
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/302474.html