一種Hadoop小文件存儲(chǔ)優(yōu)化方案
本文關(guān)鍵詞:一種Hadoop小文件存儲(chǔ)優(yōu)化方案,,由筆耕文化傳播整理發(fā)布。
【摘要】:Hadoop分布式文件系統(tǒng)(HDFS)適合處理和存儲(chǔ)大文件,在處理的文件體積較大時(shí)表現(xiàn)出色,但是在處理海量的小文件時(shí)效率和性能下降明顯,過多的小文件將會(huì)導(dǎo)致整個(gè)集群的負(fù)載過高。為了提高HDFS處理小文件的性能,提出了雙重合并算法-即基于文件之間的關(guān)聯(lián)關(guān)系和基于數(shù)據(jù)塊平衡的小文件合并算法,能夠?qū)⑿∥募奈募w積大小進(jìn)行均勻分布。通過該算法能夠進(jìn)一步提升小文件的合并效果,減少HDFS集群主節(jié)點(diǎn)內(nèi)存消耗,降低負(fù)載,有效降低合并所需的數(shù)據(jù)塊數(shù)量,最終能夠提高HDFS處理海量小文件的性能。
【作者單位】: 北京工業(yè)大學(xué)計(jì)算機(jī)學(xué)院;
【關(guān)鍵詞】: Hadoop分布式文件系統(tǒng) 小文件 合并算法 文件關(guān)聯(lián)
【基金】:國家自然科學(xué)基金資助項(xiàng)目(61272500)
【分類號(hào)】:TP333
【正文快照】: 0引言隨著互聯(lián)網(wǎng)的高速發(fā)展,當(dāng)今社會(huì)所產(chǎn)生的數(shù)據(jù)量在急速增長,據(jù)統(tǒng)計(jì)目前人類一年產(chǎn)生的數(shù)據(jù)量的規(guī)模就相當(dāng)于人類進(jìn)入現(xiàn)代化以前所有歷史的總和。2014年國內(nèi)數(shù)據(jù)總量約為1.4 ZB,是2012年的3.5倍,預(yù)計(jì)2020年國內(nèi)產(chǎn)生的數(shù)據(jù)總量將超過8.6ZB[1]。Hadoop是一個(gè)能夠?qū)Υ髷?shù)據(jù)進(jìn)行
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 王春靖;FAT32的優(yōu)點(diǎn)[J];電腦愛好者;1998年03期
2 何文才;鄭釗;劉培鶴;杜敏;;一種基于目錄數(shù)據(jù)分離存儲(chǔ)的文件存儲(chǔ)方法的研究與實(shí)現(xiàn)[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2014年01期
3 飛雪散花;;手機(jī)文件存儲(chǔ)看我的[J];電腦迷;2012年05期
4 孫有軍;張大興;;海量圖片文件存儲(chǔ)去重技術(shù)研究[J];計(jì)算機(jī)應(yīng)用與軟件;2014年04期
5 ;金剛指——計(jì)算機(jī)文件存儲(chǔ)的保護(hù)神[J];信息安全與通信保密;2001年12期
6 趙躍龍;謝曉玲;蔡詠才;王國華;劉霖;;一種性能優(yōu)化的小文件存儲(chǔ)訪問策略的研究[J];計(jì)算機(jī)研究與發(fā)展;2012年07期
7 周國安;李強(qiáng);陳新;胡旭;;云環(huán)境下海量小文件存儲(chǔ)技術(shù)研究綜述[J];信息網(wǎng)絡(luò)安全;2014年06期
8 張美芳;電子文件存儲(chǔ)方式的研究[J];數(shù)字與縮微影像;2005年02期
9 陶慧;于守謙;劉夏;;適于測控系統(tǒng)的文件存儲(chǔ)結(jié)構(gòu)研究[J];計(jì)算機(jī)應(yīng)用與軟件;2010年11期
10 方勇;史躍輝;;淺談減少地形圖電子文件存儲(chǔ)冗余的幾種方法[J];江西測繪;2006年02期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前6條
1 任勇;朱立谷;張雷;彭建峰;;新型虛擬文件存儲(chǔ)系統(tǒng)的設(shè)計(jì)[A];第15屆全國信息存儲(chǔ)技術(shù)學(xué)術(shù)會(huì)議論文集[C];2008年
2 李浩;;基于制播分離的文件存儲(chǔ)和傳輸方式的探討[A];中國新聞技術(shù)工作者聯(lián)合會(huì)五屆二次理事會(huì)暨學(xué)術(shù)年會(huì)論文集(上篇)[C];2010年
3 陳海波;侯建衛(wèi);;針對(duì)海量詳單快速存儲(chǔ)檢索的實(shí)現(xiàn)方法[A];2011年通信與信息技術(shù)新進(jìn)展——第八屆中國通信學(xué)會(huì)學(xué)術(shù)年會(huì)論文集[C];2011年
4 陳海波;侯建衛(wèi);;針對(duì)海量詳單快速存儲(chǔ)檢索的實(shí)現(xiàn)方法[A];2011全國無線及移動(dòng)通信學(xué)術(shù)大會(huì)論文集[C];2011年
5 袁旦;張智君;;預(yù)覽時(shí)間對(duì)顏色判斷任務(wù)下客體文件存儲(chǔ)的影響[A];第十一屆全國心理學(xué)學(xué)術(shù)會(huì)議論文摘要集[C];2007年
6 黃步根;黃政;劉建軍;;SANYO數(shù)碼相機(jī)中被刪除視頻的恢復(fù)[A];第26次全國計(jì)算機(jī)安全學(xué)術(shù)交流會(huì)論文集[C];2011年
中國重要報(bào)紙全文數(shù)據(jù)庫 前9條
1 本報(bào)記者 郭平;Isilon擴(kuò)充文件存儲(chǔ)產(chǎn)品線[N];計(jì)算機(jī)世界;2009年
2 本報(bào)記者 郭平;容量與性能 一樣都不能少[N];計(jì)算機(jī)世界;2010年
3 張峰;統(tǒng)一存儲(chǔ) 業(yè)務(wù)連續(xù)[N];網(wǎng)絡(luò)世界;2006年
4 清水 編譯;基于文件存儲(chǔ)大行其道[N];計(jì)算機(jī)世界;2011年
5 本報(bào)記者 郭濤;HCP Anywhere:為HDS內(nèi)容云錦上添花[N];中國計(jì)算機(jī)報(bào);2013年
6 于翔;讓IT如業(yè)務(wù)般運(yùn)營的應(yīng)用路徑[N];網(wǎng)絡(luò)世界;2009年
7 劉一冰;IBM SoNAS專攻高端存儲(chǔ)客戶[N];電腦商報(bào);2010年
8 清水 編譯;云存儲(chǔ):機(jī)遇下暗藏挑戰(zhàn)[N];計(jì)算機(jī)世界;2010年
9 沈建苗;互聯(lián)網(wǎng)存儲(chǔ) 你信得過嗎[N];計(jì)算機(jī)世界;2007年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 廖家趙;面向城軌線網(wǎng)的海量小文件存儲(chǔ)方法的研究與實(shí)現(xiàn)[D];華南理工大學(xué);2015年
2 李長平;基于FastDFS架構(gòu)的小文件存儲(chǔ)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2015年
3 葉道平;基于HADOOP的海量錄音文件存儲(chǔ)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2014年
4 張振猛;基于Hadoop的海量文件存儲(chǔ)系統(tǒng)的分析與設(shè)計(jì)[D];北京工業(yè)大學(xué);2015年
5 何高峰;基于HDFS的多租戶小文件存儲(chǔ)系統(tǒng)的研究與設(shè)計(jì)[D];浙江大學(xué);2016年
6 武奇;云存儲(chǔ)中數(shù)據(jù)的分發(fā)與遷移機(jī)制的研究[D];長春工業(yè)大學(xué);2016年
7 宮海林;支持事務(wù)的文件存儲(chǔ)技術(shù)研究與系統(tǒng)實(shí)現(xiàn)[D];國防科學(xué)技術(shù)大學(xué);2006年
8 曹挹芬;分布式文件存儲(chǔ)與檢索平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[D];湖南大學(xué);2009年
9 黃斌;并行文件存儲(chǔ)系統(tǒng)關(guān)鍵技術(shù)的研究[D];華南理工大學(xué);2012年
10 蔣浩;分布式文件存儲(chǔ)系統(tǒng)副本管理方法研究[D];浙江大學(xué);2013年
本文關(guān)鍵詞:一種Hadoop小文件存儲(chǔ)優(yōu)化方案,由筆耕文化傳播整理發(fā)布。
本文編號(hào):438516
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/438516.html