HDFS下海量小文件高效存儲(chǔ)與索引方法
本文選題:HDFS + 海量小文件; 參考:《小型微型計(jì)算機(jī)系統(tǒng)》2015年10期
【摘要】:分布式文件系統(tǒng)HDFS被用來存儲(chǔ)大文件,若在其中存儲(chǔ)海量小文件將會(huì)嚴(yán)重消耗Name Node內(nèi)存,影響系統(tǒng)性能,同時(shí)小文件也不利于使用MapReduce框架進(jìn)行并行處理和分析.另外,小文件附帶的多維元信息也需要以一種合理的方式進(jìn)行存儲(chǔ)和索引以便于查詢.本文針對(duì)以上問題,提出一種基于多維列索引的小文件管理方案,支持文件的并發(fā)上傳、下載及刪除操作,并在多個(gè)查詢維度上提供文件的自由檢索.本文提出的小文件合并方案能夠明顯減少HDFS上的文件數(shù)量,經(jīng)過實(shí)驗(yàn)對(duì)比,在小文件元信息的查詢效率方面,本文提出的多維索引方案優(yōu)于HBase,同時(shí)保證了文件傳輸?shù)耐掏铝?
[Abstract]:Distributed file system (HDFS) is used to store large files. If large files are stored in HDFS, name Node memory will be consumed and system performance will be affected. At the same time, small files are not conducive to parallel processing and analysis using MapReduce framework. In addition, the multidimensional metadata attached to small files also needs to be stored and indexed in a reasonable way to facilitate query. Aiming at the above problems, this paper proposes a small file management scheme based on multidimensional column index, which supports concurrent uploading, downloading and deleting of files, and provides free retrieval of files on multiple query dimensions. The small file merging scheme proposed in this paper can obviously reduce the number of files on HDFS. Through experimental comparison, the multi-dimensional index scheme proposed in this paper is superior to HBasein the query efficiency of small file meta-information, and the throughput of file transfer is guaranteed at the same time.
【作者單位】: 西北工業(yè)大學(xué)計(jì)算機(jī)學(xué)院;
【基金】:國(guó)家“九七三”重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃項(xiàng)目(2012CB316203)資助 國(guó)家自然基金重點(diǎn)項(xiàng)目(61033007)資助 中國(guó)航天科技集團(tuán)公司航天科技創(chuàng)新基金項(xiàng)目(2014H03FK011)資助
【分類號(hào)】:TP311.133.1;TP333
【參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 卞藝杰;陳超;李亞冰;陸小亮;;Hdspace分布式機(jī)構(gòu)知識(shí)庫(kù)系統(tǒng)的小文件存儲(chǔ)[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2014年02期
相關(guān)碩士學(xué)位論文 前1條
1 康毅;HBase大對(duì)象存儲(chǔ)方案的設(shè)計(jì)與實(shí)現(xiàn)[D];南京大學(xué);2013年
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 劉崇富;張子鋒;孔浩;;基于J2EE架構(gòu)的高校檔案管理日志模塊的設(shè)計(jì)與實(shí)現(xiàn)[J];電腦開發(fā)與應(yīng)用;2014年01期
2 朱世臣;;程序開發(fā)教學(xué)在高職藥學(xué)專業(yè)中的應(yīng)用[J];計(jì)算機(jī)光盤軟件與應(yīng)用;2014年02期
3 趙立軍;楊欣;;終端維護(hù)信息化管理系統(tǒng)的實(shí)現(xiàn)[J];計(jì)算機(jī)光盤軟件與應(yīng)用;2014年04期
4 鄧揚(yáng);何軍;李奇;;自動(dòng)化無人機(jī)快遞系統(tǒng)的研究與設(shè)計(jì)[J];計(jì)算機(jī)光盤軟件與應(yīng)用;2014年12期
5 李婷;;數(shù)據(jù)庫(kù)架構(gòu)在計(jì)算機(jī)軟件制作上的應(yīng)用[J];硅谷;2014年18期
6 楊欣;;投訴管理系統(tǒng)的開發(fā)及應(yīng)用[J];計(jì)算機(jī)光盤軟件與應(yīng)用;2014年17期
7 孔麗云;;DML觸發(fā)器實(shí)現(xiàn)數(shù)據(jù)完整性的應(yīng)用研究[J];電腦知識(shí)與技術(shù);2014年34期
8 宋繼冉;;高校黨校結(jié)業(yè)考試系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];電腦知識(shí)與技術(shù);2015年04期
9 李曉明;;維哈柯語(yǔ)網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)的研發(fā)[J];硅谷;2015年04期
10 胡健;袁軍;王遠(yuǎn);;面向電網(wǎng)大數(shù)據(jù)的分布式實(shí)時(shí)數(shù)據(jù)庫(kù)管理系統(tǒng)[J];電力信息與通信技術(shù);2015年02期
相關(guān)博士學(xué)位論文 前1條
1 劉新春;大規(guī)模實(shí)時(shí)數(shù)據(jù)流連接關(guān)鍵技術(shù)的研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2015年
相關(guān)碩士學(xué)位論文 前10條
1 楊進(jìn)展;基于Hadoop的三維模型管理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];西北大學(xué);2013年
2 李軍鋒;某市電信短信管理平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[D];廈門大學(xué);2014年
3 邵麗娟;中小型企業(yè)出口業(yè)務(wù)管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];廈門大學(xué);2014年
4 周愉快;稅務(wù)行政處罰在線處理系統(tǒng)的分析與設(shè)計(jì)[D];廈門大學(xué);2014年
5 楊印;網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];廈門大學(xué);2014年
6 高永朋;網(wǎng)站開放平臺(tái)的研究與實(shí)現(xiàn)[D];東北大學(xué);2013年
7 蒙新顏;家庭管家系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];廈門大學(xué);2014年
8 陳彥恒;企業(yè)庫(kù)存定位盤點(diǎn)系統(tǒng)和質(zhì)檢數(shù)據(jù)采集系統(tǒng)的研究與設(shè)計(jì)[D];西南交通大學(xué);2014年
9 姜杉;基于B/S架構(gòu)的盤錦供電報(bào)表管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];吉林大學(xué);2014年
10 胡_g愷;NCN數(shù)字媒體資產(chǎn)管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];吉林大學(xué);2014年
【二級(jí)參考文獻(xiàn)】
相關(guān)期刊論文 前6條
1 蔡迎春;;機(jī)構(gòu)知識(shí)庫(kù):基于開放存取的學(xué)術(shù)交流機(jī)制[J];情報(bào)理論與實(shí)踐;2008年05期
2 郎慶華;;機(jī)構(gòu)知識(shí)庫(kù)長(zhǎng)期保存的策略分析[J];情報(bào)理論與實(shí)踐;2010年05期
3 都平平;;機(jī)構(gòu)倉(cāng)儲(chǔ)的自存儲(chǔ)和強(qiáng)制存儲(chǔ)策略研究[J];圖書館雜志;2008年09期
4 張曉林;;機(jī)構(gòu)知識(shí)庫(kù)的政策、功能和支撐機(jī)制分析[J];圖書情報(bào)工作;2008年01期
5 夏明春;;機(jī)構(gòu)知識(shí)庫(kù)發(fā)展現(xiàn)狀、問題及對(duì)策研究[J];圖書情報(bào)工作;2008年04期
6 符玉霜;;電子書的版權(quán)問題研究[J];現(xiàn)代情報(bào);2011年01期
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 王明;文件刪除 不留蛛絲馬跡[J];計(jì)算機(jī)與網(wǎng)絡(luò);2004年17期
2 清風(fēng);容易被誤認(rèn)為是病毒的文件[J];網(wǎng)絡(luò)與信息;2004年10期
3 賈培武;這三個(gè)文件不是病毒[J];網(wǎng)絡(luò)與信息;2005年11期
4 ;用戶經(jīng)常懷疑是病毒的文件[J];計(jì)算機(jī)與網(wǎng)絡(luò);2007年06期
5 ;三款軟件助你救回被誤刪除的文件[J];計(jì)算機(jī)與網(wǎng)絡(luò);2008年08期
6 朱猛;用批命令實(shí)現(xiàn)文件的移動(dòng)[J];電腦愛好者;1994年08期
7 吳文,王小平;談?wù)勎募膭h除與反刪除[J];山東電子;2001年02期
8 翁永平;;文件刪除終極大法[J];電腦知識(shí)與技術(shù);2006年04期
9 翁永平;;文件刪除終極大法[J];網(wǎng)絡(luò)與信息;2006年02期
10 凡非;;對(duì)癥下藥 誤刪文件不用愁[J];微電腦世界;2007年11期
相關(guān)重要報(bào)紙文章 前10條
1 太平;哪些文件是可以刪除的?[N];江蘇經(jīng)濟(jì)報(bào);2001年
2 江蘇 引火蟲;確保數(shù)據(jù)安全的“文件密使”[N];電腦報(bào);2002年
3 春春;如何應(yīng)對(duì)刪不掉的文件[N];樂山日?qǐng)?bào);2006年
4 劉亭;系統(tǒng)中的隱含文件[N];中國(guó)電腦教育報(bào);2004年
5 陳晨;把文件藏在回收站里[N];光明日?qǐng)?bào);2003年
6 ;電腦中的文件保鏢[N];大眾科技報(bào);2000年
7 李軍勝;將文件藏入硬件中[N];中國(guó)計(jì)算機(jī)報(bào);2004年
8 福建尤溪六中 蔡玉瓊;aux.txt文件究竟是何方神圣?[N];中國(guó)電腦教育報(bào);2006年
9 特約撰稿人 羅慶鋒;文件刪除的機(jī)理與方法[N];電腦報(bào);2002年
10 常晨曦;回收站文件巧刪除[N];電腦報(bào);2004年
相關(guān)碩士學(xué)位論文 前8條
1 張瑾;基于Android的文件瀏覽器設(shè)計(jì)與實(shí)現(xiàn)[D];山東大學(xué);2013年
2 崔文卿;結(jié)構(gòu)化P2P網(wǎng)絡(luò)污染文件傳播的免疫策略研究[D];大連理工大學(xué);2010年
3 盧夢(mèng)僑;網(wǎng)絡(luò)文件遠(yuǎn)程傳輸系統(tǒng)的設(shè)計(jì)與開發(fā)[D];西安石油大學(xué);2011年
4 張呈;Hadoop集群下海量小文件優(yōu)化處理[D];武漢理工大學(xué);2014年
5 王娟;新型電子文件保險(xiǎn)箱的設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2012年
6 林旭;云存儲(chǔ)中的數(shù)據(jù)刪除技術(shù)研究[D];上海交通大學(xué);2011年
7 陳平;文件透明加密系統(tǒng)的研究與實(shí)現(xiàn)[D];杭州電子科技大學(xué);2011年
8 于左宜;建筑工程文件智能下發(fā)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];山東大學(xué);2013年
,本文編號(hào):2090964
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2090964.html