基于關(guān)聯(lián)規(guī)則挖掘的分布式小文件存儲(chǔ)方法
本文關(guān)鍵詞:基于關(guān)聯(lián)規(guī)則挖掘的分布式小文件存儲(chǔ)方法
更多相關(guān)文章: HDFS 關(guān)聯(lián)規(guī)則挖掘 小文件關(guān)聯(lián)性 預(yù)取
【摘要】:Hadoop分布式文件系統(tǒng)(HDFS)設(shè)計(jì)之初是針對(duì)大文件的處理,但無(wú)法高效地針對(duì)小文件進(jìn)行存儲(chǔ),因此提出了一種基于關(guān)聯(lián)規(guī)則挖掘的高效的小文件存儲(chǔ)方法——ARMFS。ARMFS通過(guò)對(duì)Hadoop系統(tǒng)的審計(jì)日志進(jìn)行關(guān)聯(lián)規(guī)則挖掘,獲得小文件間的關(guān)聯(lián)性,通過(guò)文件合并算法將小文件合并存儲(chǔ)至HDFS;在請(qǐng)求HDFS文件時(shí),根據(jù)關(guān)聯(lián)規(guī)則挖掘得到的高頻訪問(wèn)表和預(yù)取機(jī)制表提出預(yù)取算法來(lái)進(jìn)一步提高文件訪問(wèn)效率。實(shí)驗(yàn)結(jié)果表明,ARMFS方法明顯提高了NameNode的內(nèi)存使用效率,對(duì)于小文件的下載速度和訪問(wèn)效率的改善十分有效。
【作者單位】: 華東理工大學(xué)信息科學(xué)與工程學(xué)院;
【關(guān)鍵詞】: HDFS 關(guān)聯(lián)規(guī)則挖掘 小文件關(guān)聯(lián)性 預(yù)取
【基金】:國(guó)家自然科學(xué)基金(61300041,61272198)
【分類(lèi)號(hào)】:TP311.13;TP333
【正文快照】: Hadoop分布式文件系統(tǒng)(HDFS)是一種 Master/Slave主從式結(jié)構(gòu),一個(gè)HDFS系統(tǒng)由一個(gè)NameNode節(jié)點(diǎn)和若干個(gè)DataNode節(jié)點(diǎn)組成。其中文件的元數(shù)據(jù)(MeteData)信息存放在系統(tǒng)NameNode節(jié)點(diǎn)的內(nèi)存中,這樣就導(dǎo)致了文件的存 儲(chǔ)規(guī)模受到內(nèi)存大小的限制。例如,對(duì)于每1個(gè)文件HDFS存儲(chǔ)的Mete
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 孫有軍;張大興;;海量圖片文件存儲(chǔ)去重技術(shù)研究[J];計(jì)算機(jī)應(yīng)用與軟件;2014年04期
2 趙躍龍;謝曉玲;蔡詠才;王國(guó)華;劉霖;;一種性能優(yōu)化的小文件存儲(chǔ)訪問(wèn)策略的研究[J];計(jì)算機(jī)研究與發(fā)展;2012年07期
3 周?chē)?guó)安;李強(qiáng);陳新;胡旭;;云環(huán)境下海量小文件存儲(chǔ)技術(shù)研究綜述[J];信息網(wǎng)絡(luò)安全;2014年06期
4 張美芳;電子文件存儲(chǔ)方式的研究[J];數(shù)字與縮微影像;2005年02期
5 陶慧;于守謙;劉夏;;適于測(cè)控系統(tǒng)的文件存儲(chǔ)結(jié)構(gòu)研究[J];計(jì)算機(jī)應(yīng)用與軟件;2010年11期
6 ;1UNAS放上LCD面板[J];每周電腦報(bào);2003年26期
7 劉友安;羅明超;;云計(jì)算環(huán)境下網(wǎng)格文件存儲(chǔ)應(yīng)用研究[J];制造業(yè)自動(dòng)化;2013年04期
8 蔡斌;謝長(zhǎng)生;朱光喜;;基于分散式體系結(jié)構(gòu)的高可靠文件存儲(chǔ)系統(tǒng)的研究[J];計(jì)算機(jī)科學(xué);2008年09期
9 張馳;喬亞瓊;;一種基于隨機(jī)線性網(wǎng)絡(luò)編碼的分布式文件存儲(chǔ)系統(tǒng)研究[J];科技信息;2010年03期
10 岳斌,代亞非,韓華;分布式文件存儲(chǔ)系統(tǒng)性能測(cè)試問(wèn)題研究[J];計(jì)算機(jī)工程與應(yīng)用;2003年22期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前1條
1 任勇;朱立谷;張雷;彭建峰;;新型虛擬文件存儲(chǔ)系統(tǒng)的設(shè)計(jì)[A];第15屆全國(guó)信息存儲(chǔ)技術(shù)學(xué)術(shù)會(huì)議論文集[C];2008年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前2條
1 張峰;統(tǒng)一存儲(chǔ) 業(yè)務(wù)連續(xù)[N];網(wǎng)絡(luò)世界;2006年
2 本報(bào)記者 郭濤;HCP Anywhere:為HDS內(nèi)容云錦上添花[N];中國(guó)計(jì)算機(jī)報(bào);2013年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 何高峰;基于HDFS的多租戶小文件存儲(chǔ)系統(tǒng)的研究與設(shè)計(jì)[D];浙江大學(xué);2016年
2 武奇;云存儲(chǔ)中數(shù)據(jù)的分發(fā)與遷移機(jī)制的研究[D];長(zhǎng)春工業(yè)大學(xué);2016年
3 宮海林;支持事務(wù)的文件存儲(chǔ)技術(shù)研究與系統(tǒng)實(shí)現(xiàn)[D];國(guó)防科學(xué)技術(shù)大學(xué);2006年
4 曹挹芬;分布式文件存儲(chǔ)與檢索平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[D];湖南大學(xué);2009年
5 黃斌;并行文件存儲(chǔ)系統(tǒng)關(guān)鍵技術(shù)的研究[D];華南理工大學(xué);2012年
6 蔣浩;分布式文件存儲(chǔ)系統(tǒng)副本管理方法研究[D];浙江大學(xué);2013年
7 張聰萍;錢(qián)塘分布式文件存儲(chǔ)系統(tǒng)性能優(yōu)化[D];浙江大學(xué);2011年
8 鄭釗;專(zhuān)控計(jì)算機(jī)分離式文件存儲(chǔ)的研究[D];西安電子科技大學(xué);2014年
9 廖家趙;面向城軌線網(wǎng)的海量小文件存儲(chǔ)方法的研究與實(shí)現(xiàn)[D];華南理工大學(xué);2015年
10 何娟;基于分布式文件存儲(chǔ)的個(gè)人信息融合系統(tǒng)的研究與實(shí)踐[D];北京郵電大學(xué);2010年
,本文編號(hào):794940
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/794940.html