一種基于混合索引的HDFS小文件存儲(chǔ)策略
【圖文】:
映射)的B+樹(shù)索引,DataNode數(shù)據(jù)端根據(jù)所存儲(chǔ)小文件的大小,有區(qū)別的建立合適的塊內(nèi)索引,以實(shí)現(xiàn)小文件高效快速的訪問(wèn)。圖1小文件存儲(chǔ)架構(gòu)圖Fig.1Smallfilesstoragearchitecture圖2混合索引策略Fig.2Hybridindexstrategy本文混合索引策略中,由于小文件標(biāo)簽和小文件映射動(dòng)態(tài)增長(zhǎng),對(duì)上層的小文件標(biāo)簽建立基于小文件標(biāo)簽的可擴(kuò)展散列索引。可擴(kuò)展散列可節(jié)省空間,當(dāng)索引項(xiàng)增長(zhǎng)時(shí),動(dòng)態(tài)分配桶,,雖然需要維護(hù)桶地址表,這一額外開(kāi)銷影響非常小,我們可以忽略。傳統(tǒng)的散列索引結(jié)構(gòu)為了提高數(shù)據(jù)映射的隨機(jī)性,相鄰數(shù)據(jù)項(xiàng)在索引項(xiàng)的位置是離散的,這不利于小文件映射記錄的局部性訪問(wèn)。本文提出基于文件標(biāo)簽的散列索引,除了保持散列索引的處理速度、存儲(chǔ)空間的優(yōu)勢(shì),還能有效提高緩存命中率。該索引結(jié)構(gòu)的主要思路是根據(jù)小文件所屬標(biāo)簽,使用文件標(biāo)簽代替數(shù)據(jù)項(xiàng)作為索引單元,保證同一標(biāo)簽的文件映射記錄被映射到同一個(gè)桶中,訪問(wèn)文件映射記錄時(shí),其緩存命中率有所提高,從而使小文件達(dá)到更高的訪問(wèn)效率。下層的小文件映射采用B+樹(shù)結(jié)構(gòu),由于小文件映射記錄海量且要適應(yīng)多個(gè)客戶端并發(fā)請(qǐng)求,Na-meNode內(nèi)存不能承擔(dān)載如此大的負(fù)載,所以小文件映射只能存儲(chǔ)在磁盤上,需按文件塊讀取到內(nèi)存。要有效查詢小文件映射,必須減少磁盤訪問(wèn)次數(shù),而B(niǎo)+樹(shù)索引具有搜索路徑短的特點(diǎn),適合作為小文件映射的索引結(jié)構(gòu)。B+樹(shù)索引的搜索路徑小于[log[n/2]()K](n為結(jié)點(diǎn)的階,K為索引項(xiàng)的總數(shù)量)。例如,結(jié)點(diǎn)的大小一般為磁盤塊大小(4KByte),如果搜索碼大小為32Byte,n=4×210/32=100,如果索引項(xiàng)有1000000個(gè),一次查詢?cè)L問(wèn)磁盤次數(shù)為log[100/2](1000000)=4次。再加上緩存的作用,訪問(wèn)磁盤的次數(shù)更少。
映射)的B+樹(shù)索引,DataNode數(shù)據(jù)端根據(jù)所存儲(chǔ)小文件的大小,有區(qū)別的建立合適的塊內(nèi)索引,以實(shí)現(xiàn)小文件高效快速的訪問(wèn)。圖1小文件存儲(chǔ)架構(gòu)圖Fig.1Smallfilesstoragearchitecture圖2混合索引策略Fig.2Hybridindexstrategy本文混合索引策略中,由于小文件標(biāo)簽和小文件映射動(dòng)態(tài)增長(zhǎng),對(duì)上層的小文件標(biāo)簽建立基于小文件標(biāo)簽的可擴(kuò)展散列索引?蓴U(kuò)展散列可節(jié)省空間,當(dāng)索引項(xiàng)增長(zhǎng)時(shí),動(dòng)態(tài)分配桶,雖然需要維護(hù)桶地址表,這一額外開(kāi)銷影響非常小,我們可以忽略。傳統(tǒng)的散列索引結(jié)構(gòu)為了提高數(shù)據(jù)映射的隨機(jī)性,相鄰數(shù)據(jù)項(xiàng)在索引項(xiàng)的位置是離散的,這不利于小文件映射記錄的局部性訪問(wèn)。本文提出基于文件標(biāo)簽的散列索引,除了保持散列索引的處理速度、存儲(chǔ)空間的優(yōu)勢(shì),還能有效提高緩存命中率。該索引結(jié)構(gòu)的主要思路是根據(jù)小文件所屬標(biāo)簽,使用文件標(biāo)簽代替數(shù)據(jù)項(xiàng)作為索引單元,保證同一標(biāo)簽的文件映射記錄被映射到同一個(gè)桶中,訪問(wèn)文件映射記錄時(shí),其緩存命中率有所提高,從而使小文件達(dá)到更高的訪問(wèn)效率。下層的小文件映射采用B+樹(shù)結(jié)構(gòu),由于小文件映射記錄海量且要適應(yīng)多個(gè)客戶端并發(fā)請(qǐng)求,Na-meNode內(nèi)存不能承擔(dān)載如此大的負(fù)載,所以小文件映射只能存儲(chǔ)在磁盤上,需按文件塊讀取到內(nèi)存。要有效查詢小文件映射,必須減少磁盤訪問(wèn)次數(shù),而B(niǎo)+樹(shù)索引具有搜索路徑短的特點(diǎn),適合作為小文件映射的索引結(jié)構(gòu)。B+樹(shù)索引的搜索路徑小于[log[n/2]()K](n為結(jié)點(diǎn)的階,K為索引項(xiàng)的總數(shù)量)。例如,結(jié)點(diǎn)的大小一般為磁盤塊大小(4KByte),如果搜索碼大小為32Byte,n=4×210/32=100,如果索引項(xiàng)有1000000個(gè),一次查詢?cè)L問(wèn)磁盤次數(shù)為log[100/2](1000000)=4次。再加上緩存的作用,訪問(wèn)磁盤的次數(shù)更少。
【參考文獻(xiàn)】
相關(guān)期刊論文 前3條
1 郝杰;逯彥博;劉鑫吉;夏樹(shù)濤;;分布式存儲(chǔ)中的再生碼綜述[J];重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版);2013年01期
2 趙躍龍;謝曉玲;蔡詠才;王國(guó)華;劉霖;;一種性能優(yōu)化的小文件存儲(chǔ)訪問(wèn)策略的研究[J];計(jì)算機(jī)研究與發(fā)展;2012年07期
3 王鈴惠;李小勇;張軼彬;;海量小文件存儲(chǔ)文件系統(tǒng)研究綜述[J];計(jì)算機(jī)應(yīng)用與軟件;2012年08期
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 董新華;李瑞軒;周灣灣;王聰;薛正元;廖東杰;;Hadoop系統(tǒng)性能優(yōu)化與功能增強(qiáng)綜述[J];計(jì)算機(jī)研究與發(fā)展;2013年S2期
2 陳渝;;基于Cache的海量圖片存取優(yōu)化方案[J];計(jì)算機(jī)測(cè)量與控制;2014年08期
3 英昌甜;于炯;魯亮;劉建礦;;基于小文件的內(nèi)存云存儲(chǔ)優(yōu)化策略[J];計(jì)算機(jī)應(yīng)用;2014年11期
4 楊洪章;張軍偉;許魯;劉振軍;;基于pNFS的小文件間數(shù)據(jù)預(yù)讀機(jī)制研究[J];計(jì)算機(jī)研究與發(fā)展;2014年S1期
5 徐教顯;王雅文;;基于緩存估算模型的代碼測(cè)試系統(tǒng)性能優(yōu)化方法[J];軟件;2013年12期
6 程付超;苗放;陳墾;;自適應(yīng)的分布式文件系統(tǒng)元數(shù)據(jù)管理模型[J];計(jì)算機(jī)工程與設(shè)計(jì);2014年03期
7 尹穎;林慶;林涵陽(yáng);;HDFS中高效存儲(chǔ)小文件的方法[J];計(jì)算機(jī)工程與設(shè)計(jì);2015年02期
8 王濤;姚世紅;徐正全;熊煉;;云存儲(chǔ)中面向訪問(wèn)任務(wù)的小文件合并與預(yù)取策略[J];武漢大學(xué)學(xué)報(bào)(信息科學(xué)版);2013年12期
9 周國(guó)安;李強(qiáng);陳新;胡旭;;云環(huán)境下海量小文件存儲(chǔ)技術(shù)研究綜述[J];信息網(wǎng)絡(luò)安全;2014年06期
10 吳陽(yáng);馮徑;;面向高效文件訪問(wèn)的目錄結(jié)構(gòu)優(yōu)化研究[J];軟件工程師;2014年11期
相關(guān)會(huì)議論文 前1條
1 陳驍;尚德生;黨瑞鵬;;探月工程測(cè)控應(yīng)用系統(tǒng)遙操作軟件運(yùn)行模式研究[A];中國(guó)宇航學(xué)會(huì)深空探測(cè)技術(shù)專業(yè)委員會(huì)第十屆學(xué)術(shù)年會(huì)論文集[C];2013年
相關(guān)碩士學(xué)位論文 前7條
1 羅雄威;SDFS分布式文件系統(tǒng)的研究與設(shè)計(jì)[D];華南理工大學(xué);2013年
2 劉伯睿;海量數(shù)據(jù)小文件分布式存儲(chǔ)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];湖南大學(xué);2013年
3 楊燦;基于HDFS的華圖在線文庫(kù)系統(tǒng)數(shù)據(jù)存儲(chǔ)與管理研究[D];中南大學(xué);2013年
4 蔣向陽(yáng);基于Hadoop的云安全存儲(chǔ)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];廣東工業(yè)大學(xué);2014年
5 孔鑫;基于Hadoop的海量小型XML數(shù)據(jù)文件處理技術(shù)的設(shè)計(jì)和實(shí)現(xiàn)[D];西安電子科技大學(xué);2014年
6 何華;GlusterFS的數(shù)據(jù)分布策略與性能優(yōu)化研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2013年
7 趙玉龍;基于Hadoop的海量小文件處理性能研究與優(yōu)化[D];內(nèi)蒙古科技大學(xué);2014年
【二級(jí)參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 金海;羅飛;章勤;張浩;;一個(gè)基于P2P高性能計(jì)算的高效數(shù)據(jù)傳輸協(xié)議[J];計(jì)算機(jī)研究與發(fā)展;2006年09期
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 周英華;金培權(quán);岳麗華;龔育昌;;基于位置的web搜索索引研究[J];中國(guó)科學(xué)技術(shù)大學(xué)學(xué)報(bào);2007年02期
2 陳雍;謝旭升;魏根芽;;Oracle B*樹(shù)索引內(nèi)部機(jī)制及其應(yīng)用的研究[J];計(jì)算機(jī)與現(xiàn)代化;2008年10期
3 趙娟娟;;嵌入數(shù)據(jù)庫(kù)索引機(jī)制及特點(diǎn)研究[J];硅谷;2011年02期
4 高玉良;張濟(jì)強(qiáng);白瑤;;基于Lucene的多索引搜索的研究與應(yīng)用[J];電腦知識(shí)與技術(shù);2012年07期
5 陳仲肅;;淺談索引失效原因、對(duì)策及其應(yīng)用[J];軟件;2012年07期
6 耿慶田;狄婧;常亮;趙宏偉;;基于B+樹(shù)的數(shù)據(jù)索引存儲(chǔ)[J];吉林大學(xué)學(xué)報(bào)(理學(xué)版);2013年06期
7 張
本文編號(hào):2576889
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2576889.html