HiBase:一種基于分層式索引的高效HBase查詢技術(shù)與系統(tǒng)
本文關(guān)鍵詞:HiBase:一種基于分層式索引的高效HBase查詢技術(shù)與系統(tǒng)
更多相關(guān)文章: HBase 非主鍵索引 查詢處理 分層式索引 緩存替換策略 大數(shù)據(jù)
【摘要】:大數(shù)據(jù)時代,眾多應(yīng)用領(lǐng)域的數(shù)據(jù)量爆炸式增長,迫切需要研究和尋找有效的大數(shù)據(jù)存儲管理方法,提供實時或準實時的大數(shù)據(jù)查詢分析能力.Hadoop HBase系統(tǒng)為大數(shù)據(jù)的存儲管理提供了一種具有高可擴展性的技術(shù)方法和系統(tǒng)平臺.然而HBase只有主鍵索引,不支持非主鍵索引,這導(dǎo)致HBase的數(shù)據(jù)查詢效率較低,難以滿足數(shù)據(jù)實時或準實時查詢需求.為此,在HBase基礎(chǔ)上提供面向非主鍵的快速查詢能力,是目前Hadoop環(huán)境下急需研究和解決的一個重要問題.該文研究提出了一種基于分層式HBase非主鍵索引的查詢模型和方法,該模型和方法首先建立基于HBase的持久性索引.然后,為了利用內(nèi)存提升查詢性能,該文進一步提出了一種索引熱點數(shù)據(jù)緩存技術(shù)和一種高效的熱度累積緩存替換策略,以降低對HBase索引表的磁盤訪問開銷.熱度累積緩存替換策略克服了最近最少使用(LRU)算法的局限性,考慮數(shù)據(jù)訪問的累積熱度和時間局部特性,從而更準確地捕獲數(shù)據(jù)訪問的特征.為了使索引熱點數(shù)據(jù)緩存內(nèi)存層具有良好的可擴展性,HiBase設(shè)計了基于一致性哈希的分布式內(nèi)存緩存,支持高效的基于非主鍵的單點查詢和范圍查詢.最終,該文設(shè)計實現(xiàn)了完整的分層式索引和查詢系統(tǒng)HiBase.在千萬至十億條記錄規(guī)模數(shù)據(jù)集上的測試結(jié)果表明,HiBase冷查詢響應(yīng)時間比標準HBase快65倍(大結(jié)果集)到3000多倍(小結(jié)果集);而引入基于查詢熱度累積算法的內(nèi)存索引緩存方法后,熱查詢性能可在HiBase冷查詢基礎(chǔ)上再提升5~15倍,使得總體查詢性能比標準HBase快300多倍(大結(jié)果集)到1.7萬倍(小結(jié)果集),比開源的Hindex系統(tǒng)快5~20倍.
【作者單位】: 南京大學(xué)計算機軟件新技術(shù)國家重點實驗室;江蘇省軟件新技術(shù)與產(chǎn)業(yè)化協(xié)同創(chuàng)新中心;中興通訊股份有限公司;清華大學(xué)計算機科學(xué)與技術(shù)系;
【基金】:國家自然科學(xué)基金專項基金(61223003,61362006) 中興通訊產(chǎn)學(xué)研合作項目資助
【分類號】:TP311.13
【正文快照】: 項目資助.葛微,女,1979年生,博士研究生,中國計算機學(xué)會(CCF)會員,主要研究方向為查詢處理、查詢優(yōu)化、分布式和并行計算.E-mail:gloria.w.ge@gmail.com.羅圣美,男,1971年生,碩士,高級工程師,中國計算機學(xué)會(CCF)會員,主要研究方向為云計算、云存儲、大數(shù)據(jù)等技術(shù)領(lǐng)域.周文輝,
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 ;本期廣告商索引表[J];電子與電腦;2000年01期
2 ;本期編輯內(nèi)容產(chǎn)品索引表[J];電子與電腦;2000年02期
3 ;本期廣告商索引表[J];電子與電腦;2000年02期
4 ;本期編輯內(nèi)容產(chǎn)品索引表[J];電子與電腦;2000年04期
5 ;本期廣告商索引表[J];電子與電腦;2000年04期
6 ;本期編輯內(nèi)容產(chǎn)品索引表[J];電子與電腦;2000年11期
7 ;本期廣告商索引表[J];電子與電腦;2000年11期
8 ;本期編輯內(nèi)容產(chǎn)品索引表[J];電子與電腦;1999年05期
9 ;本期編輯內(nèi)容產(chǎn)品索引表[J];電子與電腦;1999年08期
10 ;本期編輯內(nèi)容產(chǎn)品索引表[J];電子與電腦;1999年09期
中國重要會議論文全文數(shù)據(jù)庫 前9條
1 石瑋峰;楊冬青;唐世渭;關(guān)濤;;COBASE的索引管理技術(shù)[A];第十二屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集[C];1994年
2 王彥祥;王廣林;;“索引之星”的研制和索引編制[A];2004年辭書與數(shù)字化研討會論文集[C];2004年
3 王曉輝;王柏;;通過有效使用索引優(yōu)化Oracle應(yīng)用系統(tǒng)性能[A];第九屆全國青年通信學(xué)術(shù)會議論文集[C];2004年
4 孫云峰;陳渝;史元春;張寶鵬;張曦;江文峰;;基于高精度室內(nèi)定位系統(tǒng)的移動物體軌跡索引[A];第二屆和諧人機環(huán)境聯(lián)合學(xué)術(shù)會議(HHME2006)——第2屆中國普適計算學(xué)術(shù)會議(PCC'06)論文集[C];2006年
5 王先勝;喬健;汪衛(wèi);何震瀛;;AX-Tree:基于RDBMS的粒度自適應(yīng)XML數(shù)據(jù)索引[A];第二十五屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(一)[C];2008年
6 邵雄凱;盧炎生;程學(xué)先;;用建立本地廣播索引表的方法改善移動客戶機的性能[A];第二十屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2003年
7 薛巍;李維佳;穆飛;舒繼武;;PDPI:一種面向多核的可擴展并行索引算法[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會論文集(下冊)[C];2007年
8 王鵬飛;洪曉光;;基于XML大文檔的動態(tài)索引[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2004年
9 楊彬;洪曉光;;基于XML大文檔的動態(tài)索引[A];’2004計算機應(yīng)用技術(shù)交流會議論文集[C];2004年
中國重要報紙全文數(shù)據(jù)庫 前1條
1 裘宗燕;輕松做索引[N];中華讀書報;2002年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前3條
1 張帆;搜索引擎中索引表求交和提前停止技術(shù)優(yōu)化研究[D];南開大學(xué);2012年
2 陳旭毅;基于索引云的企業(yè)搜索引擎實現(xiàn)研究[D];武漢大學(xué);2011年
3 余利華;分布式數(shù)據(jù)存儲和處理的若干技術(shù)研究[D];浙江大學(xué);2008年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 周黎明;SYBASE數(shù)據(jù)庫的索引壓縮的設(shè)計與實現(xiàn)[D];上海交通大學(xué);2015年
2 徐康;組學(xué)大數(shù)據(jù)的檢索系統(tǒng)設(shè)計與實現(xiàn)[D];哈爾濱工業(yè)大學(xué);2015年
3 王健;DWMS中索引選擇策略的研究與實現(xiàn)[D];東華大學(xué);2010年
4 胡玉樂;列存儲DWMS中的索引關(guān)鍵技術(shù)研究[D];東華大學(xué);2011年
5 張慧;一種基于位立方體的XML索引方式[D];山東大學(xué);2007年
6 王學(xué);面向SaaS應(yīng)用交付平臺的多租戶數(shù)據(jù)索引研究[D];山東大學(xué);2012年
7 石有滴;XML索引關(guān)鍵技術(shù)研究[D];華南理工大學(xué);2011年
8 陳堅強;DB2數(shù)據(jù)庫索引性能調(diào)整與優(yōu)化[D];上海交通大學(xué);2011年
9 葛付江;面向動態(tài)文檔集的大規(guī)模文本索引構(gòu)建技術(shù)的研究[D];哈爾濱工業(yè)大學(xué);2008年
10 劉亦韜;基于壓縮全文自索引的分布式索引技術(shù)研究[D];杭州電子科技大學(xué);2015年
,本文編號:1143445
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1143445.html