一種面向HDFS的多層索引技術(shù)
本文關(guān)鍵詞: 查詢 索引 HDFS SOH 大數(shù)據(jù) 出處:《軟件學(xué)報(bào)》2017年03期 論文類(lèi)型:期刊論文
【摘要】:SOH(SQL over HDFS)系統(tǒng)通常將數(shù)據(jù)存儲(chǔ)于分布式文件系統(tǒng)HDFS(Hadoop distributed file system)中,采用Map/Reduce或分布式查詢引擎來(lái)處理查詢?nèi)蝿?wù).得益于HDFS以及Map/Reduce的容錯(cuò)能力和可擴(kuò)展性,SOH系統(tǒng)可以很好地應(yīng)對(duì)數(shù)據(jù)規(guī)模的飛速增長(zhǎng),完成分析型查詢處理.然而,在處理選擇型查詢或交互式查詢時(shí),這類(lèi)系統(tǒng)暴露出了性能上的缺陷.提出一種通用的索引技術(shù),可以應(yīng)用于SOH系統(tǒng)中,以提高其查詢處理的效率.分析了SOH系統(tǒng)訪問(wèn)HDFS文件的過(guò)程,指出了其中影響數(shù)據(jù)加載時(shí)間的關(guān)鍵因素.提出了split層和split內(nèi)部雙層索引機(jī)制;設(shè)計(jì)并實(shí)現(xiàn)了聚集索引和非聚集索引;最后,在標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn),并與現(xiàn)有基于HDFS的索引技術(shù)進(jìn)行了比較.實(shí)驗(yàn)結(jié)果表明,所提出的索引技術(shù)可以有效地提高查詢處理的效率.
[Abstract]:SOH(SQL over HDFS systems typically store data in a distributed file system, HDFS (. In the Hadoop distributed file system. Use Map/Reduce or distributed query engine to handle query tasks, thanks to the fault tolerance and extensibility of HDFS and Map/Reduce. SOH system can well cope with the rapid growth of data scale, complete analytical query processing. However, when dealing with selective queries or interactive queries. This kind of system exposes the performance defect. A general indexing technique is proposed, which can be applied to SOH system. In order to improve the efficiency of query processing, the process of accessing HDFS files in SOH system is analyzed. The key factors affecting data loading time are pointed out, and the split layer and split internal double-layer indexing mechanism are proposed. The clustered index and the nonclustered index are designed and implemented. Finally, a large number of experiments are carried out on the standard data set and compared with the existing indexing techniques based on HDFS. The experimental results show that the proposed indexing technology can effectively improve the efficiency of query processing.
【作者單位】: 中國(guó)人民大學(xué)信息學(xué)院;教育部數(shù)據(jù)工程與知識(shí)工程重點(diǎn)實(shí)驗(yàn)室(中國(guó)人民大學(xué));
【基金】:國(guó)家重點(diǎn)研發(fā)計(jì)劃(2016YFB1000702) 中國(guó)人民大學(xué)預(yù)研委托(團(tuán)隊(duì))基金(14XNLQ06) 國(guó)家自然科學(xué)基金(61003086)~~
【分類(lèi)號(hào)】:TP311.13
【正文快照】: 2(教育部數(shù)據(jù)工程與知識(shí)工程重點(diǎn)實(shí)驗(yàn)室(中國(guó)人民大學(xué)),北京100872)1000-9825/5161.htm英文引用格式:He L,Chen JC,Du XY.Multi-Layered index for HDFS-based systems.Ruan Jian Xue Bao/Journal of Software,2017,28(3):502?513(in Chinese).http://www.jos.org.cn/1000-982
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 湛茂溪;;SQL Server索引在實(shí)際應(yīng)用中的研究[J];科技信息;2012年12期
2 王珊;吳鷗琦;;B~+樹(shù)效率分析和組織聚集索引的算法——B~+樹(shù)的進(jìn)一步研究和應(yīng)用[J];計(jì)算機(jī)研究與發(fā)展;1982年11期
3 張捷;;SQL Server索引使用的幾個(gè)誤區(qū)[J];消費(fèi)導(dǎo)刊;2009年21期
4 于紹娜;李霞麗;胥桂仙;楊智君;;數(shù)據(jù)庫(kù)索引研究[J];電子測(cè)試;2010年02期
5 周申;;SqlServer數(shù)據(jù)庫(kù)中聚集索引的用法[J];有色金屬加工;2012年06期
6 張繼超;SQL Server查詢性能的優(yōu)化[J];中國(guó)金融電腦;2005年05期
7 鄭根讓;陜西省人民醫(yī)院HIS系統(tǒng)索引優(yōu)化的設(shè)計(jì)與實(shí)現(xiàn)[J];寶雞文理學(xué)院學(xué)報(bào)(自然科學(xué)版);2005年03期
8 楊睿娜;;《天津?yàn)I海職業(yè)學(xué)院網(wǎng)絡(luò)教學(xué)平臺(tái)系統(tǒng)》數(shù)據(jù)庫(kù)索引設(shè)計(jì)[J];黑龍江科技信息;2013年10期
9 李世武;王娜;張泉;;地稅發(fā)票海量數(shù)據(jù)庫(kù)設(shè)計(jì)與實(shí)現(xiàn)策略研究[J];河北省科學(xué)院學(xué)報(bào);2006年01期
10 黃晶晶;;淺談SQL Server索引結(jié)構(gòu)及其使用[J];福建電腦;2010年11期
相關(guān)會(huì)議論文 前1條
1 張冬冬;李建中;高宏;;聚集索引樹(shù):一種解決區(qū)域聚集查詢問(wèn)題的方法[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2002年
相關(guān)碩士學(xué)位論文 前1條
1 李明生;余味美食網(wǎng)的設(shè)計(jì)與實(shí)現(xiàn)[D];山東大學(xué);2008年
,本文編號(hào):1484803
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1484803.html