大數(shù)據(jù)索引技術(shù)關(guān)鍵問題研究
[Abstract]:In recent decades, with the development of various industries, especially the development of scientific research, Internet, e-commerce and so on, the data is increasing at an unprecedented speed, big data era has come. How to effectively manage big data and improve big data's query and analysis ability is a hot research topic in industry and academia. Indexing technology is an effective way to improve data query processing, big data storage mode is fundamentally changed, so that the original traditional relational database in the mature index technology can not be directly applied to mass data processing, Big data's characteristics of magnanimity and complexity require big data's indexing mechanism to meet the requirements of supporting multiple queries, efficient retrieval and easy maintenance. In order to solve the query processing problem of big data, it is necessary to build a new index structure for big data environment. In this paper, a location-coded index tree based on Hadoop is proposed. The advantage of MapReduce programming model in dealing with large scale data is utilized. According to the characteristics of KNN query, the optimization strategy of data storage under MapReduce framework is put forward, and the similar resources are stored separately. In the process of query, the parallelism of MapReduce can be maximized. Firstly, the massive data are clustered, and then, according to the distribution characteristics of the clustering data, the data objects in the cluster are stratified by concentric circle with centroid, and each layer is expressed by binary coding of different lengths. The coding of all data objects is organized into an index tree structure, which shortens the search path of frequently queried data, and makes use of the index structure to determine the search space quickly, so as to improve the efficiency of big data retrieval. The effectiveness of the proposed method is verified by experiments in this paper. From the effect of data size on query efficiency, scalability, K value on query time and compared with non-index structure, The experimental results show that the proposed location-coded index tree under Hadoop can improve the query efficiency of KNN query and has a good expansibility.
【學(xué)位授予單位】:湖北大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP311.13
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 郭瑩;;數(shù)據(jù)空間關(guān)鍵問題探究[J];軟件導(dǎo)刊;2012年07期
2 厲劍;張紹雄;劉俊杰;李成柱;;大數(shù)據(jù)引發(fā)信息時(shí)代新變革[J];大眾科技;2013年12期
3 李斌;;大數(shù)據(jù)及其發(fā)展趨勢(shì)研究[J];廣西教育;2013年35期
4 張曉軍;孟祥武;;數(shù)字化周期[J];計(jì)算機(jī)科學(xué);2002年05期
5 崔晨;吳揚(yáng)揚(yáng);;基于活動(dòng)的數(shù)據(jù)空間數(shù)據(jù)關(guān)系發(fā)現(xiàn)[J];微型機(jī)與應(yīng)用;2011年11期
6 賈云得;;微型數(shù)字存貯遙測(cè)裝置數(shù)據(jù)預(yù)存貯方法[J];遙測(cè)遙控;1989年06期
7 靳小龍;王元卓;程學(xué)旗;;大數(shù)據(jù)的研究體系與現(xiàn)狀[J];信息通信技術(shù);2013年06期
8 朝樂門;;數(shù)據(jù)空間及其信息資源管理視角研究[J];情報(bào)理論與實(shí)踐;2013年11期
9 黃一凡;;合并分區(qū) 數(shù)據(jù)無損有妙招[J];電腦愛好者;2011年23期
10 葛敬軍;胡長(zhǎng)軍;劉歆;李揚(yáng);劉震宇;;面向領(lǐng)域科學(xué)數(shù)據(jù)的虛擬數(shù)據(jù)空間共享模型[J];小型微型計(jì)算機(jī)系統(tǒng);2014年03期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前5條
1 李鴻奎;陳洪艷;;大連市房地產(chǎn)基礎(chǔ)地理信息系統(tǒng)的設(shè)計(jì)和建設(shè)[A];中國地理信息系統(tǒng)協(xié)會(huì)第九屆年會(huì)論文集[C];2005年
2 董彥磊;申德榮;寇月;聶鐵錚;;數(shù)據(jù)空間中數(shù)據(jù)組織模型以及關(guān)聯(lián)關(guān)系發(fā)現(xiàn)模型的研究[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(B輯)[C];2009年
3 龐怡;許洪光;張志敏;;針對(duì)海量科技信息的存儲(chǔ)研究[A];信息時(shí)代——科技情報(bào)研究學(xué)術(shù)論文集(第三輯)[C];2008年
4 季承;;Oracle利用HWM高水標(biāo)記收縮數(shù)據(jù)空間方案[A];2013電力行業(yè)信息化年會(huì)論文集[C];2013年
5 季承;;Oracle利用HWM高水標(biāo)記收縮數(shù)據(jù)空間方案[A];2013電力行業(yè)信息化年會(huì)論文集[C];2013年
中國重要報(bào)紙全文數(shù)據(jù)庫 前6條
1 牛澤亞;用戶如何在數(shù)據(jù)空間里“被遺忘”?[N];人民郵電;2014年
2 風(fēng)格;指引大數(shù)據(jù)未來發(fā)展方向的九大真理[N];中華讀書報(bào);2013年
3 錄音整理 本報(bào)記者 劉文強(qiáng) 楊豐源;創(chuàng)新驅(qū)動(dòng),奮力奔向大數(shù)據(jù)時(shí)代[N];貴陽日?qǐng)?bào);2014年
4 中國人民大學(xué)信息學(xué)院 李玉坤;云計(jì)算與數(shù)據(jù)空間[N];中國計(jì)算機(jī)報(bào);2008年
5 整理 本報(bào)記者 蘇丹丹;把握大數(shù)據(jù)機(jī)遇 推動(dòng)文化產(chǎn)業(yè)跨越發(fā)展[N];中國文化報(bào);2013年
6 安徽國稅局 趙為民;稅務(wù)綜合數(shù)據(jù)平臺(tái)的設(shè)想[N];計(jì)算機(jī)世界;2007年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 李曉娜;面向SaaS應(yīng)用的多租戶數(shù)據(jù)放置機(jī)制研究[D];山東大學(xué);2015年
2 張德兵;基于機(jī)器學(xué)習(xí)的數(shù)據(jù)補(bǔ)全、標(biāo)注和檢索若干問題研究[D];浙江大學(xué);2015年
3 劉思彤;空間文本數(shù)據(jù)的查詢處理技術(shù)研究[D];清華大學(xué);2015年
4 侯振隆;重力全張量梯度數(shù)據(jù)的并行反演算法研究及應(yīng)用[D];吉林大學(xué);2016年
5 柯余洋;面向三類應(yīng)用數(shù)據(jù)的智能分析與優(yōu)化研究[D];中國科學(xué)技術(shù)大學(xué);2016年
6 姜朔;數(shù)據(jù)空間中數(shù)據(jù)集成若干關(guān)鍵問題研究[D];東華大學(xué);2014年
7 陳鵬;面向情景感知計(jì)算的時(shí)空數(shù)據(jù)管理、查詢、分析與相關(guān)算法研究[D];華東師范大學(xué);2013年
8 楊丹;數(shù)據(jù)空間中基于語義的實(shí)體搜索關(guān)鍵技術(shù)研究[D];東北大學(xué);2012年
9 王曉蕊;華北克拉通地球化學(xué)科學(xué)數(shù)據(jù)的管理及應(yīng)用研究[D];中國地質(zhì)大學(xué);2008年
10 張曉東;數(shù)字河口平臺(tái)建設(shè)關(guān)鍵技術(shù)研究[D];中國海洋大學(xué);2009年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 權(quán)西瑞;云環(huán)境下數(shù)據(jù)版權(quán)保護(hù)方法的研究[D];西安建筑科技大學(xué);2015年
2 向兵;中藥顆粒調(diào)劑設(shè)備中輔助硬件及自動(dòng)封口機(jī)的設(shè)計(jì)[D];東北師范大學(xué);2015年
3 朱躍龍;公安情報(bào)自動(dòng)分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2015年
4 張鵬遠(yuǎn);大數(shù)據(jù)分類存儲(chǔ)及檢索方法研究[D];西安電子科技大學(xué);2014年
5 王夢(mèng)佳;DOA下數(shù)據(jù)注冊(cè)方法的初步研究與實(shí)現(xiàn)[D];成都理工大學(xué);2015年
6 王照清;大數(shù)據(jù)環(huán)境下數(shù)據(jù)查詢優(yōu)化技術(shù)應(yīng)用研究[D];北方工業(yè)大學(xué);2016年
7 賈振美;面向稀疏軌跡數(shù)據(jù)的位置預(yù)測(cè)方法研究[D];東北大學(xué);2014年
8 雷德龍;矢量空間數(shù)據(jù)云存儲(chǔ)與馬爾可夫并行聚類算法研究[D];福州大學(xué);2014年
9 王甜甜;國家地理大數(shù)據(jù)戰(zhàn)略平臺(tái)研究[D];中共中央黨校;2016年
10 周躍龍;面向微博客的數(shù)據(jù)可視化設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2016年
,本文編號(hào):2403486
本文鏈接:http://sikaile.net/jingjilunwen/dianzishangwulunwen/2403486.html