天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

大數(shù)據(jù)索引技術(shù)關(guān)鍵問題研究

發(fā)布時(shí)間:2019-01-07 09:11
【摘要】:近幾十年來,隨著各行各業(yè)的高度信息化,尤其是科學(xué)研究、互聯(lián)網(wǎng)、電子商務(wù)領(lǐng)域等的發(fā)展,數(shù)據(jù)正在以前所未有的速度飛快增長(zhǎng),大數(shù)據(jù)時(shí)代已經(jīng)到來。如何有效的管理大數(shù)據(jù),提高大數(shù)據(jù)的查詢分析能力,是工業(yè)界和學(xué)術(shù)界的研究熱點(diǎn)。索引技術(shù)是提高數(shù)據(jù)查詢處理的有效方式,大數(shù)據(jù)存儲(chǔ)方式的根本改變,使得原有的傳統(tǒng)關(guān)系型數(shù)據(jù)庫中成熟的索引技術(shù)不能直接應(yīng)用于海量數(shù)據(jù)處理,大數(shù)據(jù)的海量性及復(fù)雜性等特征,要求大數(shù)據(jù)的索引機(jī)制必須滿足支持多種查詢、支持高效檢索和易于維護(hù)等要求。為了解決大數(shù)據(jù)查詢處理問題,需要針對(duì)大數(shù)據(jù)環(huán)境建立新的索引結(jié)構(gòu)。本文提出了一種Hadoop下的基于位置編碼索引樹,利用MapReduce編程模型在處理大規(guī)模數(shù)據(jù)的優(yōu)勢(shì),根據(jù)KNN查詢的特點(diǎn),提出MapReduce框架下的數(shù)據(jù)存儲(chǔ)優(yōu)化策略,通過將相似資源分開存儲(chǔ),達(dá)到在進(jìn)行查詢過程時(shí),最大限度的提高M(jìn)apReduce的并行性。首先將海量數(shù)據(jù)進(jìn)行聚類,然后根據(jù)聚類數(shù)據(jù)分布特征,以質(zhì)心為圓心對(duì)聚類中的數(shù)據(jù)對(duì)象進(jìn)行同心圓分層,并對(duì)每層采用不同長(zhǎng)度的二進(jìn)制編碼來表達(dá),將所有數(shù)據(jù)對(duì)象的編碼組織成索引樹結(jié)構(gòu),縮短頻繁查詢的數(shù)據(jù)查找路徑,達(dá)到查詢時(shí)利用索引結(jié)構(gòu)快速確定搜索空間目的,從而提高大數(shù)據(jù)檢索效率。本文通過實(shí)驗(yàn)驗(yàn)證提出方法的有效性。從數(shù)據(jù)規(guī)模對(duì)查詢效率影響、擴(kuò)展性、K值對(duì)查詢時(shí)間的影響以及跟非索引結(jié)構(gòu)下的對(duì)比,實(shí)驗(yàn)結(jié)果表明本文提出的Hadoop下的基于位置編碼索引樹在KNN查詢時(shí)查詢效率具有明顯提升并具有良好的擴(kuò)展性。
[Abstract]:In recent decades, with the development of various industries, especially the development of scientific research, Internet, e-commerce and so on, the data is increasing at an unprecedented speed, big data era has come. How to effectively manage big data and improve big data's query and analysis ability is a hot research topic in industry and academia. Indexing technology is an effective way to improve data query processing, big data storage mode is fundamentally changed, so that the original traditional relational database in the mature index technology can not be directly applied to mass data processing, Big data's characteristics of magnanimity and complexity require big data's indexing mechanism to meet the requirements of supporting multiple queries, efficient retrieval and easy maintenance. In order to solve the query processing problem of big data, it is necessary to build a new index structure for big data environment. In this paper, a location-coded index tree based on Hadoop is proposed. The advantage of MapReduce programming model in dealing with large scale data is utilized. According to the characteristics of KNN query, the optimization strategy of data storage under MapReduce framework is put forward, and the similar resources are stored separately. In the process of query, the parallelism of MapReduce can be maximized. Firstly, the massive data are clustered, and then, according to the distribution characteristics of the clustering data, the data objects in the cluster are stratified by concentric circle with centroid, and each layer is expressed by binary coding of different lengths. The coding of all data objects is organized into an index tree structure, which shortens the search path of frequently queried data, and makes use of the index structure to determine the search space quickly, so as to improve the efficiency of big data retrieval. The effectiveness of the proposed method is verified by experiments in this paper. From the effect of data size on query efficiency, scalability, K value on query time and compared with non-index structure, The experimental results show that the proposed location-coded index tree under Hadoop can improve the query efficiency of KNN query and has a good expansibility.
【學(xué)位授予單位】:湖北大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP311.13

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 郭瑩;;數(shù)據(jù)空間關(guān)鍵問題探究[J];軟件導(dǎo)刊;2012年07期

2 厲劍;張紹雄;劉俊杰;李成柱;;大數(shù)據(jù)引發(fā)信息時(shí)代新變革[J];大眾科技;2013年12期

3 李斌;;大數(shù)據(jù)及其發(fā)展趨勢(shì)研究[J];廣西教育;2013年35期

4 張曉軍;孟祥武;;數(shù)字化周期[J];計(jì)算機(jī)科學(xué);2002年05期

5 崔晨;吳揚(yáng)揚(yáng);;基于活動(dòng)的數(shù)據(jù)空間數(shù)據(jù)關(guān)系發(fā)現(xiàn)[J];微型機(jī)與應(yīng)用;2011年11期

6 賈云得;;微型數(shù)字存貯遙測(cè)裝置數(shù)據(jù)預(yù)存貯方法[J];遙測(cè)遙控;1989年06期

7 靳小龍;王元卓;程學(xué)旗;;大數(shù)據(jù)的研究體系與現(xiàn)狀[J];信息通信技術(shù);2013年06期

8 朝樂門;;數(shù)據(jù)空間及其信息資源管理視角研究[J];情報(bào)理論與實(shí)踐;2013年11期

9 黃一凡;;合并分區(qū) 數(shù)據(jù)無損有妙招[J];電腦愛好者;2011年23期

10 葛敬軍;胡長(zhǎng)軍;劉歆;李揚(yáng);劉震宇;;面向領(lǐng)域科學(xué)數(shù)據(jù)的虛擬數(shù)據(jù)空間共享模型[J];小型微型計(jì)算機(jī)系統(tǒng);2014年03期

中國重要會(huì)議論文全文數(shù)據(jù)庫 前5條

1 李鴻奎;陳洪艷;;大連市房地產(chǎn)基礎(chǔ)地理信息系統(tǒng)的設(shè)計(jì)和建設(shè)[A];中國地理信息系統(tǒng)協(xié)會(huì)第九屆年會(huì)論文集[C];2005年

2 董彥磊;申德榮;寇月;聶鐵錚;;數(shù)據(jù)空間中數(shù)據(jù)組織模型以及關(guān)聯(lián)關(guān)系發(fā)現(xiàn)模型的研究[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(B輯)[C];2009年

3 龐怡;許洪光;張志敏;;針對(duì)海量科技信息的存儲(chǔ)研究[A];信息時(shí)代——科技情報(bào)研究學(xué)術(shù)論文集(第三輯)[C];2008年

4 季承;;Oracle利用HWM高水標(biāo)記收縮數(shù)據(jù)空間方案[A];2013電力行業(yè)信息化年會(huì)論文集[C];2013年

5 季承;;Oracle利用HWM高水標(biāo)記收縮數(shù)據(jù)空間方案[A];2013電力行業(yè)信息化年會(huì)論文集[C];2013年

中國重要報(bào)紙全文數(shù)據(jù)庫 前6條

1 牛澤亞;用戶如何在數(shù)據(jù)空間里“被遺忘”?[N];人民郵電;2014年

2 風(fēng)格;指引大數(shù)據(jù)未來發(fā)展方向的九大真理[N];中華讀書報(bào);2013年

3 錄音整理 本報(bào)記者 劉文強(qiáng) 楊豐源;創(chuàng)新驅(qū)動(dòng),奮力奔向大數(shù)據(jù)時(shí)代[N];貴陽日?qǐng)?bào);2014年

4 中國人民大學(xué)信息學(xué)院 李玉坤;云計(jì)算與數(shù)據(jù)空間[N];中國計(jì)算機(jī)報(bào);2008年

5 整理 本報(bào)記者 蘇丹丹;把握大數(shù)據(jù)機(jī)遇 推動(dòng)文化產(chǎn)業(yè)跨越發(fā)展[N];中國文化報(bào);2013年

6 安徽國稅局 趙為民;稅務(wù)綜合數(shù)據(jù)平臺(tái)的設(shè)想[N];計(jì)算機(jī)世界;2007年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 李曉娜;面向SaaS應(yīng)用的多租戶數(shù)據(jù)放置機(jī)制研究[D];山東大學(xué);2015年

2 張德兵;基于機(jī)器學(xué)習(xí)的數(shù)據(jù)補(bǔ)全、標(biāo)注和檢索若干問題研究[D];浙江大學(xué);2015年

3 劉思彤;空間文本數(shù)據(jù)的查詢處理技術(shù)研究[D];清華大學(xué);2015年

4 侯振隆;重力全張量梯度數(shù)據(jù)的并行反演算法研究及應(yīng)用[D];吉林大學(xué);2016年

5 柯余洋;面向三類應(yīng)用數(shù)據(jù)的智能分析與優(yōu)化研究[D];中國科學(xué)技術(shù)大學(xué);2016年

6 姜朔;數(shù)據(jù)空間中數(shù)據(jù)集成若干關(guān)鍵問題研究[D];東華大學(xué);2014年

7 陳鵬;面向情景感知計(jì)算的時(shí)空數(shù)據(jù)管理、查詢、分析與相關(guān)算法研究[D];華東師范大學(xué);2013年

8 楊丹;數(shù)據(jù)空間中基于語義的實(shí)體搜索關(guān)鍵技術(shù)研究[D];東北大學(xué);2012年

9 王曉蕊;華北克拉通地球化學(xué)科學(xué)數(shù)據(jù)的管理及應(yīng)用研究[D];中國地質(zhì)大學(xué);2008年

10 張曉東;數(shù)字河口平臺(tái)建設(shè)關(guān)鍵技術(shù)研究[D];中國海洋大學(xué);2009年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 權(quán)西瑞;云環(huán)境下數(shù)據(jù)版權(quán)保護(hù)方法的研究[D];西安建筑科技大學(xué);2015年

2 向兵;中藥顆粒調(diào)劑設(shè)備中輔助硬件及自動(dòng)封口機(jī)的設(shè)計(jì)[D];東北師范大學(xué);2015年

3 朱躍龍;公安情報(bào)自動(dòng)分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2015年

4 張鵬遠(yuǎn);大數(shù)據(jù)分類存儲(chǔ)及檢索方法研究[D];西安電子科技大學(xué);2014年

5 王夢(mèng)佳;DOA下數(shù)據(jù)注冊(cè)方法的初步研究與實(shí)現(xiàn)[D];成都理工大學(xué);2015年

6 王照清;大數(shù)據(jù)環(huán)境下數(shù)據(jù)查詢優(yōu)化技術(shù)應(yīng)用研究[D];北方工業(yè)大學(xué);2016年

7 賈振美;面向稀疏軌跡數(shù)據(jù)的位置預(yù)測(cè)方法研究[D];東北大學(xué);2014年

8 雷德龍;矢量空間數(shù)據(jù)云存儲(chǔ)與馬爾可夫并行聚類算法研究[D];福州大學(xué);2014年

9 王甜甜;國家地理大數(shù)據(jù)戰(zhàn)略平臺(tái)研究[D];中共中央黨校;2016年

10 周躍龍;面向微博客的數(shù)據(jù)可視化設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2016年

,

本文編號(hào):2403486

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/jingjilunwen/dianzishangwulunwen/2403486.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶b78a2***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com