云環(huán)境下海量數(shù)據(jù)查詢處理與分析技術(shù)研究
本文關(guān)鍵詞:云環(huán)境下海量數(shù)據(jù)查詢處理與分析技術(shù)研究,由筆耕文化傳播整理發(fā)布。
【摘要】:近年來,隨著數(shù)據(jù)量的急劇增長(zhǎng),數(shù)據(jù)處理技術(shù)也同步獲得非常巨大的發(fā)展。有別于過去傳統(tǒng)的數(shù)據(jù)查詢分析技術(shù),借助于云計(jì)算技術(shù)的海量數(shù)據(jù)查詢處理與分析技術(shù)有其本質(zhì)特征。目前,云環(huán)境下的海量數(shù)據(jù)查詢處理與分析技術(shù)仍處于不成熟階段,但其先進(jìn)性和實(shí)用價(jià)值已無可置疑。因此,研究云環(huán)境下的海量數(shù)據(jù)查詢處理與分析技術(shù)具有重要意義,F(xiàn)有的研究已經(jīng)解決了大部分簡(jiǎn)單的查詢處理問題,對(duì)于一些更為復(fù)雜的查詢處理分析問題,要么不能解決,要么效率不高。本文圍繞云環(huán)境下海量數(shù)據(jù)的k近鄰連接查詢,和k Means聚類分析進(jìn)行研究,主要研究工作如下:(1)根據(jù)云環(huán)境下大規(guī)模數(shù)據(jù)查詢處理分析的特點(diǎn),提出了一種適用于多個(gè)具有依賴關(guān)系的Map Reduce任務(wù)的計(jì)算框架——基于數(shù)據(jù)流的計(jì)算框架。由于Map Reduce任務(wù)均需要讀寫分布式文件系統(tǒng),導(dǎo)致Map Reduce不能有效表達(dá)多個(gè)任務(wù)之間依賴關(guān)系。該框架將數(shù)據(jù)處理過程不再按照單任務(wù)建模,而是作為一種數(shù)據(jù)流圖來處理,減少了多個(gè)具有依賴關(guān)系Map Reduce任務(wù)之間的文件存儲(chǔ)。重新組合任務(wù)提高運(yùn)行效率。(2)k-近鄰連接(k NN Join)查詢是空間數(shù)據(jù)庫(kù)中一種常用操作,隨著數(shù)據(jù)呈爆炸式增長(zhǎng),設(shè)計(jì)分布式k-近鄰連接查詢算法成為了目前急需解決的問題。由于現(xiàn)有的分布式k NN Join查詢算法都包括了多輪串行的Map Reduce任務(wù),因此提出了一種基于數(shù)據(jù)流計(jì)算框架上高效的k NN Join算法,利用空間填充曲線(z曲線)將多維數(shù)據(jù)映射為一維數(shù)據(jù),從而將k-近鄰連接查詢轉(zhuǎn)化為一維范圍查詢。(3)傳統(tǒng)的集中式k Means算法已不能適應(yīng)當(dāng)前的數(shù)據(jù)規(guī)!,F(xiàn)有分布式k Means算法是基于Map Reduce計(jì)算框架而且沒有考慮到初始聚類中心的影響。因此,在基于數(shù)據(jù)流框架基礎(chǔ)上,提出了一種高效的k Means算法。該算法采用了基于多次采樣的方式確定初始聚類中心實(shí)現(xiàn)負(fù)載均衡降低算法迭代次數(shù)。(4)對(duì)Hive進(jìn)行了改進(jìn)和擴(kuò)充,針對(duì)空間數(shù)據(jù)查詢處理分析的復(fù)雜性,云環(huán)境下大規(guī)模數(shù)據(jù)查詢處理與分析出現(xiàn)的特點(diǎn)及需求,以Hive大規(guī)模數(shù)據(jù)查詢處理與分析平臺(tái)為基礎(chǔ),對(duì)現(xiàn)有系統(tǒng)進(jìn)行了擴(kuò)充,使其能夠提供對(duì)更為復(fù)雜的查詢處理分析的支持。
【關(guān)鍵詞】:云環(huán)境 數(shù)據(jù)流 k近鄰連接 kMeans聚類
【學(xué)位授予單位】:南京航空航天大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP311.13
【目錄】:
- 摘要4-5
- ABSTRACT5-10
- 第一章 緒論10-17
- 1.1 課題研究背景和意義10-11
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀和分析11-14
- 1.3 本文的主要工作14-15
- 1.4 本文的組織結(jié)構(gòu)15-17
- 第二章 相關(guān)技術(shù)背景17-28
- 2.1 MapReduce模型17-20
- 2.1.1 MapReduce產(chǎn)生背景17-18
- 2.1.2 MapReduce編程模型18-19
- 2.1.3 MapReduce實(shí)現(xiàn)機(jī)制19-20
- 2.2 kNN查詢技術(shù)20-24
- 2.2.1 kNN查詢的意義20
- 2.2.2 kNN查詢方法簡(jiǎn)介20-22
- 2.2.3 基于R樹的kNN查詢22-23
- 2.2.4 基于Voronoi的kNN查詢23-24
- 2.2.5 基于空間填充曲線的kNN查詢24
- 2.3 聚類分析算法概況24-27
- 2.3.1 聚類分析方法分類24-26
- 2.3.2 幾種常用聚類分析算法26-27
- 2.4 本章小結(jié)27-28
- 第三章 云環(huán)境下基于數(shù)據(jù)流的K近鄰連接算法28-40
- 3.1 kNN join查詢定義28-29
- 3.2 基于數(shù)據(jù)流的計(jì)算框架及IPO運(yùn)行模型29-30
- 3.3 基于數(shù)據(jù)流的框架下kNN Join算法30-34
- 3.3.1 z-order曲線的劃分算法31-33
- 3.3.2 基于數(shù)據(jù)流的kNNJ查詢算法33-34
- 3.4 代價(jià)分析34-35
- 3.4.1 通信代價(jià)34-35
- 3.4.2 計(jì)算代價(jià)35
- 3.4.3 I/O代價(jià)35
- 3.5 實(shí)驗(yàn)結(jié)果與分析35-39
- 3.5.1 實(shí)驗(yàn)設(shè)置35-36
- 3.5.2 結(jié)果分析36-39
- 3.6 本章小結(jié)39-40
- 第四章 云環(huán)境下基于數(shù)據(jù)流的kMeans聚類算法40-49
- 4.1 傳統(tǒng)的kMeans聚類算法40-41
- 4.2 基于MapReduce的kMeans聚類算法41-42
- 4.3 基于數(shù)據(jù)流的kMeans聚類算法42-45
- 4.3.1 基于數(shù)據(jù)流的初始聚類中心選擇算法42-43
- 4.3.2 基于數(shù)據(jù)流的kMeans算法(DKmeans)43-45
- 4.4 代價(jià)分析45
- 4.5 實(shí)驗(yàn)與性能評(píng)估45-48
- 4.5.1 實(shí)驗(yàn)設(shè)置45-46
- 4.5.2 實(shí)驗(yàn)結(jié)果分析46-48
- 4.6 本章小結(jié)48-49
- 第五章 基于Hive改進(jìn)的大數(shù)據(jù)查詢分析系統(tǒng)49-63
- 5.1 改進(jìn)Hive大數(shù)據(jù)查詢分析系統(tǒng)的背景及目的49-50
- 5.2 Hive體系結(jié)構(gòu)及改進(jìn)部分介紹50-51
- 5.3 Hive改進(jìn)模塊的設(shè)計(jì)與實(shí)現(xiàn)51-62
- 5.3.1 詞法語法分析模塊51-55
- 5.3.2 語義分析模塊55-57
- 5.3.3 邏輯計(jì)劃生成與優(yōu)化57-59
- 5.3.4 物理計(jì)劃生成與優(yōu)化59-61
- 5.3.5 kNN join與kMeans語句執(zhí)行流程61-62
- 5.4 本章小結(jié)62-63
- 第六章 結(jié)束語63-65
- 6.1 本文小結(jié)63-64
- 6.2 本文的不足和未來的研究方向64-65
- 參考文獻(xiàn)65-70
- 致謝70-71
- 在學(xué)期間的研究成果及發(fā)表的學(xué)術(shù)論文71
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 李北星;分布式數(shù)據(jù)庫(kù)管理系統(tǒng)中的查詢處理設(shè)計(jì)[J];計(jì)算機(jī)工程與設(shè)計(jì);1987年03期
2 T.F.Keefe ,M.B.Thuraisingham ,W.T.Tsai ,范宏深;安全查詢處理策略[J];計(jì)算機(jī)工程與科學(xué);1991年01期
3 李芝棠,朱儉,殷軍,張江陵;單關(guān)系查詢處理機(jī)的任務(wù)生成[J];計(jì)算機(jī)應(yīng)用;1992年02期
4 馮志林;分布式數(shù)據(jù)庫(kù)系統(tǒng)中基于半連接的查詢處理[J];計(jì)算機(jī)應(yīng)用與軟件;1989年03期
5 郝忠孝,,馬宗民,胡春海;基于空值環(huán)境下擴(kuò)展關(guān)系模型的查詢處理研究[J];計(jì)算機(jī)研究與發(fā)展;1994年10期
6 馮玉才,張鵬程;基于近似查詢的在線分組聚集及其應(yīng)用[J];計(jì)算機(jī)工程;2005年16期
7 黃艷;朱會(huì)東;;一種基于移動(dòng)Agent的查詢處理策略[J];計(jì)算機(jī)工程;2007年01期
8 錢江波;徐宏炳;董逸生;劉學(xué)軍;王永利;楊雪梅;;共享連接結(jié)果的連續(xù)查詢處理[J];東南大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年01期
9 肖予欽,張巨,景寧,李軍;基于R樹的方向關(guān)系查詢處理[J];軟件學(xué)報(bào);2004年01期
10 李國(guó)祿;分布式數(shù)據(jù)庫(kù)系統(tǒng)中的查詢處理[J];青海師專學(xué)報(bào).教育科學(xué);2005年S3期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 韓璐;王朝坤;鄒鵬;徐亞軍;;不確定圖數(shù)據(jù)上的不確定查詢處理[A];NDBC2010第27屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)[C];2010年
2 陳紅;王珊;;多階段并行多查詢處理框架[A];第十七屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2000年
3 陳良剛;劉震;施伯樂;;位置相關(guān)查詢處理[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2002年
4 廖巍;景寧;李軍;吳秋云;;一種通用的可伸縮增量連續(xù)查詢處理框架[A];第二十三屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2006年
5 朱金清;王偉;周軍鋒;孟小峰;;基于相關(guān)性語義的高效XML Twig查詢處理方法[A];第二十五屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(二)[C];2008年
6 夏添;蔡文淵;徐林昊;錢衛(wèi)寧;周水庚;周傲英;;P2P環(huán)境下的查詢處理代價(jià)估算[A];第二十屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2003年
7 祝遠(yuǎn)玲;馮玉;王珊;;PBASE的并行查詢處理策略[A];數(shù)據(jù)庫(kù)研究與進(jìn)展95——第十三屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集[C];1995年
8 丁治明;郭黎敏;;一種支持通用θ-Join的并行查詢處理機(jī)制[A];NDBC2010第27屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)[C];2010年
9 熊蜀光;李建中;王宏志;高宏;;一種基于編碼的圖模型XML數(shù)據(jù)的存儲(chǔ)與查詢處理方法[A];第二十三屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2006年
10 肖剛;莊嚴(yán);鄭振楣;石樹剛;;SamBase中的對(duì)象查詢處理[A];數(shù)據(jù)庫(kù)研究與進(jìn)展95——第十三屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集[C];1995年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前8條
1 劉鼎甲;基于關(guān)系模型的語料庫(kù)查詢處理問題研究[D];燕山大學(xué);2015年
2 鄧波;分布式序敏感查詢處理關(guān)鍵技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2006年
3 陳紅;并行多查詢處理關(guān)鍵技術(shù)研究[D];中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所);2000年
4 王振華;P2P環(huán)境下查詢處理關(guān)鍵技術(shù)的研究[D];東北大學(xué);2011年
5 吳愛華;不一致數(shù)據(jù)的查詢處理[D];復(fù)旦大學(xué);2010年
6 李曉光;XML非完全結(jié)構(gòu)查詢處理中若干關(guān)鍵技術(shù)的研究[D];東北大學(xué);2006年
7 張蓉;結(jié)構(gòu)化對(duì)等計(jì)算機(jī)系統(tǒng)中的查詢處理[D];復(fù)旦大學(xué);2007年
8 李瑞軒;異構(gòu)信息集成中的查詢處理與優(yōu)化研究[D];華中科技大學(xué);2004年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 Les Kimball Kamara;連接數(shù)據(jù)知識(shí)庫(kù)語義查詢處理[D];東北大學(xué);2014年
2 王飛;云環(huán)境下海量數(shù)據(jù)查詢處理與分析技術(shù)研究[D];南京航空航天大學(xué);2015年
3 曹佩;延遲容忍網(wǎng)絡(luò)的訂閱查詢處理[D];寧波大學(xué);2013年
4 劉偉偉;分布式空間信息集成查詢處理關(guān)鍵技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2009年
5 李東亮;不確定多媒體數(shù)據(jù)個(gè)性化查詢處理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];華中科技大學(xué);2012年
6 武亮亮;增量的連續(xù)k近鄰查詢處理方法的研究[D];燕山大學(xué);2010年
7 李義國(guó);基于不完全約束的XML查詢處理關(guān)鍵技術(shù)研究[D];燕山大學(xué);2010年
8 熊蜀光;圖模型XML數(shù)據(jù)上查詢處理方法的研究[D];哈爾濱工業(yè)大學(xué);2006年
9 曲東;面向Ziv-Lempel壓縮文本的多查詢處理技術(shù)[D];東北大學(xué);2010年
10 劉英童;P2P環(huán)境下基于模式匹配的復(fù)雜查詢處理的研究[D];哈爾濱工業(yè)大學(xué);2007年
本文關(guān)鍵詞:云環(huán)境下海量數(shù)據(jù)查詢處理與分析技術(shù)研究,由筆耕文化傳播整理發(fā)布。
本文編號(hào):426005
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/426005.html