天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 碩博論文 > 信息類碩士論文 >

云環(huán)境下海量數(shù)據(jù)查詢處理與分析技術(shù)研究

發(fā)布時(shí)間:2017-06-06 10:01

  本文關(guān)鍵詞:云環(huán)境下海量數(shù)據(jù)查詢處理與分析技術(shù)研究,由筆耕文化傳播整理發(fā)布。


【摘要】:近年來,隨著數(shù)據(jù)量的急劇增長(zhǎng),數(shù)據(jù)處理技術(shù)也同步獲得非常巨大的發(fā)展。有別于過去傳統(tǒng)的數(shù)據(jù)查詢分析技術(shù),借助于云計(jì)算技術(shù)的海量數(shù)據(jù)查詢處理與分析技術(shù)有其本質(zhì)特征。目前,云環(huán)境下的海量數(shù)據(jù)查詢處理與分析技術(shù)仍處于不成熟階段,但其先進(jìn)性和實(shí)用價(jià)值已無可置疑。因此,研究云環(huán)境下的海量數(shù)據(jù)查詢處理與分析技術(shù)具有重要意義,F(xiàn)有的研究已經(jīng)解決了大部分簡(jiǎn)單的查詢處理問題,對(duì)于一些更為復(fù)雜的查詢處理分析問題,要么不能解決,要么效率不高。本文圍繞云環(huán)境下海量數(shù)據(jù)的k近鄰連接查詢,和k Means聚類分析進(jìn)行研究,主要研究工作如下:(1)根據(jù)云環(huán)境下大規(guī)模數(shù)據(jù)查詢處理分析的特點(diǎn),提出了一種適用于多個(gè)具有依賴關(guān)系的Map Reduce任務(wù)的計(jì)算框架——基于數(shù)據(jù)流的計(jì)算框架。由于Map Reduce任務(wù)均需要讀寫分布式文件系統(tǒng),導(dǎo)致Map Reduce不能有效表達(dá)多個(gè)任務(wù)之間依賴關(guān)系。該框架將數(shù)據(jù)處理過程不再按照單任務(wù)建模,而是作為一種數(shù)據(jù)流圖來處理,減少了多個(gè)具有依賴關(guān)系Map Reduce任務(wù)之間的文件存儲(chǔ)。重新組合任務(wù)提高運(yùn)行效率。(2)k-近鄰連接(k NN Join)查詢是空間數(shù)據(jù)庫(kù)中一種常用操作,隨著數(shù)據(jù)呈爆炸式增長(zhǎng),設(shè)計(jì)分布式k-近鄰連接查詢算法成為了目前急需解決的問題。由于現(xiàn)有的分布式k NN Join查詢算法都包括了多輪串行的Map Reduce任務(wù),因此提出了一種基于數(shù)據(jù)流計(jì)算框架上高效的k NN Join算法,利用空間填充曲線(z曲線)將多維數(shù)據(jù)映射為一維數(shù)據(jù),從而將k-近鄰連接查詢轉(zhuǎn)化為一維范圍查詢。(3)傳統(tǒng)的集中式k Means算法已不能適應(yīng)當(dāng)前的數(shù)據(jù)規(guī)!,F(xiàn)有分布式k Means算法是基于Map Reduce計(jì)算框架而且沒有考慮到初始聚類中心的影響。因此,在基于數(shù)據(jù)流框架基礎(chǔ)上,提出了一種高效的k Means算法。該算法采用了基于多次采樣的方式確定初始聚類中心實(shí)現(xiàn)負(fù)載均衡降低算法迭代次數(shù)。(4)對(duì)Hive進(jìn)行了改進(jìn)和擴(kuò)充,針對(duì)空間數(shù)據(jù)查詢處理分析的復(fù)雜性,云環(huán)境下大規(guī)模數(shù)據(jù)查詢處理與分析出現(xiàn)的特點(diǎn)及需求,以Hive大規(guī)模數(shù)據(jù)查詢處理與分析平臺(tái)為基礎(chǔ),對(duì)現(xiàn)有系統(tǒng)進(jìn)行了擴(kuò)充,使其能夠提供對(duì)更為復(fù)雜的查詢處理分析的支持。
【關(guān)鍵詞】:云環(huán)境 數(shù)據(jù)流 k近鄰連接 kMeans聚類
【學(xué)位授予單位】:南京航空航天大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP311.13
【目錄】:
  • 摘要4-5
  • ABSTRACT5-10
  • 第一章 緒論10-17
  • 1.1 課題研究背景和意義10-11
  • 1.2 國(guó)內(nèi)外研究現(xiàn)狀和分析11-14
  • 1.3 本文的主要工作14-15
  • 1.4 本文的組織結(jié)構(gòu)15-17
  • 第二章 相關(guān)技術(shù)背景17-28
  • 2.1 MapReduce模型17-20
  • 2.1.1 MapReduce產(chǎn)生背景17-18
  • 2.1.2 MapReduce編程模型18-19
  • 2.1.3 MapReduce實(shí)現(xiàn)機(jī)制19-20
  • 2.2 kNN查詢技術(shù)20-24
  • 2.2.1 kNN查詢的意義20
  • 2.2.2 kNN查詢方法簡(jiǎn)介20-22
  • 2.2.3 基于R樹的kNN查詢22-23
  • 2.2.4 基于Voronoi的kNN查詢23-24
  • 2.2.5 基于空間填充曲線的kNN查詢24
  • 2.3 聚類分析算法概況24-27
  • 2.3.1 聚類分析方法分類24-26
  • 2.3.2 幾種常用聚類分析算法26-27
  • 2.4 本章小結(jié)27-28
  • 第三章 云環(huán)境下基于數(shù)據(jù)流的K近鄰連接算法28-40
  • 3.1 kNN join查詢定義28-29
  • 3.2 基于數(shù)據(jù)流的計(jì)算框架及IPO運(yùn)行模型29-30
  • 3.3 基于數(shù)據(jù)流的框架下kNN Join算法30-34
  • 3.3.1 z-order曲線的劃分算法31-33
  • 3.3.2 基于數(shù)據(jù)流的kNNJ查詢算法33-34
  • 3.4 代價(jià)分析34-35
  • 3.4.1 通信代價(jià)34-35
  • 3.4.2 計(jì)算代價(jià)35
  • 3.4.3 I/O代價(jià)35
  • 3.5 實(shí)驗(yàn)結(jié)果與分析35-39
  • 3.5.1 實(shí)驗(yàn)設(shè)置35-36
  • 3.5.2 結(jié)果分析36-39
  • 3.6 本章小結(jié)39-40
  • 第四章 云環(huán)境下基于數(shù)據(jù)流的kMeans聚類算法40-49
  • 4.1 傳統(tǒng)的kMeans聚類算法40-41
  • 4.2 基于MapReduce的kMeans聚類算法41-42
  • 4.3 基于數(shù)據(jù)流的kMeans聚類算法42-45
  • 4.3.1 基于數(shù)據(jù)流的初始聚類中心選擇算法42-43
  • 4.3.2 基于數(shù)據(jù)流的kMeans算法(DKmeans)43-45
  • 4.4 代價(jià)分析45
  • 4.5 實(shí)驗(yàn)與性能評(píng)估45-48
  • 4.5.1 實(shí)驗(yàn)設(shè)置45-46
  • 4.5.2 實(shí)驗(yàn)結(jié)果分析46-48
  • 4.6 本章小結(jié)48-49
  • 第五章 基于Hive改進(jìn)的大數(shù)據(jù)查詢分析系統(tǒng)49-63
  • 5.1 改進(jìn)Hive大數(shù)據(jù)查詢分析系統(tǒng)的背景及目的49-50
  • 5.2 Hive體系結(jié)構(gòu)及改進(jìn)部分介紹50-51
  • 5.3 Hive改進(jìn)模塊的設(shè)計(jì)與實(shí)現(xiàn)51-62
  • 5.3.1 詞法語法分析模塊51-55
  • 5.3.2 語義分析模塊55-57
  • 5.3.3 邏輯計(jì)劃生成與優(yōu)化57-59
  • 5.3.4 物理計(jì)劃生成與優(yōu)化59-61
  • 5.3.5 kNN join與kMeans語句執(zhí)行流程61-62
  • 5.4 本章小結(jié)62-63
  • 第六章 結(jié)束語63-65
  • 6.1 本文小結(jié)63-64
  • 6.2 本文的不足和未來的研究方向64-65
  • 參考文獻(xiàn)65-70
  • 致謝70-71
  • 在學(xué)期間的研究成果及發(fā)表的學(xué)術(shù)論文71

【相似文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 李北星;分布式數(shù)據(jù)庫(kù)管理系統(tǒng)中的查詢處理設(shè)計(jì)[J];計(jì)算機(jī)工程與設(shè)計(jì);1987年03期

2 T.F.Keefe ,M.B.Thuraisingham ,W.T.Tsai ,范宏深;安全查詢處理策略[J];計(jì)算機(jī)工程與科學(xué);1991年01期

3 李芝棠,朱儉,殷軍,張江陵;單關(guān)系查詢處理機(jī)的任務(wù)生成[J];計(jì)算機(jī)應(yīng)用;1992年02期

4 馮志林;分布式數(shù)據(jù)庫(kù)系統(tǒng)中基于半連接的查詢處理[J];計(jì)算機(jī)應(yīng)用與軟件;1989年03期

5 郝忠孝,,馬宗民,胡春海;基于空值環(huán)境下擴(kuò)展關(guān)系模型的查詢處理研究[J];計(jì)算機(jī)研究與發(fā)展;1994年10期

6 馮玉才,張鵬程;基于近似查詢的在線分組聚集及其應(yīng)用[J];計(jì)算機(jī)工程;2005年16期

7 黃艷;朱會(huì)東;;一種基于移動(dòng)Agent的查詢處理策略[J];計(jì)算機(jī)工程;2007年01期

8 錢江波;徐宏炳;董逸生;劉學(xué)軍;王永利;楊雪梅;;共享連接結(jié)果的連續(xù)查詢處理[J];東南大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年01期

9 肖予欽,張巨,景寧,李軍;基于R樹的方向關(guān)系查詢處理[J];軟件學(xué)報(bào);2004年01期

10 李國(guó)祿;分布式數(shù)據(jù)庫(kù)系統(tǒng)中的查詢處理[J];青海師專學(xué)報(bào).教育科學(xué);2005年S3期

中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條

1 韓璐;王朝坤;鄒鵬;徐亞軍;;不確定圖數(shù)據(jù)上的不確定查詢處理[A];NDBC2010第27屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)[C];2010年

2 陳紅;王珊;;多階段并行多查詢處理框架[A];第十七屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2000年

3 陳良剛;劉震;施伯樂;;位置相關(guān)查詢處理[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2002年

4 廖巍;景寧;李軍;吳秋云;;一種通用的可伸縮增量連續(xù)查詢處理框架[A];第二十三屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2006年

5 朱金清;王偉;周軍鋒;孟小峰;;基于相關(guān)性語義的高效XML Twig查詢處理方法[A];第二十五屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(二)[C];2008年

6 夏添;蔡文淵;徐林昊;錢衛(wèi)寧;周水庚;周傲英;;P2P環(huán)境下的查詢處理代價(jià)估算[A];第二十屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2003年

7 祝遠(yuǎn)玲;馮玉;王珊;;PBASE的并行查詢處理策略[A];數(shù)據(jù)庫(kù)研究與進(jìn)展95——第十三屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集[C];1995年

8 丁治明;郭黎敏;;一種支持通用θ-Join的并行查詢處理機(jī)制[A];NDBC2010第27屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)[C];2010年

9 熊蜀光;李建中;王宏志;高宏;;一種基于編碼的圖模型XML數(shù)據(jù)的存儲(chǔ)與查詢處理方法[A];第二十三屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2006年

10 肖剛;莊嚴(yán);鄭振楣;石樹剛;;SamBase中的對(duì)象查詢處理[A];數(shù)據(jù)庫(kù)研究與進(jìn)展95——第十三屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集[C];1995年

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前8條

1 劉鼎甲;基于關(guān)系模型的語料庫(kù)查詢處理問題研究[D];燕山大學(xué);2015年

2 鄧波;分布式序敏感查詢處理關(guān)鍵技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2006年

3 陳紅;并行多查詢處理關(guān)鍵技術(shù)研究[D];中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所);2000年

4 王振華;P2P環(huán)境下查詢處理關(guān)鍵技術(shù)的研究[D];東北大學(xué);2011年

5 吳愛華;不一致數(shù)據(jù)的查詢處理[D];復(fù)旦大學(xué);2010年

6 李曉光;XML非完全結(jié)構(gòu)查詢處理中若干關(guān)鍵技術(shù)的研究[D];東北大學(xué);2006年

7 張蓉;結(jié)構(gòu)化對(duì)等計(jì)算機(jī)系統(tǒng)中的查詢處理[D];復(fù)旦大學(xué);2007年

8 李瑞軒;異構(gòu)信息集成中的查詢處理與優(yōu)化研究[D];華中科技大學(xué);2004年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 Les Kimball Kamara;連接數(shù)據(jù)知識(shí)庫(kù)語義查詢處理[D];東北大學(xué);2014年

2 王飛;云環(huán)境下海量數(shù)據(jù)查詢處理與分析技術(shù)研究[D];南京航空航天大學(xué);2015年

3 曹佩;延遲容忍網(wǎng)絡(luò)的訂閱查詢處理[D];寧波大學(xué);2013年

4 劉偉偉;分布式空間信息集成查詢處理關(guān)鍵技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2009年

5 李東亮;不確定多媒體數(shù)據(jù)個(gè)性化查詢處理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];華中科技大學(xué);2012年

6 武亮亮;增量的連續(xù)k近鄰查詢處理方法的研究[D];燕山大學(xué);2010年

7 李義國(guó);基于不完全約束的XML查詢處理關(guān)鍵技術(shù)研究[D];燕山大學(xué);2010年

8 熊蜀光;圖模型XML數(shù)據(jù)上查詢處理方法的研究[D];哈爾濱工業(yè)大學(xué);2006年

9 曲東;面向Ziv-Lempel壓縮文本的多查詢處理技術(shù)[D];東北大學(xué);2010年

10 劉英童;P2P環(huán)境下基于模式匹配的復(fù)雜查詢處理的研究[D];哈爾濱工業(yè)大學(xué);2007年


  本文關(guān)鍵詞:云環(huán)境下海量數(shù)據(jù)查詢處理與分析技術(shù)研究,由筆耕文化傳播整理發(fā)布。



本文編號(hào):426005

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/426005.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶ee276***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com