天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

云環(huán)境下海量數(shù)據(jù)查詢處理與分析技術研究

發(fā)布時間:2017-06-06 10:01

  本文關鍵詞:云環(huán)境下海量數(shù)據(jù)查詢處理與分析技術研究,由筆耕文化傳播整理發(fā)布。


【摘要】:近年來,隨著數(shù)據(jù)量的急劇增長,數(shù)據(jù)處理技術也同步獲得非常巨大的發(fā)展。有別于過去傳統(tǒng)的數(shù)據(jù)查詢分析技術,借助于云計算技術的海量數(shù)據(jù)查詢處理與分析技術有其本質(zhì)特征。目前,云環(huán)境下的海量數(shù)據(jù)查詢處理與分析技術仍處于不成熟階段,但其先進性和實用價值已無可置疑。因此,研究云環(huán)境下的海量數(shù)據(jù)查詢處理與分析技術具有重要意義。現(xiàn)有的研究已經(jīng)解決了大部分簡單的查詢處理問題,對于一些更為復雜的查詢處理分析問題,要么不能解決,要么效率不高。本文圍繞云環(huán)境下海量數(shù)據(jù)的k近鄰連接查詢,和k Means聚類分析進行研究,主要研究工作如下:(1)根據(jù)云環(huán)境下大規(guī)模數(shù)據(jù)查詢處理分析的特點,提出了一種適用于多個具有依賴關系的Map Reduce任務的計算框架——基于數(shù)據(jù)流的計算框架。由于Map Reduce任務均需要讀寫分布式文件系統(tǒng),導致Map Reduce不能有效表達多個任務之間依賴關系。該框架將數(shù)據(jù)處理過程不再按照單任務建模,而是作為一種數(shù)據(jù)流圖來處理,減少了多個具有依賴關系Map Reduce任務之間的文件存儲。重新組合任務提高運行效率。(2)k-近鄰連接(k NN Join)查詢是空間數(shù)據(jù)庫中一種常用操作,隨著數(shù)據(jù)呈爆炸式增長,設計分布式k-近鄰連接查詢算法成為了目前急需解決的問題。由于現(xiàn)有的分布式k NN Join查詢算法都包括了多輪串行的Map Reduce任務,因此提出了一種基于數(shù)據(jù)流計算框架上高效的k NN Join算法,利用空間填充曲線(z曲線)將多維數(shù)據(jù)映射為一維數(shù)據(jù),從而將k-近鄰連接查詢轉(zhuǎn)化為一維范圍查詢。(3)傳統(tǒng)的集中式k Means算法已不能適應當前的數(shù)據(jù)規(guī)模,F(xiàn)有分布式k Means算法是基于Map Reduce計算框架而且沒有考慮到初始聚類中心的影響。因此,在基于數(shù)據(jù)流框架基礎上,提出了一種高效的k Means算法。該算法采用了基于多次采樣的方式確定初始聚類中心實現(xiàn)負載均衡降低算法迭代次數(shù)。(4)對Hive進行了改進和擴充,針對空間數(shù)據(jù)查詢處理分析的復雜性,云環(huán)境下大規(guī)模數(shù)據(jù)查詢處理與分析出現(xiàn)的特點及需求,以Hive大規(guī)模數(shù)據(jù)查詢處理與分析平臺為基礎,對現(xiàn)有系統(tǒng)進行了擴充,使其能夠提供對更為復雜的查詢處理分析的支持。
【關鍵詞】:云環(huán)境 數(shù)據(jù)流 k近鄰連接 kMeans聚類
【學位授予單位】:南京航空航天大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP311.13
【目錄】:
  • 摘要4-5
  • ABSTRACT5-10
  • 第一章 緒論10-17
  • 1.1 課題研究背景和意義10-11
  • 1.2 國內(nèi)外研究現(xiàn)狀和分析11-14
  • 1.3 本文的主要工作14-15
  • 1.4 本文的組織結(jié)構(gòu)15-17
  • 第二章 相關技術背景17-28
  • 2.1 MapReduce模型17-20
  • 2.1.1 MapReduce產(chǎn)生背景17-18
  • 2.1.2 MapReduce編程模型18-19
  • 2.1.3 MapReduce實現(xiàn)機制19-20
  • 2.2 kNN查詢技術20-24
  • 2.2.1 kNN查詢的意義20
  • 2.2.2 kNN查詢方法簡介20-22
  • 2.2.3 基于R樹的kNN查詢22-23
  • 2.2.4 基于Voronoi的kNN查詢23-24
  • 2.2.5 基于空間填充曲線的kNN查詢24
  • 2.3 聚類分析算法概況24-27
  • 2.3.1 聚類分析方法分類24-26
  • 2.3.2 幾種常用聚類分析算法26-27
  • 2.4 本章小結(jié)27-28
  • 第三章 云環(huán)境下基于數(shù)據(jù)流的K近鄰連接算法28-40
  • 3.1 kNN join查詢定義28-29
  • 3.2 基于數(shù)據(jù)流的計算框架及IPO運行模型29-30
  • 3.3 基于數(shù)據(jù)流的框架下kNN Join算法30-34
  • 3.3.1 z-order曲線的劃分算法31-33
  • 3.3.2 基于數(shù)據(jù)流的kNNJ查詢算法33-34
  • 3.4 代價分析34-35
  • 3.4.1 通信代價34-35
  • 3.4.2 計算代價35
  • 3.4.3 I/O代價35
  • 3.5 實驗結(jié)果與分析35-39
  • 3.5.1 實驗設置35-36
  • 3.5.2 結(jié)果分析36-39
  • 3.6 本章小結(jié)39-40
  • 第四章 云環(huán)境下基于數(shù)據(jù)流的kMeans聚類算法40-49
  • 4.1 傳統(tǒng)的kMeans聚類算法40-41
  • 4.2 基于MapReduce的kMeans聚類算法41-42
  • 4.3 基于數(shù)據(jù)流的kMeans聚類算法42-45
  • 4.3.1 基于數(shù)據(jù)流的初始聚類中心選擇算法42-43
  • 4.3.2 基于數(shù)據(jù)流的kMeans算法(DKmeans)43-45
  • 4.4 代價分析45
  • 4.5 實驗與性能評估45-48
  • 4.5.1 實驗設置45-46
  • 4.5.2 實驗結(jié)果分析46-48
  • 4.6 本章小結(jié)48-49
  • 第五章 基于Hive改進的大數(shù)據(jù)查詢分析系統(tǒng)49-63
  • 5.1 改進Hive大數(shù)據(jù)查詢分析系統(tǒng)的背景及目的49-50
  • 5.2 Hive體系結(jié)構(gòu)及改進部分介紹50-51
  • 5.3 Hive改進模塊的設計與實現(xiàn)51-62
  • 5.3.1 詞法語法分析模塊51-55
  • 5.3.2 語義分析模塊55-57
  • 5.3.3 邏輯計劃生成與優(yōu)化57-59
  • 5.3.4 物理計劃生成與優(yōu)化59-61
  • 5.3.5 kNN join與kMeans語句執(zhí)行流程61-62
  • 5.4 本章小結(jié)62-63
  • 第六章 結(jié)束語63-65
  • 6.1 本文小結(jié)63-64
  • 6.2 本文的不足和未來的研究方向64-65
  • 參考文獻65-70
  • 致謝70-71
  • 在學期間的研究成果及發(fā)表的學術論文71

【相似文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 李北星;分布式數(shù)據(jù)庫管理系統(tǒng)中的查詢處理設計[J];計算機工程與設計;1987年03期

2 T.F.Keefe ,M.B.Thuraisingham ,W.T.Tsai ,范宏深;安全查詢處理策略[J];計算機工程與科學;1991年01期

3 李芝棠,朱儉,殷軍,張江陵;單關系查詢處理機的任務生成[J];計算機應用;1992年02期

4 馮志林;分布式數(shù)據(jù)庫系統(tǒng)中基于半連接的查詢處理[J];計算機應用與軟件;1989年03期

5 郝忠孝,,馬宗民,胡春海;基于空值環(huán)境下擴展關系模型的查詢處理研究[J];計算機研究與發(fā)展;1994年10期

6 馮玉才,張鵬程;基于近似查詢的在線分組聚集及其應用[J];計算機工程;2005年16期

7 黃艷;朱會東;;一種基于移動Agent的查詢處理策略[J];計算機工程;2007年01期

8 錢江波;徐宏炳;董逸生;劉學軍;王永利;楊雪梅;;共享連接結(jié)果的連續(xù)查詢處理[J];東南大學學報(自然科學版);2007年01期

9 肖予欽,張巨,景寧,李軍;基于R樹的方向關系查詢處理[J];軟件學報;2004年01期

10 李國祿;分布式數(shù)據(jù)庫系統(tǒng)中的查詢處理[J];青海師專學報.教育科學;2005年S3期

中國重要會議論文全文數(shù)據(jù)庫 前10條

1 韓璐;王朝坤;鄒鵬;徐亞軍;;不確定圖數(shù)據(jù)上的不確定查詢處理[A];NDBC2010第27屆中國數(shù)據(jù)庫學術會議論文集(B輯)[C];2010年

2 陳紅;王珊;;多階段并行多查詢處理框架[A];第十七屆全國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2000年

3 陳良剛;劉震;施伯樂;;位置相關查詢處理[A];第十九屆全國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2002年

4 廖巍;景寧;李軍;吳秋云;;一種通用的可伸縮增量連續(xù)查詢處理框架[A];第二十三屆中國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2006年

5 朱金清;王偉;周軍鋒;孟小峰;;基于相關性語義的高效XML Twig查詢處理方法[A];第二十五屆中國數(shù)據(jù)庫學術會議論文集(二)[C];2008年

6 夏添;蔡文淵;徐林昊;錢衛(wèi)寧;周水庚;周傲英;;P2P環(huán)境下的查詢處理代價估算[A];第二十屆全國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2003年

7 祝遠玲;馮玉;王珊;;PBASE的并行查詢處理策略[A];數(shù)據(jù)庫研究與進展95——第十三屆全國數(shù)據(jù)庫學術會議論文集[C];1995年

8 丁治明;郭黎敏;;一種支持通用θ-Join的并行查詢處理機制[A];NDBC2010第27屆中國數(shù)據(jù)庫學術會議論文集(B輯)[C];2010年

9 熊蜀光;李建中;王宏志;高宏;;一種基于編碼的圖模型XML數(shù)據(jù)的存儲與查詢處理方法[A];第二十三屆中國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2006年

10 肖剛;莊嚴;鄭振楣;石樹剛;;SamBase中的對象查詢處理[A];數(shù)據(jù)庫研究與進展95——第十三屆全國數(shù)據(jù)庫學術會議論文集[C];1995年

中國博士學位論文全文數(shù)據(jù)庫 前8條

1 劉鼎甲;基于關系模型的語料庫查詢處理問題研究[D];燕山大學;2015年

2 鄧波;分布式序敏感查詢處理關鍵技術研究[D];國防科學技術大學;2006年

3 陳紅;并行多查詢處理關鍵技術研究[D];中國科學院研究生院(計算技術研究所);2000年

4 王振華;P2P環(huán)境下查詢處理關鍵技術的研究[D];東北大學;2011年

5 吳愛華;不一致數(shù)據(jù)的查詢處理[D];復旦大學;2010年

6 李曉光;XML非完全結(jié)構(gòu)查詢處理中若干關鍵技術的研究[D];東北大學;2006年

7 張蓉;結(jié)構(gòu)化對等計算機系統(tǒng)中的查詢處理[D];復旦大學;2007年

8 李瑞軒;異構(gòu)信息集成中的查詢處理與優(yōu)化研究[D];華中科技大學;2004年

中國碩士學位論文全文數(shù)據(jù)庫 前10條

1 Les Kimball Kamara;連接數(shù)據(jù)知識庫語義查詢處理[D];東北大學;2014年

2 王飛;云環(huán)境下海量數(shù)據(jù)查詢處理與分析技術研究[D];南京航空航天大學;2015年

3 曹佩;延遲容忍網(wǎng)絡的訂閱查詢處理[D];寧波大學;2013年

4 劉偉偉;分布式空間信息集成查詢處理關鍵技術研究[D];國防科學技術大學;2009年

5 李東亮;不確定多媒體數(shù)據(jù)個性化查詢處理系統(tǒng)設計與實現(xiàn)[D];華中科技大學;2012年

6 武亮亮;增量的連續(xù)k近鄰查詢處理方法的研究[D];燕山大學;2010年

7 李義國;基于不完全約束的XML查詢處理關鍵技術研究[D];燕山大學;2010年

8 熊蜀光;圖模型XML數(shù)據(jù)上查詢處理方法的研究[D];哈爾濱工業(yè)大學;2006年

9 曲東;面向Ziv-Lempel壓縮文本的多查詢處理技術[D];東北大學;2010年

10 劉英童;P2P環(huán)境下基于模式匹配的復雜查詢處理的研究[D];哈爾濱工業(yè)大學;2007年


  本文關鍵詞:云環(huán)境下海量數(shù)據(jù)查詢處理與分析技術研究,由筆耕文化傳播整理發(fā)布。



本文編號:426005

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/426005.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶ee276***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com