天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Spark 云計(jì)算平臺(tái)的改進(jìn)K近鄰算法研究

發(fā)布時(shí)間:2017-06-29 13:10

  本文關(guān)鍵詞:基于Spark 云計(jì)算平臺(tái)的改進(jìn)K近鄰算法研究,,由筆耕文化傳播整理發(fā)布。


【摘要】:隨著現(xiàn)今時(shí)代信息的飛速發(fā)展,互聯(lián)網(wǎng)已經(jīng)步入大數(shù)據(jù)時(shí)代。在面對(duì)海量的數(shù)據(jù),用戶如何快速找到滿足自己需求的信息成為學(xué)術(shù)界急需研究的熱點(diǎn)難題;ヂ(lián)網(wǎng)海量數(shù)據(jù)導(dǎo)致數(shù)據(jù)挖掘技術(shù)要求變得越來(lái)越迫切。通過(guò)數(shù)據(jù)挖掘方法,系統(tǒng)可以實(shí)現(xiàn)從海量數(shù)據(jù)高效挖掘出精準(zhǔn)數(shù)據(jù)。數(shù)據(jù)挖掘中的分類算法是預(yù)測(cè)數(shù)據(jù)趨勢(shì)、推薦迎合用戶意愿數(shù)據(jù)的有效手段。K近鄰分類算法又是查詢大規(guī)?臻g數(shù)據(jù)的常用數(shù)據(jù)挖掘分類算法之一。算法在云計(jì)算平臺(tái)運(yùn)行,可以進(jìn)一步提高數(shù)據(jù)挖掘算法的運(yùn)算速率。Spark云計(jì)算平臺(tái)是基于Hadoop云平臺(tái)的進(jìn)一步優(yōu)化,不同于Hadoop的完全依賴HDFS文件系統(tǒng),Spark實(shí)現(xiàn)了在內(nèi)存中處理數(shù)據(jù)集,進(jìn)一步提高了云平臺(tái)的數(shù)據(jù)處理速度。針對(duì)用戶快速獲取信息的需求,本文在Spark云計(jì)算平臺(tái)上,使用并行化的改進(jìn)K近鄰分類算法實(shí)現(xiàn)為用戶快速提供推薦數(shù)據(jù)的目標(biāo)。本文提出兩個(gè)優(yōu)化點(diǎn):第一,本文對(duì)K近鄰分類算法索引創(chuàng)建技術(shù)進(jìn)行改進(jìn),提高算法查找最近鄰數(shù)據(jù)點(diǎn)的效率。傳統(tǒng)的K近鄰分類算法主要制約因素是查找最近鄰數(shù)據(jù)點(diǎn)效率低,Kd Tree是應(yīng)用于K近鄰分類算法索引創(chuàng)建的查找效率較高的數(shù)據(jù)結(jié)構(gòu)。影響Kd Tree的運(yùn)行效率主要在于算法運(yùn)行過(guò)程最近鄰節(jié)點(diǎn)查找中對(duì)非葉子節(jié)點(diǎn)的回溯。本文通過(guò)優(yōu)化Kd Tree中待分類數(shù)據(jù)點(diǎn)范圍與分割平面線的相交概率,減少K近鄰分類算法在查找最近鄰數(shù)據(jù)點(diǎn)時(shí)回溯節(jié)點(diǎn)的數(shù)目,實(shí)現(xiàn)提高K近鄰分類算法的分類效率。第二,本文優(yōu)化算法運(yùn)行的環(huán)境,實(shí)現(xiàn)了提高算法分類效率的效果。本文對(duì)改進(jìn)的K近鄰分類算法實(shí)行并行化,使算法能很好的適應(yīng)云計(jì)算平臺(tái)的數(shù)據(jù)處理模型。本文使用Spark云計(jì)算平臺(tái)環(huán)境實(shí)現(xiàn)并行化的改進(jìn)K近鄰分類算法,在保證算法準(zhǔn)確度的前提下,提升了算法的分類速度。在實(shí)驗(yàn)數(shù)據(jù)選取上,本文選用了UCI機(jī)器學(xué)習(xí)數(shù)據(jù)集。實(shí)驗(yàn)對(duì)比單機(jī)情況下傳統(tǒng)K近鄰分類算法和改進(jìn)K近鄰分類算法的效率和準(zhǔn)確率、Spark云平臺(tái)上改進(jìn)K近鄰分類算法和單機(jī)上改進(jìn)K近鄰分類算法的算法處理效率,得到在Spark云平臺(tái)運(yùn)行的改進(jìn)K近鄰分類算法,在保證算法分類準(zhǔn)確率的前提,較大的提高了算法效率的結(jié)論。
【關(guān)鍵詞】:Spark 云平臺(tái) 分類 數(shù)據(jù)挖掘 K近鄰
【學(xué)位授予單位】:廣東工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP311.13;TP393.09
【目錄】:
  • 摘要4-5
  • Abstract5-13
  • 第一章 緒論13-19
  • 1.1 研究背景與意義13-15
  • 1.1.1 研究背景13-14
  • 1.1.2 研究意義14-15
  • 1.2 研究現(xiàn)狀15-16
  • 1.3 研究?jī)?nèi)容及主要工作16-17
  • 1.4 論文結(jié)構(gòu)安排17-18
  • 1.5 本章小結(jié)18-19
  • 第二章 Spark云計(jì)算平臺(tái)的概述19-24
  • 2.1 Spark簡(jiǎn)介19-22
  • 2.2 Spark框架結(jié)構(gòu)22
  • 2.3 Spark的優(yōu)勢(shì)22-23
  • 2.4 本章小結(jié)23-24
  • 第三章 數(shù)據(jù)挖掘及分類算法的概述24-30
  • 3.1 數(shù)據(jù)挖掘概述24-25
  • 3.1.1 數(shù)據(jù)挖掘的定義24
  • 3.1.2 數(shù)據(jù)挖掘的過(guò)程24-25
  • 3.2 數(shù)據(jù)挖掘分類算法概述25-29
  • 3.2.1 分類算法的步驟25-26
  • 3.2.2 常用分類算法概述26-29
  • 3.3 本章小結(jié)29-30
  • 第四章 改進(jìn)的K近鄰分類算法30-45
  • 4.1 K近鄰分類算法的介紹30-31
  • 4.1.1 K近鄰分類算法的設(shè)計(jì)思想30
  • 4.1.2 K近鄰分類算法的實(shí)現(xiàn)30-31
  • 4.1.3 K近鄰分類算法的優(yōu)缺點(diǎn)31
  • 4.2 K近鄰分類算法的索引創(chuàng)建31-32
  • 4.2.1 Kd Tree的簡(jiǎn)介31
  • 4.2.2 Kd Tree的實(shí)現(xiàn)31-32
  • 4.2.3 Kd Tree的優(yōu)缺點(diǎn)32
  • 4.3 改進(jìn)K近鄰分類算法的介紹32-33
  • 4.3.1 K近鄰分類算法的關(guān)鍵改進(jìn)點(diǎn)32
  • 4.3.2 改進(jìn)K近鄰分類算法的優(yōu)化點(diǎn)32-33
  • 4.4 改進(jìn)K近鄰分類算法的實(shí)現(xiàn)33-40
  • 4.4.1 改進(jìn)K近鄰分類算法的步驟33-35
  • 4.4.2 改進(jìn)K近鄰分類算法的具體實(shí)現(xiàn)35-40
  • 4.5 改進(jìn)K近鄰分類算法的并行化設(shè)計(jì)40-42
  • 4.5.1 算法并行化設(shè)計(jì)方法40-41
  • 4.5.2 改進(jìn)K近鄰分類算法并行化的實(shí)現(xiàn)41-42
  • 4.6 數(shù)據(jù)挖掘分類算法的常用評(píng)價(jià)準(zhǔn)則42-44
  • 4.6.1 分類算法的評(píng)價(jià)準(zhǔn)則42-43
  • 4.6.2 并行化分類算法評(píng)價(jià)準(zhǔn)則43-44
  • 4.7 本章小結(jié)44-45
  • 第五章 基于Spark云計(jì)算平臺(tái)的改進(jìn)K近鄰算法研究45-50
  • 5.1 Spark云計(jì)算平臺(tái)的搭建45-47
  • 5.1.1 搭建環(huán)境的準(zhǔn)備45
  • 5.1.2 Spark云計(jì)算平臺(tái)的搭建步驟45-47
  • 5.2 基于Spark云計(jì)算平臺(tái)的改進(jìn)K近鄰算法實(shí)現(xiàn)47-49
  • 5.2.1 基于Spark云計(jì)算平臺(tái)的改進(jìn)K近鄰算法設(shè)計(jì)思想47
  • 5.2.2 基于Spark云計(jì)算平臺(tái)的改進(jìn)K近鄰算法核心代碼47-49
  • 5.3 本章小結(jié)49-50
  • 第六章 實(shí)驗(yàn)設(shè)計(jì)和結(jié)果分析50-55
  • 6.1 實(shí)驗(yàn)環(huán)境50
  • 6.2 實(shí)驗(yàn)數(shù)據(jù)50-51
  • 6.3 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)51
  • 6.4 實(shí)驗(yàn)結(jié)果和分析51-54
  • 6.4.1 改進(jìn)K近鄰算法的實(shí)驗(yàn)結(jié)果分析51-53
  • 6.4.2 基于Spark云計(jì)算平臺(tái)的并行化改進(jìn)K近鄰算法實(shí)驗(yàn)結(jié)果分析53-54
  • 6.5 本章小結(jié)54-55
  • 總結(jié)與展望55-56
  • 參考文獻(xiàn)56-59
  • 攻讀碩士學(xué)位期間發(fā)表的學(xué)術(shù)論文59-61
  • 致謝61

【相似文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前5條

1 Fujiwara Osamu;;CORRELATION INVESTIGATION BETWEEN CONTACT APPROACH SPEED OF HANDHELD METAL ROD AND DISCHARGE PARAMETERS FROM CHARGED HUMAN BODY[J];Journal of Electronics(China);2008年03期

2 ;Laser-induced spark ignition of H_2/O_2/Ar mixtures[J];Science in China(Series E:Technological Sciences);2007年06期

3 李興偉;;飛躍音符間——試聽(tīng)飛聲“SPARK”揚(yáng)聲器[J];中國(guó)電子商情(視聽(tīng)博覽);1997年08期

4 孟楚;;Vienna與Spark,中西合璧的浪漫故事[J];家庭影院技術(shù);2004年07期

5 ;[J];;年期

中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前4條

1 ;Study on the spark discharge plasma jet driven by nanosecond pulses[A];第十五屆全國(guó)等離子體科學(xué)技術(shù)會(huì)議會(huì)議摘要集[C];2011年

2 Osamu Fujiwara;;Effect of Approaching Contact Speed of Hand-Held Metal Piece on Characteristics of Discharge Current from Charged Human Body[A];第二屆貴州省自然科學(xué)優(yōu)秀學(xué)術(shù)論文評(píng)選獲獎(jiǎng)?wù)撐募?007年)[C];2007年

3 ;β_1- but not β_2-adrenergic signaling accelerates the ryanodine receptor response to a single L-type Ca~(2+) channel in heart ceils[A];中國(guó)生理學(xué)會(huì)第23屆全國(guó)會(huì)員代表大會(huì)暨生理學(xué)學(xué)術(shù)大會(huì)論文摘要文集[C];2010年

4 Minghui Wang;Huajian Li;Wan Jiang;;Preparation of TiB_2/TiN Nano-composites by SP[A];中國(guó)材料大會(huì)2012第14分會(huì)場(chǎng):先進(jìn)陶瓷材料論文集[C];2012年

中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前8條

1 楊娜;雪佛蘭SPARK詮釋微車[N];中國(guó)工業(yè)報(bào);2003年

2 ;雪佛蘭SPARK技術(shù)參數(shù)表[N];中國(guó)商報(bào);2003年

3 若冰;雪佛蘭Spark小車中的精靈[N];中國(guó)商報(bào);2003年

4 記者 姬旺芳;天水星火SPARK商標(biāo)獲“中國(guó)馳名商標(biāo)”[N];天水日?qǐng)?bào);2010年

5 記者 曉瑗;新西蘭電信將更名為Spark[N];人民郵電;2014年

6 本報(bào)記者 那罡;微軟Spark計(jì)劃再添新成員[N];中國(guó)計(jì)算機(jī)報(bào);2009年

7 ;上汽通用五菱SPARK引發(fā)微車新熱浪[N];中國(guó)質(zhì)量報(bào);2003年

8 黃靜潔;08款SPARK樂(lè)馳上市 能否突圍微轎市場(chǎng)?[N];東方早報(bào);2008年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前4條

1 王韜;基于Spark的聚類集成系統(tǒng)研究與設(shè)計(jì)[D];西南交通大學(xué);2015年

2 陳曉康;基于Spark 云計(jì)算平臺(tái)的改進(jìn)K近鄰算法研究[D];廣東工業(yè)大學(xué);2016年

3 王國(guó)鵬;上海市體育與健身課程與美國(guó)SPARK課程的比較研究[D];華東師范大學(xué);2011年

4 翁煬暉;SPARK課程在高校乒乓球公選課中的應(yīng)用研究[D];成都體育學(xué)院;2012年


  本文關(guān)鍵詞:基于Spark 云計(jì)算平臺(tái)的改進(jìn)K近鄰算法研究,由筆耕文化傳播整理發(fā)布。



本文編號(hào):497984

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/497984.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d9b2e***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com