基于Spark 云計(jì)算平臺(tái)的改進(jìn)K近鄰算法研究
本文關(guān)鍵詞:基于Spark 云計(jì)算平臺(tái)的改進(jìn)K近鄰算法研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著現(xiàn)今時(shí)代信息的飛速發(fā)展,互聯(lián)網(wǎng)已經(jīng)步入大數(shù)據(jù)時(shí)代。在面對(duì)海量的數(shù)據(jù),用戶如何快速找到滿足自己需求的信息成為學(xué)術(shù)界急需研究的熱點(diǎn)難題;ヂ(lián)網(wǎng)海量數(shù)據(jù)導(dǎo)致數(shù)據(jù)挖掘技術(shù)要求變得越來(lái)越迫切。通過(guò)數(shù)據(jù)挖掘方法,系統(tǒng)可以實(shí)現(xiàn)從海量數(shù)據(jù)高效挖掘出精準(zhǔn)數(shù)據(jù)。數(shù)據(jù)挖掘中的分類算法是預(yù)測(cè)數(shù)據(jù)趨勢(shì)、推薦迎合用戶意愿數(shù)據(jù)的有效手段。K近鄰分類算法又是查詢大規(guī)?臻g數(shù)據(jù)的常用數(shù)據(jù)挖掘分類算法之一。算法在云計(jì)算平臺(tái)運(yùn)行,可以進(jìn)一步提高數(shù)據(jù)挖掘算法的運(yùn)算速率。Spark云計(jì)算平臺(tái)是基于Hadoop云平臺(tái)的進(jìn)一步優(yōu)化,不同于Hadoop的完全依賴HDFS文件系統(tǒng),Spark實(shí)現(xiàn)了在內(nèi)存中處理數(shù)據(jù)集,進(jìn)一步提高了云平臺(tái)的數(shù)據(jù)處理速度。針對(duì)用戶快速獲取信息的需求,本文在Spark云計(jì)算平臺(tái)上,使用并行化的改進(jìn)K近鄰分類算法實(shí)現(xiàn)為用戶快速提供推薦數(shù)據(jù)的目標(biāo)。本文提出兩個(gè)優(yōu)化點(diǎn):第一,本文對(duì)K近鄰分類算法索引創(chuàng)建技術(shù)進(jìn)行改進(jìn),提高算法查找最近鄰數(shù)據(jù)點(diǎn)的效率。傳統(tǒng)的K近鄰分類算法主要制約因素是查找最近鄰數(shù)據(jù)點(diǎn)效率低,Kd Tree是應(yīng)用于K近鄰分類算法索引創(chuàng)建的查找效率較高的數(shù)據(jù)結(jié)構(gòu)。影響Kd Tree的運(yùn)行效率主要在于算法運(yùn)行過(guò)程最近鄰節(jié)點(diǎn)查找中對(duì)非葉子節(jié)點(diǎn)的回溯。本文通過(guò)優(yōu)化Kd Tree中待分類數(shù)據(jù)點(diǎn)范圍與分割平面線的相交概率,減少K近鄰分類算法在查找最近鄰數(shù)據(jù)點(diǎn)時(shí)回溯節(jié)點(diǎn)的數(shù)目,實(shí)現(xiàn)提高K近鄰分類算法的分類效率。第二,本文優(yōu)化算法運(yùn)行的環(huán)境,實(shí)現(xiàn)了提高算法分類效率的效果。本文對(duì)改進(jìn)的K近鄰分類算法實(shí)行并行化,使算法能很好的適應(yīng)云計(jì)算平臺(tái)的數(shù)據(jù)處理模型。本文使用Spark云計(jì)算平臺(tái)環(huán)境實(shí)現(xiàn)并行化的改進(jìn)K近鄰分類算法,在保證算法準(zhǔn)確度的前提下,提升了算法的分類速度。在實(shí)驗(yàn)數(shù)據(jù)選取上,本文選用了UCI機(jī)器學(xué)習(xí)數(shù)據(jù)集。實(shí)驗(yàn)對(duì)比單機(jī)情況下傳統(tǒng)K近鄰分類算法和改進(jìn)K近鄰分類算法的效率和準(zhǔn)確率、Spark云平臺(tái)上改進(jìn)K近鄰分類算法和單機(jī)上改進(jìn)K近鄰分類算法的算法處理效率,得到在Spark云平臺(tái)運(yùn)行的改進(jìn)K近鄰分類算法,在保證算法分類準(zhǔn)確率的前提,較大的提高了算法效率的結(jié)論。
【關(guān)鍵詞】:Spark 云平臺(tái) 分類 數(shù)據(jù)挖掘 K近鄰
【學(xué)位授予單位】:廣東工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP311.13;TP393.09
【目錄】:
- 摘要4-5
- Abstract5-13
- 第一章 緒論13-19
- 1.1 研究背景與意義13-15
- 1.1.1 研究背景13-14
- 1.1.2 研究意義14-15
- 1.2 研究現(xiàn)狀15-16
- 1.3 研究?jī)?nèi)容及主要工作16-17
- 1.4 論文結(jié)構(gòu)安排17-18
- 1.5 本章小結(jié)18-19
- 第二章 Spark云計(jì)算平臺(tái)的概述19-24
- 2.1 Spark簡(jiǎn)介19-22
- 2.2 Spark框架結(jié)構(gòu)22
- 2.3 Spark的優(yōu)勢(shì)22-23
- 2.4 本章小結(jié)23-24
- 第三章 數(shù)據(jù)挖掘及分類算法的概述24-30
- 3.1 數(shù)據(jù)挖掘概述24-25
- 3.1.1 數(shù)據(jù)挖掘的定義24
- 3.1.2 數(shù)據(jù)挖掘的過(guò)程24-25
- 3.2 數(shù)據(jù)挖掘分類算法概述25-29
- 3.2.1 分類算法的步驟25-26
- 3.2.2 常用分類算法概述26-29
- 3.3 本章小結(jié)29-30
- 第四章 改進(jìn)的K近鄰分類算法30-45
- 4.1 K近鄰分類算法的介紹30-31
- 4.1.1 K近鄰分類算法的設(shè)計(jì)思想30
- 4.1.2 K近鄰分類算法的實(shí)現(xiàn)30-31
- 4.1.3 K近鄰分類算法的優(yōu)缺點(diǎn)31
- 4.2 K近鄰分類算法的索引創(chuàng)建31-32
- 4.2.1 Kd Tree的簡(jiǎn)介31
- 4.2.2 Kd Tree的實(shí)現(xiàn)31-32
- 4.2.3 Kd Tree的優(yōu)缺點(diǎn)32
- 4.3 改進(jìn)K近鄰分類算法的介紹32-33
- 4.3.1 K近鄰分類算法的關(guān)鍵改進(jìn)點(diǎn)32
- 4.3.2 改進(jìn)K近鄰分類算法的優(yōu)化點(diǎn)32-33
- 4.4 改進(jìn)K近鄰分類算法的實(shí)現(xiàn)33-40
- 4.4.1 改進(jìn)K近鄰分類算法的步驟33-35
- 4.4.2 改進(jìn)K近鄰分類算法的具體實(shí)現(xiàn)35-40
- 4.5 改進(jìn)K近鄰分類算法的并行化設(shè)計(jì)40-42
- 4.5.1 算法并行化設(shè)計(jì)方法40-41
- 4.5.2 改進(jìn)K近鄰分類算法并行化的實(shí)現(xiàn)41-42
- 4.6 數(shù)據(jù)挖掘分類算法的常用評(píng)價(jià)準(zhǔn)則42-44
- 4.6.1 分類算法的評(píng)價(jià)準(zhǔn)則42-43
- 4.6.2 并行化分類算法評(píng)價(jià)準(zhǔn)則43-44
- 4.7 本章小結(jié)44-45
- 第五章 基于Spark云計(jì)算平臺(tái)的改進(jìn)K近鄰算法研究45-50
- 5.1 Spark云計(jì)算平臺(tái)的搭建45-47
- 5.1.1 搭建環(huán)境的準(zhǔn)備45
- 5.1.2 Spark云計(jì)算平臺(tái)的搭建步驟45-47
- 5.2 基于Spark云計(jì)算平臺(tái)的改進(jìn)K近鄰算法實(shí)現(xiàn)47-49
- 5.2.1 基于Spark云計(jì)算平臺(tái)的改進(jìn)K近鄰算法設(shè)計(jì)思想47
- 5.2.2 基于Spark云計(jì)算平臺(tái)的改進(jìn)K近鄰算法核心代碼47-49
- 5.3 本章小結(jié)49-50
- 第六章 實(shí)驗(yàn)設(shè)計(jì)和結(jié)果分析50-55
- 6.1 實(shí)驗(yàn)環(huán)境50
- 6.2 實(shí)驗(yàn)數(shù)據(jù)50-51
- 6.3 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)51
- 6.4 實(shí)驗(yàn)結(jié)果和分析51-54
- 6.4.1 改進(jìn)K近鄰算法的實(shí)驗(yàn)結(jié)果分析51-53
- 6.4.2 基于Spark云計(jì)算平臺(tái)的并行化改進(jìn)K近鄰算法實(shí)驗(yàn)結(jié)果分析53-54
- 6.5 本章小結(jié)54-55
- 總結(jié)與展望55-56
- 參考文獻(xiàn)56-59
- 攻讀碩士學(xué)位期間發(fā)表的學(xué)術(shù)論文59-61
- 致謝61
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前5條
1 Fujiwara Osamu;;CORRELATION INVESTIGATION BETWEEN CONTACT APPROACH SPEED OF HANDHELD METAL ROD AND DISCHARGE PARAMETERS FROM CHARGED HUMAN BODY[J];Journal of Electronics(China);2008年03期
2 ;Laser-induced spark ignition of H_2/O_2/Ar mixtures[J];Science in China(Series E:Technological Sciences);2007年06期
3 李興偉;;飛躍音符間——試聽(tīng)飛聲“SPARK”揚(yáng)聲器[J];中國(guó)電子商情(視聽(tīng)博覽);1997年08期
4 孟楚;;Vienna與Spark,中西合璧的浪漫故事[J];家庭影院技術(shù);2004年07期
5 ;[J];;年期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前4條
1 ;Study on the spark discharge plasma jet driven by nanosecond pulses[A];第十五屆全國(guó)等離子體科學(xué)技術(shù)會(huì)議會(huì)議摘要集[C];2011年
2 Osamu Fujiwara;;Effect of Approaching Contact Speed of Hand-Held Metal Piece on Characteristics of Discharge Current from Charged Human Body[A];第二屆貴州省自然科學(xué)優(yōu)秀學(xué)術(shù)論文評(píng)選獲獎(jiǎng)?wù)撐募?007年)[C];2007年
3 ;β_1- but not β_2-adrenergic signaling accelerates the ryanodine receptor response to a single L-type Ca~(2+) channel in heart ceils[A];中國(guó)生理學(xué)會(huì)第23屆全國(guó)會(huì)員代表大會(huì)暨生理學(xué)學(xué)術(shù)大會(huì)論文摘要文集[C];2010年
4 Minghui Wang;Huajian Li;Wan Jiang;;Preparation of TiB_2/TiN Nano-composites by SP[A];中國(guó)材料大會(huì)2012第14分會(huì)場(chǎng):先進(jìn)陶瓷材料論文集[C];2012年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前8條
1 楊娜;雪佛蘭SPARK詮釋微車[N];中國(guó)工業(yè)報(bào);2003年
2 ;雪佛蘭SPARK技術(shù)參數(shù)表[N];中國(guó)商報(bào);2003年
3 若冰;雪佛蘭Spark小車中的精靈[N];中國(guó)商報(bào);2003年
4 記者 姬旺芳;天水星火SPARK商標(biāo)獲“中國(guó)馳名商標(biāo)”[N];天水日?qǐng)?bào);2010年
5 記者 曉瑗;新西蘭電信將更名為Spark[N];人民郵電;2014年
6 本報(bào)記者 那罡;微軟Spark計(jì)劃再添新成員[N];中國(guó)計(jì)算機(jī)報(bào);2009年
7 ;上汽通用五菱SPARK引發(fā)微車新熱浪[N];中國(guó)質(zhì)量報(bào);2003年
8 黃靜潔;08款SPARK樂(lè)馳上市 能否突圍微轎市場(chǎng)?[N];東方早報(bào);2008年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前4條
1 王韜;基于Spark的聚類集成系統(tǒng)研究與設(shè)計(jì)[D];西南交通大學(xué);2015年
2 陳曉康;基于Spark 云計(jì)算平臺(tái)的改進(jìn)K近鄰算法研究[D];廣東工業(yè)大學(xué);2016年
3 王國(guó)鵬;上海市體育與健身課程與美國(guó)SPARK課程的比較研究[D];華東師范大學(xué);2011年
4 翁煬暉;SPARK課程在高校乒乓球公選課中的應(yīng)用研究[D];成都體育學(xué)院;2012年
本文關(guān)鍵詞:基于Spark 云計(jì)算平臺(tái)的改進(jìn)K近鄰算法研究,由筆耕文化傳播整理發(fā)布。
本文編號(hào):497984
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/497984.html