基于Spark 云計算平臺的改進K近鄰算法研究
本文關(guān)鍵詞:基于Spark 云計算平臺的改進K近鄰算法研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著現(xiàn)今時代信息的飛速發(fā)展,互聯(lián)網(wǎng)已經(jīng)步入大數(shù)據(jù)時代。在面對海量的數(shù)據(jù),用戶如何快速找到滿足自己需求的信息成為學(xué)術(shù)界急需研究的熱點難題;ヂ(lián)網(wǎng)海量數(shù)據(jù)導(dǎo)致數(shù)據(jù)挖掘技術(shù)要求變得越來越迫切。通過數(shù)據(jù)挖掘方法,系統(tǒng)可以實現(xiàn)從海量數(shù)據(jù)高效挖掘出精準(zhǔn)數(shù)據(jù)。數(shù)據(jù)挖掘中的分類算法是預(yù)測數(shù)據(jù)趨勢、推薦迎合用戶意愿數(shù)據(jù)的有效手段。K近鄰分類算法又是查詢大規(guī)模空間數(shù)據(jù)的常用數(shù)據(jù)挖掘分類算法之一。算法在云計算平臺運行,可以進一步提高數(shù)據(jù)挖掘算法的運算速率。Spark云計算平臺是基于Hadoop云平臺的進一步優(yōu)化,不同于Hadoop的完全依賴HDFS文件系統(tǒng),Spark實現(xiàn)了在內(nèi)存中處理數(shù)據(jù)集,進一步提高了云平臺的數(shù)據(jù)處理速度。針對用戶快速獲取信息的需求,本文在Spark云計算平臺上,使用并行化的改進K近鄰分類算法實現(xiàn)為用戶快速提供推薦數(shù)據(jù)的目標(biāo)。本文提出兩個優(yōu)化點:第一,本文對K近鄰分類算法索引創(chuàng)建技術(shù)進行改進,提高算法查找最近鄰數(shù)據(jù)點的效率。傳統(tǒng)的K近鄰分類算法主要制約因素是查找最近鄰數(shù)據(jù)點效率低,Kd Tree是應(yīng)用于K近鄰分類算法索引創(chuàng)建的查找效率較高的數(shù)據(jù)結(jié)構(gòu)。影響Kd Tree的運行效率主要在于算法運行過程最近鄰節(jié)點查找中對非葉子節(jié)點的回溯。本文通過優(yōu)化Kd Tree中待分類數(shù)據(jù)點范圍與分割平面線的相交概率,減少K近鄰分類算法在查找最近鄰數(shù)據(jù)點時回溯節(jié)點的數(shù)目,實現(xiàn)提高K近鄰分類算法的分類效率。第二,本文優(yōu)化算法運行的環(huán)境,實現(xiàn)了提高算法分類效率的效果。本文對改進的K近鄰分類算法實行并行化,使算法能很好的適應(yīng)云計算平臺的數(shù)據(jù)處理模型。本文使用Spark云計算平臺環(huán)境實現(xiàn)并行化的改進K近鄰分類算法,在保證算法準(zhǔn)確度的前提下,提升了算法的分類速度。在實驗數(shù)據(jù)選取上,本文選用了UCI機器學(xué)習(xí)數(shù)據(jù)集。實驗對比單機情況下傳統(tǒng)K近鄰分類算法和改進K近鄰分類算法的效率和準(zhǔn)確率、Spark云平臺上改進K近鄰分類算法和單機上改進K近鄰分類算法的算法處理效率,得到在Spark云平臺運行的改進K近鄰分類算法,在保證算法分類準(zhǔn)確率的前提,較大的提高了算法效率的結(jié)論。
【關(guān)鍵詞】:Spark 云平臺 分類 數(shù)據(jù)挖掘 K近鄰
【學(xué)位授予單位】:廣東工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP311.13;TP393.09
【目錄】:
- 摘要4-5
- Abstract5-13
- 第一章 緒論13-19
- 1.1 研究背景與意義13-15
- 1.1.1 研究背景13-14
- 1.1.2 研究意義14-15
- 1.2 研究現(xiàn)狀15-16
- 1.3 研究內(nèi)容及主要工作16-17
- 1.4 論文結(jié)構(gòu)安排17-18
- 1.5 本章小結(jié)18-19
- 第二章 Spark云計算平臺的概述19-24
- 2.1 Spark簡介19-22
- 2.2 Spark框架結(jié)構(gòu)22
- 2.3 Spark的優(yōu)勢22-23
- 2.4 本章小結(jié)23-24
- 第三章 數(shù)據(jù)挖掘及分類算法的概述24-30
- 3.1 數(shù)據(jù)挖掘概述24-25
- 3.1.1 數(shù)據(jù)挖掘的定義24
- 3.1.2 數(shù)據(jù)挖掘的過程24-25
- 3.2 數(shù)據(jù)挖掘分類算法概述25-29
- 3.2.1 分類算法的步驟25-26
- 3.2.2 常用分類算法概述26-29
- 3.3 本章小結(jié)29-30
- 第四章 改進的K近鄰分類算法30-45
- 4.1 K近鄰分類算法的介紹30-31
- 4.1.1 K近鄰分類算法的設(shè)計思想30
- 4.1.2 K近鄰分類算法的實現(xiàn)30-31
- 4.1.3 K近鄰分類算法的優(yōu)缺點31
- 4.2 K近鄰分類算法的索引創(chuàng)建31-32
- 4.2.1 Kd Tree的簡介31
- 4.2.2 Kd Tree的實現(xiàn)31-32
- 4.2.3 Kd Tree的優(yōu)缺點32
- 4.3 改進K近鄰分類算法的介紹32-33
- 4.3.1 K近鄰分類算法的關(guān)鍵改進點32
- 4.3.2 改進K近鄰分類算法的優(yōu)化點32-33
- 4.4 改進K近鄰分類算法的實現(xiàn)33-40
- 4.4.1 改進K近鄰分類算法的步驟33-35
- 4.4.2 改進K近鄰分類算法的具體實現(xiàn)35-40
- 4.5 改進K近鄰分類算法的并行化設(shè)計40-42
- 4.5.1 算法并行化設(shè)計方法40-41
- 4.5.2 改進K近鄰分類算法并行化的實現(xiàn)41-42
- 4.6 數(shù)據(jù)挖掘分類算法的常用評價準(zhǔn)則42-44
- 4.6.1 分類算法的評價準(zhǔn)則42-43
- 4.6.2 并行化分類算法評價準(zhǔn)則43-44
- 4.7 本章小結(jié)44-45
- 第五章 基于Spark云計算平臺的改進K近鄰算法研究45-50
- 5.1 Spark云計算平臺的搭建45-47
- 5.1.1 搭建環(huán)境的準(zhǔn)備45
- 5.1.2 Spark云計算平臺的搭建步驟45-47
- 5.2 基于Spark云計算平臺的改進K近鄰算法實現(xiàn)47-49
- 5.2.1 基于Spark云計算平臺的改進K近鄰算法設(shè)計思想47
- 5.2.2 基于Spark云計算平臺的改進K近鄰算法核心代碼47-49
- 5.3 本章小結(jié)49-50
- 第六章 實驗設(shè)計和結(jié)果分析50-55
- 6.1 實驗環(huán)境50
- 6.2 實驗數(shù)據(jù)50-51
- 6.3 實驗評價指標(biāo)51
- 6.4 實驗結(jié)果和分析51-54
- 6.4.1 改進K近鄰算法的實驗結(jié)果分析51-53
- 6.4.2 基于Spark云計算平臺的并行化改進K近鄰算法實驗結(jié)果分析53-54
- 6.5 本章小結(jié)54-55
- 總結(jié)與展望55-56
- 參考文獻56-59
- 攻讀碩士學(xué)位期間發(fā)表的學(xué)術(shù)論文59-61
- 致謝61
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前5條
1 Fujiwara Osamu;;CORRELATION INVESTIGATION BETWEEN CONTACT APPROACH SPEED OF HANDHELD METAL ROD AND DISCHARGE PARAMETERS FROM CHARGED HUMAN BODY[J];Journal of Electronics(China);2008年03期
2 ;Laser-induced spark ignition of H_2/O_2/Ar mixtures[J];Science in China(Series E:Technological Sciences);2007年06期
3 李興偉;;飛躍音符間——試聽飛聲“SPARK”揚聲器[J];中國電子商情(視聽博覽);1997年08期
4 孟楚;;Vienna與Spark,中西合璧的浪漫故事[J];家庭影院技術(shù);2004年07期
5 ;[J];;年期
中國重要會議論文全文數(shù)據(jù)庫 前4條
1 ;Study on the spark discharge plasma jet driven by nanosecond pulses[A];第十五屆全國等離子體科學(xué)技術(shù)會議會議摘要集[C];2011年
2 Osamu Fujiwara;;Effect of Approaching Contact Speed of Hand-Held Metal Piece on Characteristics of Discharge Current from Charged Human Body[A];第二屆貴州省自然科學(xué)優(yōu)秀學(xué)術(shù)論文評選獲獎?wù)撐募?007年)[C];2007年
3 ;β_1- but not β_2-adrenergic signaling accelerates the ryanodine receptor response to a single L-type Ca~(2+) channel in heart ceils[A];中國生理學(xué)會第23屆全國會員代表大會暨生理學(xué)學(xué)術(shù)大會論文摘要文集[C];2010年
4 Minghui Wang;Huajian Li;Wan Jiang;;Preparation of TiB_2/TiN Nano-composites by SP[A];中國材料大會2012第14分會場:先進陶瓷材料論文集[C];2012年
中國重要報紙全文數(shù)據(jù)庫 前8條
1 楊娜;雪佛蘭SPARK詮釋微車[N];中國工業(yè)報;2003年
2 ;雪佛蘭SPARK技術(shù)參數(shù)表[N];中國商報;2003年
3 若冰;雪佛蘭Spark小車中的精靈[N];中國商報;2003年
4 記者 姬旺芳;天水星火SPARK商標(biāo)獲“中國馳名商標(biāo)”[N];天水日報;2010年
5 記者 曉瑗;新西蘭電信將更名為Spark[N];人民郵電;2014年
6 本報記者 那罡;微軟Spark計劃再添新成員[N];中國計算機報;2009年
7 ;上汽通用五菱SPARK引發(fā)微車新熱浪[N];中國質(zhì)量報;2003年
8 黃靜潔;08款SPARK樂馳上市 能否突圍微轎市場?[N];東方早報;2008年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前4條
1 王韜;基于Spark的聚類集成系統(tǒng)研究與設(shè)計[D];西南交通大學(xué);2015年
2 陳曉康;基于Spark 云計算平臺的改進K近鄰算法研究[D];廣東工業(yè)大學(xué);2016年
3 王國鵬;上海市體育與健身課程與美國SPARK課程的比較研究[D];華東師范大學(xué);2011年
4 翁煬暉;SPARK課程在高校乒乓球公選課中的應(yīng)用研究[D];成都體育學(xué)院;2012年
本文關(guān)鍵詞:基于Spark 云計算平臺的改進K近鄰算法研究,由筆耕文化傳播整理發(fā)布。
本文編號:497984
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/497984.html