基于Spark平臺(tái)的局部離群值挖掘算法研究
本文關(guān)鍵詞:基于Spark平臺(tái)的局部離群值挖掘算法研究,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著數(shù)據(jù)挖掘技術(shù)的進(jìn)步以及Hadoop和Spark等大數(shù)據(jù)分析平臺(tái)的流行,分析大規(guī)模數(shù)據(jù)集的難度顯著降低,而且數(shù)據(jù)質(zhì)量相比以往明顯提高,在這樣的背景下海量數(shù)據(jù)中的極少數(shù)離群值不再雞肋。與發(fā)現(xiàn)數(shù)據(jù)的普遍模式相比,異常數(shù)據(jù)模式可能更有價(jià)值,例如警察局更關(guān)心那些發(fā)生犯罪或者可能發(fā)生犯罪的離群點(diǎn),而且利用離群值檢測幫助銀行業(yè)偵測欺詐交易,或者幫助藥廠發(fā)現(xiàn)藥物異常,這些應(yīng)用有著很高的社會(huì)價(jià)值卻往往被忽略。利用傳統(tǒng)的離群值偵測技術(shù)結(jié)合新興的數(shù)據(jù)挖掘技術(shù)去探索離群值的隱含模式具有很高的研究價(jià)值。基于聚類的離群值挖掘算法是目前最主流的離群值挖掘算法,但是該算法有兩點(diǎn)難點(diǎn),首先算法不僅在性能上受到相關(guān)聚類算法的限制,也具有較高的計(jì)算復(fù)雜度,另一個(gè)難點(diǎn)是定義離群值的尺度,因?yàn)闆]有一個(gè)彈性的度量標(biāo)準(zhǔn)供使用者考量。為解決上述弊端,國外學(xué)者提出利用離群因子展示對象的離群程度的方法,但是LOF或者LDOF離群因子雖然具有高穩(wěn)定性和高準(zhǔn)確性等優(yōu)點(diǎn),也具有計(jì)算復(fù)雜度高的缺點(diǎn)。本文基于將待查數(shù)據(jù)集剪枝優(yōu)化LDOF算法的思想,提出基于聚類特征樹將待查數(shù)據(jù)集剪枝優(yōu)化LDOF算法的CFLDOF算法。本文利用實(shí)驗(yàn)證實(shí)CFLDOF算法不僅優(yōu)化LDOF算法的計(jì)算時(shí)間,也有著近似于LDOF算法的準(zhǔn)確率。此外,本文基于算法并行化思想對CFLDOF算法改進(jìn),并給出在Spark平臺(tái)上實(shí)現(xiàn)CFLDOF算法的偽代碼。本文主要工作如下:1)提出利用聚類特征樹剪枝待查數(shù)據(jù)集從而優(yōu)化LDOF算法的思想,并基于此思想提出CFLDOF算法;2)進(jìn)行對比實(shí)驗(yàn)驗(yàn)證CFLDOF算法的不僅在時(shí)間復(fù)雜度上優(yōu)化LDOF算法,也有著近似于LDOF算法的準(zhǔn)確性;3)提出CFLDOF算法的并行化設(shè)計(jì),并給出基于Spark平臺(tái)實(shí)現(xiàn)CFLDOF算法的偽代碼;結(jié)合本文工作,可以得到的結(jié)論是:CFLDOF算法可以優(yōu)化LDOF算法的計(jì)算復(fù)雜度,并有著與LDOF算法相近的準(zhǔn)確率,利用聚類特征樹剪枝待查數(shù)據(jù)集對LDOF算法的優(yōu)化是可行的。
【關(guān)鍵詞】:局部離群值挖掘 聚類特征樹 剪枝 Spark
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP311.13
【目錄】:
- 摘要4-6
- Abstract6-10
- 第1章 引言10-15
- 1.1 研究背景及意義10-11
- 1.2 國內(nèi)外研究現(xiàn)狀11-13
- 1.2.1 離群值挖掘研究現(xiàn)狀11-12
- 1.2.2 Spark研究現(xiàn)狀12-13
- 1.3 論文的主要工作13
- 1.4 本文的組織結(jié)構(gòu)13-14
- 1.5 本章小結(jié)14-15
- 第2章 相關(guān)技術(shù)15-26
- 2.1 Spark相關(guān)技術(shù)15-19
- 2.1.1 Spark簡介15-16
- 2.1.2 彈性分布式數(shù)據(jù)集RDD16-18
- 2.1.3 Spark任務(wù)流程18-19
- 2.2 離群值挖掘相關(guān)技術(shù)19-23
- 2.2.1 離群值定義19-20
- 2.2.2 數(shù)據(jù)挖掘與離群值挖掘20-21
- 2.2.3 離群值挖掘算法簡介21-23
- 2.3 聚類特征樹23-25
- 2.4 本章小結(jié)25-26
- 第3章 離群值挖掘算法分析與研究26-42
- 3.1 離群值度量26-32
- 3.1.1 二元性離群值26-28
- 3.1.2 局部離群因子28-29
- 3.1.3 LOF離群因子29-30
- 3.1.4 LDOF離群因子30-32
- 3.2 基于LDOF算法的剪枝策略優(yōu)化32-36
- 3.2.1 離群值特性32-34
- 3.2.2 基于聚類特征樹的剪枝策略34-35
- 3.2.3 基于聚類特征樹剪枝的局部離群值挖掘算法35-36
- 3.4 算法性能及實(shí)驗(yàn)分析36-41
- 3.4.1 算法復(fù)雜度分析36
- 3.4.2 實(shí)驗(yàn)環(huán)境36-37
- 3.4.3 實(shí)驗(yàn)結(jié)果及分析37-41
- 3.5 本章小結(jié)41-42
- 第4章 基于Spark平臺(tái)離群值挖掘算法分析與實(shí)現(xiàn)42-50
- 4.1 算法并行化策略42-44
- 4.2 CFLDOF算法并行化分析44-47
- 4.2.1 初始設(shè)計(jì)45
- 4.2.2 算法改進(jìn)45-47
- 4.2.3 改進(jìn)后的CFLDOF算法分析47
- 4.3 基于Spark平臺(tái)實(shí)現(xiàn)改進(jìn)的CFLDOF并行化算法47-49
- 4.3.1 基于Spark平臺(tái)架設(shè)改進(jìn)CFLDOF算法48-49
- 4.3.2 基于Spark平臺(tái)實(shí)現(xiàn)改進(jìn)CFLDOF算法49
- 4.4 本章小結(jié)49-50
- 第5章 結(jié)語50-52
- 5.1 本文工作總結(jié)50-51
- 5.2 未來工作展望51-52
- 參考文獻(xiàn)52-54
- 致謝54
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 葛磊;武芳;王鵬波;張冬林;;3維建筑綜合中基于最小特征的面平移算法[J];測繪科學(xué)技術(shù)學(xué)報(bào);2009年02期
2 駱雯,孫延明,陳振威,陳錦昌;判斷點(diǎn)與封閉多邊形相對關(guān)系的改進(jìn)算法[J];機(jī)械;1999年03期
3 李林;盧顯良;;一種基于切割映射的規(guī)則沖突消除算法[J];電子學(xué)報(bào);2008年02期
4 劉巧玲;張紅英;林茂松;;一種簡單快速的圖像去霧算法[J];計(jì)算機(jī)應(yīng)用與軟件;2013年07期
5 林亞平,楊小林;快速概率分析進(jìn)化算法及其性能研究[J];電子學(xué)報(bào);2001年02期
6 章郡鋒;吳曉紅;黃曉強(qiáng);何小海;;基于暗原色先驗(yàn)去霧的改進(jìn)算法[J];電視技術(shù);2013年23期
7 楊鐵軍;靳婷;;一種動(dòng)態(tài)整周模糊值求解算法及其仿真分析[J];系統(tǒng)工程與電子技術(shù);2007年01期
8 周秀玲;郭平;陳寶維;王靜;;幾種計(jì)算超體積算法的比較研究[J];計(jì)算機(jī)工程;2011年03期
9 吳一戎,胡東輝,彭海良;Chirp Scaling SAR成象算法及其實(shí)現(xiàn)[J];電子科學(xué)學(xué)刊;1995年03期
10 王貴竹;一種產(chǎn)生單向分解值的算法[J];安徽大學(xué)學(xué)報(bào)(自然科學(xué)版);2001年03期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前10條
1 尹冀鋒;;一種新的圖象自適應(yīng)增強(qiáng)算法[A];四川省通信學(xué)會(huì)一九九二年學(xué)術(shù)年會(huì)論文集[C];1992年
2 寧春平;田家瑋;郭延輝;王影;張英濤;鄭桂霞;劉研;;計(jì)算機(jī)輔助增強(qiáng)、分割算法在鑒別乳腺良、惡性腫塊中的應(yīng)用價(jià)值[A];中華醫(yī)學(xué)會(huì)第十次全國超聲醫(yī)學(xué)學(xué)術(shù)會(huì)議論文匯編[C];2009年
3 謝麗聰;;SVB查詢改寫算法的改進(jìn)[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2004年
4 鄭存紅;;復(fù)雜背景下相關(guān)跟蹤算法研究及DSP實(shí)現(xiàn)[A];中國光學(xué)學(xué)會(huì)2010年光學(xué)大會(huì)論文集[C];2010年
5 楊文杰;吳軍;;RFID抗沖突算法研究[A];2008通信理論與技術(shù)新進(jìn)展——第十三屆全國青年通信學(xué)術(shù)會(huì)議論文集(上)[C];2008年
6 高山;畢篤彥;魏娜;;一種基于UPF的小目標(biāo)TBD算法[A];第十四屆全國圖象圖形學(xué)學(xué)術(shù)會(huì)議論文集[C];2008年
7 周磊;張衛(wèi)華;王曉奇;張軍;;基于流水算法的智能路障機(jī)器人設(shè)計(jì)[A];2011年全國電子信息技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2011年
8 潘巍;李戰(zhàn)懷;陳群;索博;李衛(wèi)榜;;面向MapReduce的非對稱分片復(fù)制連接算法優(yōu)化技術(shù)研究[A];第29屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(B輯)(NDBC2012)[C];2012年
9 李偉偉;蔡康穎;鄭新;王文成;;3D模型中重復(fù)結(jié)構(gòu)的多尺度快速檢測算法[A];第六屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2010)、第19屆全國多媒體學(xué)術(shù)會(huì)議(NCMT2010)、第6屆全國人機(jī)交互學(xué)術(shù)會(huì)議(CHCI2010)、第5屆全國普適計(jì)算學(xué)術(shù)會(huì)議(PCC2010)論文集[C];2010年
10 楊任爾;陳懇;勵(lì)金祥;;基于棱邊方向檢測的運(yùn)動(dòng)自適應(yīng)去隔行算法[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年
中國重要報(bào)紙全文數(shù)據(jù)庫
1 國泰君安資產(chǎn)管理部;“算法交易”是道指暴跌罪魁禍?zhǔn)?[N];上海證券報(bào);2010年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 馮輝;網(wǎng)絡(luò)化的并行與分布式優(yōu)化算法研究及應(yīng)用[D];復(fù)旦大學(xué);2013年
2 許玉杰;云計(jì)算環(huán)境下海量數(shù)據(jù)的并行聚類算法研究[D];大連海事大學(xué);2014年
3 李琰;基于貓群算法的高光譜遙感森林類型識(shí)別研究[D];東北林業(yè)大學(xué);2015年
4 陳加順;海洋環(huán)境下聚類算法的研究[D];南京航空航天大學(xué);2014年
5 王洋;基于群體智能的通信網(wǎng)絡(luò)告警關(guān)聯(lián)規(guī)則挖掘算法研究[D];太原理工大學(xué);2015年
6 雷雨;面向考試時(shí)間表問題的啟發(fā)式進(jìn)化算法研究[D];西安電子科技大學(xué);2015年
7 熊霖;大數(shù)據(jù)下的數(shù)據(jù)選擇與學(xué)習(xí)算法研究[D];西安電子科技大學(xué);2015年
8 周雷;基于圖結(jié)構(gòu)的目標(biāo)檢測與分割算法研究[D];上海交通大學(xué);2014年
9 王冰;人工蜂群算法的改進(jìn)及相關(guān)應(yīng)用的研究[D];北京理工大學(xué);2015年
10 蔣亦樟;多視角和遷移學(xué)習(xí)識(shí)別方法和智能建模研究[D];江南大學(xué);2015年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 姚鑫宇;EMD去噪與MUSIC算法在DOA估計(jì)中的聯(lián)合應(yīng)用[D];昆明理工大學(xué);2015年
2 陸進(jìn);面向含噪數(shù)據(jù)聚類相關(guān)算法的研究[D];復(fù)旦大學(xué);2014年
3 李家昌;基于能量約束的超聲圖像自動(dòng)分割算法[D];華南理工大學(xué);2015年
4 陳堅(jiān);基于密度和約束的數(shù)據(jù)流聚類算法研究[D];蘭州大學(xué);2015年
5 高健;基于Zynq7000平臺(tái)的去霧算法研究及實(shí)現(xiàn)[D];南京理工大學(xué);2015年
6 顧磊;基于Hadoop的聚類算法的數(shù)據(jù)優(yōu)化及其應(yīng)用研究[D];南京信息工程大學(xué);2015年
7 楊燕霞;基于Hadoop平臺(tái)的并行關(guān)聯(lián)規(guī)則挖掘算法研究[D];四川師范大學(xué);2015年
8 王羽;基于MapReduce的社區(qū)發(fā)現(xiàn)算法的設(shè)計(jì)與實(shí)現(xiàn)[D];南京理工大學(xué);2015年
9 許振佳;流式數(shù)據(jù)的并行聚類算法研究[D];曲阜師范大學(xué);2015年
10 董琴;人工蜂群算法的改進(jìn)與應(yīng)用[D];大連海事大學(xué);2015年
本文關(guān)鍵詞:基于Spark平臺(tái)的局部離群值挖掘算法研究,由筆耕文化傳播整理發(fā)布。
,本文編號(hào):261796
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/261796.html