含噪動態(tài)數(shù)據(jù)流的分類研究
發(fā)布時間:2017-03-30 00:07
本文關(guān)鍵詞:含噪動態(tài)數(shù)據(jù)流的分類研究,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著網(wǎng)絡(luò)通信、計算機技術(shù)的快速發(fā)展,股市數(shù)據(jù)分析、天氣預(yù)測、衛(wèi)星監(jiān)測、網(wǎng)絡(luò)流量監(jiān)控等多個領(lǐng)域都產(chǎn)生了數(shù)據(jù)流。由于數(shù)據(jù)流具有快速、連續(xù)與動態(tài)變化的特征,傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)對之無效。而且,動態(tài)數(shù)據(jù)流存在概念漂移現(xiàn)象,即隱含在數(shù)據(jù)中的概念可能會隨時間變化而發(fā)生改變。因此,如何有效解決數(shù)據(jù)流中的概念漂移成為一個熱門問題。而在實際生活中噪聲無處不在,噪聲數(shù)據(jù)的存在影響了數(shù)據(jù)流的分類效果。因此,如何有效地處理存在噪聲的動態(tài)數(shù)據(jù)流是一個有待進一步研究的問題。本文對于數(shù)據(jù)流分類過程中存在的概念漂移與噪聲問題主要做以下研究工作:(1)綜述數(shù)據(jù)挖掘與數(shù)據(jù)流分類的相關(guān)技術(shù),對數(shù)據(jù)流上的概念漂移、噪聲問題作詳細闡述和分析。(2)對于數(shù)據(jù)流分類過程中的概念漂移問題,基于“與當(dāng)前分類模型不符合的實例可能代表了新概念的變化趨勢”這一假設(shè),提出一種處理概念漂移的數(shù)據(jù)流分類算法EWDSCA(Examples of weighted for data streams classification algorithm)。該方法運用實例加權(quán)思想,提高可能代表新概念實例在基分類器構(gòu)建中的影響力,使分類模型能夠更加適應(yīng)新的概念。同時,引入動態(tài)權(quán)值調(diào)整因子來提高算法適應(yīng)能力。研究表明,與weighted bagging相比,EWDSCA運行效率更高,分類效果更好。(3)在現(xiàn)實世界中,數(shù)據(jù)流大多包含噪聲數(shù)據(jù),噪聲問題的存在大大影響了算法的分類效果。為了解決這個問題,設(shè)計出一種基于密度聚類算法的數(shù)據(jù)流分類算法FDNDCA(Fast-DBSCAN for noise data streams classification algorithm)。該算法采用快速聚類算法FDBSCAN來過濾噪聲,結(jié)合實例加權(quán)思想,以UFFT為基分類器構(gòu)建加權(quán)集成模型,并引入μ檢驗方法來檢測概念漂移。研究表明,FDNDCA算法在處理含噪動態(tài)數(shù)據(jù)流方面和已有的分類算法相比,分類性能更具優(yōu)勢。
【關(guān)鍵詞】:數(shù)據(jù)流挖掘 分類技術(shù) 概念漂移 噪聲數(shù)據(jù)
【學(xué)位授予單位】:江蘇科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP311.13
【目錄】:
- 摘要5-6
- Abstract6-12
- 第1章 緒論12-18
- 1.1 研究背景及意義12-14
- 1.1.1 研究背景12-13
- 1.1.2 研究意義13-14
- 1.2 國內(nèi)外研究現(xiàn)狀14-15
- 1.3 主要研究內(nèi)容15
- 1.4 本文組織結(jié)構(gòu)15-18
- 第2章 數(shù)據(jù)流分類挖掘研究18-28
- 2.1 數(shù)據(jù)流的概念及應(yīng)用18-19
- 2.1.1 數(shù)據(jù)流的定義18
- 2.1.2 數(shù)據(jù)流的特點18-19
- 2.1.3 數(shù)據(jù)流的應(yīng)用領(lǐng)域19
- 2.2 分類技術(shù)19-21
- 2.2.1 分類的定義和過程19-20
- 2.2.2 分類方法20-21
- 2.3 數(shù)據(jù)流上的概念漂移21-23
- 2.3.1 概念漂移的定義及分類21-22
- 2.3.2 概念漂移的處理方法22-23
- 2.3.3 數(shù)據(jù)流中概念漂移的基本問題23
- 2.4 數(shù)據(jù)流上的噪聲問題23-25
- 2.4.1 噪聲數(shù)據(jù)23-24
- 2.4.2 噪聲數(shù)據(jù)流的處理24-25
- 2.5 數(shù)據(jù)流分類算法概述25-27
- 2.5.1 數(shù)據(jù)流分類算法介紹25-26
- 2.5.2 數(shù)據(jù)流分類算法的特點26-27
- 2.6 本章小結(jié)27-28
- 第3章 基于實例加權(quán)的概念漂移問題研究28-42
- 3.1 引言28
- 3.2 基于實例的概念漂移處理方法28-29
- 3.3 基于實例加權(quán)的概念漂移分類方法29-34
- 3.3.1 實例加權(quán)30-31
- 3.3.2 基分類器的更新31-32
- 3.3.3 EWDSCA算法描述32-33
- 3.3.4 EWDSCA算法分析33-34
- 3.4 實驗與分析34-39
- 3.5 本章小結(jié)39-42
- 第4章 基于密度聚類方法的噪聲處理42-54
- 4.1 引言42
- 4.2 FDBSCAN算法42-44
- 4.2.1 DBSCAN算法43-44
- 4.2.2 FDBSCAN算法描述44
- 4.3 UFFT簡介44-46
- 4.4 FDNDCA分類算法46-48
- 4.4.1 算法描述46-47
- 4.4.2 概念漂移檢測機制47-48
- 4.5 實驗與分析48-53
- 4.5.1 FDBSCAN與DBSCAN算法比較48-50
- 4.5.2 概念漂移的檢測50
- 4.5.3 噪聲過濾效果50-51
- 4.5.4 與其他算法性能對比51-52
- 4.5.5 時間性能比較52-53
- 4.6 本章小結(jié)53-54
- 第5章 總結(jié)與展望54-56
- 5.1 本文總結(jié)54-55
- 5.2 工作展望55-56
- 參考文獻56-60
- 攻讀碩士學(xué)位期間發(fā)表的論文60-62
- 致謝62-63
- 詳細摘要63-67
本文關(guān)鍵詞:含噪動態(tài)數(shù)據(jù)流的分類研究,,由筆耕文化傳播整理發(fā)布。
本文編號:275737
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/275737.html
最近更新
教材專著