面向概念漂移和不均衡數(shù)據(jù)流的分類算法研究
發(fā)布時間:2021-06-13 18:27
近年來隨著大數(shù)據(jù)和云計算的迅速發(fā)展,在互聯(lián)網(wǎng)等方面源源不斷地產(chǎn)生大量的數(shù)據(jù)流。學(xué)者們?yōu)榱双@取并分析這些領(lǐng)域的數(shù)據(jù)流中隱含的大量的有用信息,為此對數(shù)據(jù)流挖掘領(lǐng)域展開了深入研究。然而,靜態(tài)數(shù)據(jù)與數(shù)據(jù)流并不完全相同,數(shù)據(jù)流的特點是快速性、連續(xù)性、多變性、無限性等。特點的不同決定了數(shù)據(jù)流挖掘算法并不能完全沿用傳統(tǒng)的數(shù)據(jù)挖掘算法。不僅如此,數(shù)據(jù)流中會產(chǎn)生概念漂移現(xiàn)象即數(shù)據(jù)的分布會隨著時間的變化而隨之變化,這一現(xiàn)象無形中對數(shù)據(jù)流挖掘也造成了巨大的難度。與靜態(tài)數(shù)據(jù)相同的是,數(shù)據(jù)流中也存在類不均衡現(xiàn)象,這些都是流挖掘過程中不得不面對和迫切需要解決的重點和難點問題。因此,本文主要圍繞以上問題,對數(shù)據(jù)流中的概念漂移現(xiàn)象和類不均衡問題展開深入研究,其主要的工作內(nèi)容包括:針對數(shù)據(jù)流中概念漂移問題,本章介紹了基于數(shù)據(jù)分布的概念漂移檢測算法,主要分為概念漂移檢測模塊和概念重現(xiàn)檢測模塊。該算法不僅能處理數(shù)據(jù)流中的概念漂移現(xiàn)象,還可以檢測到重現(xiàn)概念問題。首先利用概念漂移檢測算法檢測出數(shù)據(jù)流中的概念漂移問題,然后在概念重現(xiàn)模塊中解決重現(xiàn)漂移的問題。最后在數(shù)據(jù)流機器學(xué)習(xí)實驗分析平臺MOA上對該算法進行大量驗證與分析。結(jié)果...
【文章來源】:重慶郵電大學(xué)重慶市
【文章頁數(shù)】:72 頁
【學(xué)位級別】:碩士
【部分圖文】:
概念漂移類型
重慶郵電大學(xué)碩士學(xué)位論文2. 緩慢型概念漂移(Gradual Concept Drift):指當(dāng)數(shù)據(jù)流中概念發(fā)生了變化,但變化非常緩慢且幅度小的現(xiàn)象,例如車輛輪胎的磨損程度,若模型不考慮輪磨損,會使車輛的使用壽命大大降低。如圖 2.2(b)所示。3. 尖峰(Blip):指表示數(shù)據(jù)流的特有時間。數(shù)據(jù)流中的尖峰和靜態(tài)數(shù)據(jù)中的離有點相似,都是隨機出現(xiàn)的,一般都要經(jīng)過數(shù)據(jù)處理。例如,詐騙短信,欺易及異常入侵等。如圖 2.2(c)所示。4. 噪聲(Noise):噪聲與概念漂移并沒有直接的關(guān)系,只是噪聲數(shù)據(jù)在數(shù)據(jù)流的過程中不被處理的話會對模型的分類精度產(chǎn)生較大的影響,導(dǎo)致模型分析不準確。而噪聲多是在傳輸過程中產(chǎn)生的,導(dǎo)致數(shù)據(jù)會相比于原來有所偏倚 2.2(d)所示。
重現(xiàn)漂移
【參考文獻】:
期刊論文
[1]一種不平衡數(shù)據(jù)流集成分類模型[J]. 歐陽震諍,羅建書,胡東敏,吳泉源. 電子學(xué)報. 2010(01)
本文編號:3228080
【文章來源】:重慶郵電大學(xué)重慶市
【文章頁數(shù)】:72 頁
【學(xué)位級別】:碩士
【部分圖文】:
概念漂移類型
重慶郵電大學(xué)碩士學(xué)位論文2. 緩慢型概念漂移(Gradual Concept Drift):指當(dāng)數(shù)據(jù)流中概念發(fā)生了變化,但變化非常緩慢且幅度小的現(xiàn)象,例如車輛輪胎的磨損程度,若模型不考慮輪磨損,會使車輛的使用壽命大大降低。如圖 2.2(b)所示。3. 尖峰(Blip):指表示數(shù)據(jù)流的特有時間。數(shù)據(jù)流中的尖峰和靜態(tài)數(shù)據(jù)中的離有點相似,都是隨機出現(xiàn)的,一般都要經(jīng)過數(shù)據(jù)處理。例如,詐騙短信,欺易及異常入侵等。如圖 2.2(c)所示。4. 噪聲(Noise):噪聲與概念漂移并沒有直接的關(guān)系,只是噪聲數(shù)據(jù)在數(shù)據(jù)流的過程中不被處理的話會對模型的分類精度產(chǎn)生較大的影響,導(dǎo)致模型分析不準確。而噪聲多是在傳輸過程中產(chǎn)生的,導(dǎo)致數(shù)據(jù)會相比于原來有所偏倚 2.2(d)所示。
重現(xiàn)漂移
【參考文獻】:
期刊論文
[1]一種不平衡數(shù)據(jù)流集成分類模型[J]. 歐陽震諍,羅建書,胡東敏,吳泉源. 電子學(xué)報. 2010(01)
本文編號:3228080
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3228080.html
最近更新
教材專著