面向概念漂移和不均衡數(shù)據(jù)流的分類算法研究
發(fā)布時(shí)間:2021-06-13 18:27
近年來(lái)隨著大數(shù)據(jù)和云計(jì)算的迅速發(fā)展,在互聯(lián)網(wǎng)等方面源源不斷地產(chǎn)生大量的數(shù)據(jù)流。學(xué)者們?yōu)榱双@取并分析這些領(lǐng)域的數(shù)據(jù)流中隱含的大量的有用信息,為此對(duì)數(shù)據(jù)流挖掘領(lǐng)域展開(kāi)了深入研究。然而,靜態(tài)數(shù)據(jù)與數(shù)據(jù)流并不完全相同,數(shù)據(jù)流的特點(diǎn)是快速性、連續(xù)性、多變性、無(wú)限性等。特點(diǎn)的不同決定了數(shù)據(jù)流挖掘算法并不能完全沿用傳統(tǒng)的數(shù)據(jù)挖掘算法。不僅如此,數(shù)據(jù)流中會(huì)產(chǎn)生概念漂移現(xiàn)象即數(shù)據(jù)的分布會(huì)隨著時(shí)間的變化而隨之變化,這一現(xiàn)象無(wú)形中對(duì)數(shù)據(jù)流挖掘也造成了巨大的難度。與靜態(tài)數(shù)據(jù)相同的是,數(shù)據(jù)流中也存在類不均衡現(xiàn)象,這些都是流挖掘過(guò)程中不得不面對(duì)和迫切需要解決的重點(diǎn)和難點(diǎn)問(wèn)題。因此,本文主要圍繞以上問(wèn)題,對(duì)數(shù)據(jù)流中的概念漂移現(xiàn)象和類不均衡問(wèn)題展開(kāi)深入研究,其主要的工作內(nèi)容包括:針對(duì)數(shù)據(jù)流中概念漂移問(wèn)題,本章介紹了基于數(shù)據(jù)分布的概念漂移檢測(cè)算法,主要分為概念漂移檢測(cè)模塊和概念重現(xiàn)檢測(cè)模塊。該算法不僅能處理數(shù)據(jù)流中的概念漂移現(xiàn)象,還可以檢測(cè)到重現(xiàn)概念問(wèn)題。首先利用概念漂移檢測(cè)算法檢測(cè)出數(shù)據(jù)流中的概念漂移問(wèn)題,然后在概念重現(xiàn)模塊中解決重現(xiàn)漂移的問(wèn)題。最后在數(shù)據(jù)流機(jī)器學(xué)習(xí)實(shí)驗(yàn)分析平臺(tái)MOA上對(duì)該算法進(jìn)行大量驗(yàn)證與分析。結(jié)果...
【文章來(lái)源】:重慶郵電大學(xué)重慶市
【文章頁(yè)數(shù)】:72 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
概念漂移類型
重慶郵電大學(xué)碩士學(xué)位論文2. 緩慢型概念漂移(Gradual Concept Drift):指當(dāng)數(shù)據(jù)流中概念發(fā)生了變化,但變化非常緩慢且幅度小的現(xiàn)象,例如車輛輪胎的磨損程度,若模型不考慮輪磨損,會(huì)使車輛的使用壽命大大降低。如圖 2.2(b)所示。3. 尖峰(Blip):指表示數(shù)據(jù)流的特有時(shí)間。數(shù)據(jù)流中的尖峰和靜態(tài)數(shù)據(jù)中的離有點(diǎn)相似,都是隨機(jī)出現(xiàn)的,一般都要經(jīng)過(guò)數(shù)據(jù)處理。例如,詐騙短信,欺易及異常入侵等。如圖 2.2(c)所示。4. 噪聲(Noise):噪聲與概念漂移并沒(méi)有直接的關(guān)系,只是噪聲數(shù)據(jù)在數(shù)據(jù)流的過(guò)程中不被處理的話會(huì)對(duì)模型的分類精度產(chǎn)生較大的影響,導(dǎo)致模型分析不準(zhǔn)確。而噪聲多是在傳輸過(guò)程中產(chǎn)生的,導(dǎo)致數(shù)據(jù)會(huì)相比于原來(lái)有所偏倚 2.2(d)所示。
重現(xiàn)漂移
【參考文獻(xiàn)】:
期刊論文
[1]一種不平衡數(shù)據(jù)流集成分類模型[J]. 歐陽(yáng)震諍,羅建書(shū),胡東敏,吳泉源. 電子學(xué)報(bào). 2010(01)
本文編號(hào):3228080
【文章來(lái)源】:重慶郵電大學(xué)重慶市
【文章頁(yè)數(shù)】:72 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
概念漂移類型
重慶郵電大學(xué)碩士學(xué)位論文2. 緩慢型概念漂移(Gradual Concept Drift):指當(dāng)數(shù)據(jù)流中概念發(fā)生了變化,但變化非常緩慢且幅度小的現(xiàn)象,例如車輛輪胎的磨損程度,若模型不考慮輪磨損,會(huì)使車輛的使用壽命大大降低。如圖 2.2(b)所示。3. 尖峰(Blip):指表示數(shù)據(jù)流的特有時(shí)間。數(shù)據(jù)流中的尖峰和靜態(tài)數(shù)據(jù)中的離有點(diǎn)相似,都是隨機(jī)出現(xiàn)的,一般都要經(jīng)過(guò)數(shù)據(jù)處理。例如,詐騙短信,欺易及異常入侵等。如圖 2.2(c)所示。4. 噪聲(Noise):噪聲與概念漂移并沒(méi)有直接的關(guān)系,只是噪聲數(shù)據(jù)在數(shù)據(jù)流的過(guò)程中不被處理的話會(huì)對(duì)模型的分類精度產(chǎn)生較大的影響,導(dǎo)致模型分析不準(zhǔn)確。而噪聲多是在傳輸過(guò)程中產(chǎn)生的,導(dǎo)致數(shù)據(jù)會(huì)相比于原來(lái)有所偏倚 2.2(d)所示。
重現(xiàn)漂移
【參考文獻(xiàn)】:
期刊論文
[1]一種不平衡數(shù)據(jù)流集成分類模型[J]. 歐陽(yáng)震諍,羅建書(shū),胡東敏,吳泉源. 電子學(xué)報(bào). 2010(01)
本文編號(hào):3228080
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3228080.html
最近更新
教材專著