概念漂移數(shù)據(jù)流分類算法研究
發(fā)布時(shí)間:2021-04-16 20:43
數(shù)據(jù)流分類問題是數(shù)據(jù)挖掘領(lǐng)域中重要的研究方向之一,其主要特征為數(shù)據(jù)序列以流的形式不斷地產(chǎn)生,如傳感器網(wǎng)絡(luò)異常檢測(cè)、信用卡欺詐行為監(jiān)測(cè)、天氣預(yù)報(bào)和電價(jià)預(yù)測(cè)等實(shí)際問題中,新的數(shù)據(jù)序列都以快速、實(shí)時(shí)、連續(xù)的形式不斷地到達(dá).存在于數(shù)據(jù)流中的核心問題之一是數(shù)據(jù)流中往往存在概念漂移現(xiàn)象,即數(shù)據(jù)分布會(huì)隨著時(shí)間的推移而發(fā)生改變.這種數(shù)據(jù)分布的不穩(wěn)定特性大大影響了分類模型的性能和更新代價(jià).在概念漂移數(shù)據(jù)流環(huán)境中,概念經(jīng)過(guò)一段時(shí)間之后可能重復(fù)出現(xiàn),這種概念重現(xiàn)現(xiàn)象導(dǎo)致算法不斷地在相同的概念上學(xué)習(xí)新模型,浪費(fèi)模型訓(xùn)練時(shí)間甚至降低其總體性能.另外,數(shù)據(jù)類分布不平衡以及實(shí)例屬于多標(biāo)簽等問題也影響著模型在概念漂移數(shù)據(jù)流上的分類性能,其中前者期望模型能更準(zhǔn)確預(yù)測(cè)少數(shù)類實(shí)例,而后者期望模型能準(zhǔn)確預(yù)測(cè)實(shí)例所屬的標(biāo)簽集合.針對(duì)以上問題,本文在深入分析包含概念漂移的數(shù)據(jù)流特性及相關(guān)理論的基礎(chǔ)上,研究并提出新的面向概念漂移數(shù)據(jù)流問題的分類算法.主要貢獻(xiàn)和創(chuàng)新點(diǎn)如下.(1)提出一種基于自適應(yīng)滑動(dòng)窗口的數(shù)據(jù)流集成算法(AWDE).不同于傳統(tǒng)集成算法,AWDE使用自適應(yīng)滑動(dòng)窗口檢測(cè)方法為每個(gè)基分類器自適應(yīng)地構(gòu)建相應(yīng)訓(xùn)練數(shù)據(jù)集,具體...
【文章來(lái)源】:北京交通大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:138 頁(yè)
【學(xué)位級(jí)別】:博士
【部分圖文】:
圖1.2數(shù)據(jù)流中的概念漂移??Figure?1.2?Concept?drift?in?data?stream??
亟待解決的問題,即多種類型概念漂移、概念重復(fù)出現(xiàn)、類不平衡以及多標(biāo)簽數(shù)據(jù)??流等問題,結(jié)合集成學(xué)習(xí)方法,提出一系列有效的算法,并通過(guò)實(shí)驗(yàn)驗(yàn)證算法的有??效性.具體地,全文共分為7章,主要結(jié)構(gòu)如圖1.3所示.??第1章首先闡述數(shù)據(jù)流挖掘的研究背景及意義,接著,介紹國(guó)內(nèi)外研究現(xiàn)狀,??然后,分析概念漂移數(shù)據(jù)流分類過(guò)程中亟待解決的問題,最后,介紹本文主要研究??內(nèi)容及論文組織結(jié)構(gòu).??第2章介紹數(shù)據(jù)流分類過(guò)程中概念漂移處理相關(guān)研宄工作.首先,介紹數(shù)據(jù)??流分類模型與概念漂移相關(guān)的概念;接著,對(duì)概念漂移進(jìn)行分類,并分析其產(chǎn)生的??主要原因;然后,對(duì)處理概念漂移的方法做了重點(diǎn)介紹;最后,介紹數(shù)據(jù)流分類算??法評(píng)價(jià)體系和本文所采用的實(shí)驗(yàn)平臺(tái).??研宄對(duì)象:概念漂移環(huán)境下數(shù)據(jù)流分類?????j研宄問題、??|?<?念漂移處I??i?V?i??*?I??i?
Concept?Drift)、漸變式(Gradual?Concept?Drift)、增量式(Incremental?Concept?Drift)??和重現(xiàn)式概念漂移(Recurring?Concept?Drift).??如圖2.2?(a)所示,若在一段較短的時(shí)間內(nèi),數(shù)據(jù)流中數(shù)據(jù)分布突然地被另一??個(gè)完全不同的分布所取代,則稱此時(shí)發(fā)生了突變式概念漂移.這種變化通常在毫無(wú)??征兆的情況下發(fā)生,會(huì)使準(zhǔn)確率急劇降低甚至導(dǎo)致模型完全失效.應(yīng)對(duì)此類概念漂??移,要求模型具有很高的數(shù)據(jù)敏感度,能夠及時(shí)發(fā)現(xiàn)這種改變,并對(duì)模型進(jìn)行相應(yīng)??的更新,以適應(yīng)新的數(shù)據(jù)分布.??漸變式概念漂移是一種慢速率的改變,即數(shù)據(jù)變化幅度非常小.如圖2.2(b)??所示,通常是經(jīng)過(guò)一段較長(zhǎng)時(shí)間之后才觀察到,且概念漂移發(fā)生前后概念之間有或??多或少的相似.??增量式概念漂移與漸變式概念漂移非常類似,如圖2.2?(c)所示,表示概念是??增量式發(fā)生改變的.在變化期間
【參考文獻(xiàn)】:
期刊論文
[1]基于顯露模式的數(shù)據(jù)流貝葉斯分類算法[J]. 杜超,王志海,江晶晶,孫艷歌. 軟件學(xué)報(bào). 2017(11)
[2]基于信息熵的自適應(yīng)網(wǎng)絡(luò)流概念漂移分類方法[J]. 潘吳斌,程光,郭曉軍,黃順翔. 計(jì)算機(jī)學(xué)報(bào). 2017(07)
[3]具有回憶和遺忘機(jī)制的數(shù)據(jù)流挖掘模型與算法[J]. 趙強(qiáng)利,蔣艷凰,盧宇彤. 軟件學(xué)報(bào). 2015(10)
[4]集成學(xué)習(xí)中的多樣性度量[J]. 孫博,王建東,陳海燕,王寅同. 控制與決策. 2014(03)
[5]概念漂移數(shù)據(jù)流分類研究綜述[J]. 文益民,強(qiáng)保華,范志剛. 智能系統(tǒng)學(xué)報(bào). 2013(02)
[6]針對(duì)高速數(shù)據(jù)流的大規(guī)模數(shù)據(jù)實(shí)時(shí)處理方法[J]. 亓開元,趙卓峰,房俊,馬強(qiáng). 計(jì)算機(jī)學(xué)報(bào). 2012(03)
[7]一種基于雙層窗口的概念漂移數(shù)據(jù)流分類算法[J]. 朱群,張玉紅,胡學(xué)鋼,李培培. 自動(dòng)化學(xué)報(bào). 2011(09)
[8]一種不平衡數(shù)據(jù)流集成分類模型[J]. 歐陽(yáng)震諍,羅建書,胡東敏,吳泉源. 電子學(xué)報(bào). 2010(01)
[9]基于多分類器的數(shù)據(jù)流中的概念漂移挖掘[J]. 孫岳,毛國(guó)君,劉旭,劉椿年. 自動(dòng)化學(xué)報(bào). 2008(01)
[10]一種高效的數(shù)據(jù)流挖掘增量模糊決策樹分類算法[J]. 王濤,李舟軍,胡小華,顏躍進(jìn),陳火旺. 計(jì)算機(jī)學(xué)報(bào). 2007(08)
本文編號(hào):3142139
【文章來(lái)源】:北京交通大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:138 頁(yè)
【學(xué)位級(jí)別】:博士
【部分圖文】:
圖1.2數(shù)據(jù)流中的概念漂移??Figure?1.2?Concept?drift?in?data?stream??
亟待解決的問題,即多種類型概念漂移、概念重復(fù)出現(xiàn)、類不平衡以及多標(biāo)簽數(shù)據(jù)??流等問題,結(jié)合集成學(xué)習(xí)方法,提出一系列有效的算法,并通過(guò)實(shí)驗(yàn)驗(yàn)證算法的有??效性.具體地,全文共分為7章,主要結(jié)構(gòu)如圖1.3所示.??第1章首先闡述數(shù)據(jù)流挖掘的研究背景及意義,接著,介紹國(guó)內(nèi)外研究現(xiàn)狀,??然后,分析概念漂移數(shù)據(jù)流分類過(guò)程中亟待解決的問題,最后,介紹本文主要研究??內(nèi)容及論文組織結(jié)構(gòu).??第2章介紹數(shù)據(jù)流分類過(guò)程中概念漂移處理相關(guān)研宄工作.首先,介紹數(shù)據(jù)??流分類模型與概念漂移相關(guān)的概念;接著,對(duì)概念漂移進(jìn)行分類,并分析其產(chǎn)生的??主要原因;然后,對(duì)處理概念漂移的方法做了重點(diǎn)介紹;最后,介紹數(shù)據(jù)流分類算??法評(píng)價(jià)體系和本文所采用的實(shí)驗(yàn)平臺(tái).??研宄對(duì)象:概念漂移環(huán)境下數(shù)據(jù)流分類?????j研宄問題、??|?<?念漂移處I??i?V?i??*?I??i?
Concept?Drift)、漸變式(Gradual?Concept?Drift)、增量式(Incremental?Concept?Drift)??和重現(xiàn)式概念漂移(Recurring?Concept?Drift).??如圖2.2?(a)所示,若在一段較短的時(shí)間內(nèi),數(shù)據(jù)流中數(shù)據(jù)分布突然地被另一??個(gè)完全不同的分布所取代,則稱此時(shí)發(fā)生了突變式概念漂移.這種變化通常在毫無(wú)??征兆的情況下發(fā)生,會(huì)使準(zhǔn)確率急劇降低甚至導(dǎo)致模型完全失效.應(yīng)對(duì)此類概念漂??移,要求模型具有很高的數(shù)據(jù)敏感度,能夠及時(shí)發(fā)現(xiàn)這種改變,并對(duì)模型進(jìn)行相應(yīng)??的更新,以適應(yīng)新的數(shù)據(jù)分布.??漸變式概念漂移是一種慢速率的改變,即數(shù)據(jù)變化幅度非常小.如圖2.2(b)??所示,通常是經(jīng)過(guò)一段較長(zhǎng)時(shí)間之后才觀察到,且概念漂移發(fā)生前后概念之間有或??多或少的相似.??增量式概念漂移與漸變式概念漂移非常類似,如圖2.2?(c)所示,表示概念是??增量式發(fā)生改變的.在變化期間
【參考文獻(xiàn)】:
期刊論文
[1]基于顯露模式的數(shù)據(jù)流貝葉斯分類算法[J]. 杜超,王志海,江晶晶,孫艷歌. 軟件學(xué)報(bào). 2017(11)
[2]基于信息熵的自適應(yīng)網(wǎng)絡(luò)流概念漂移分類方法[J]. 潘吳斌,程光,郭曉軍,黃順翔. 計(jì)算機(jī)學(xué)報(bào). 2017(07)
[3]具有回憶和遺忘機(jī)制的數(shù)據(jù)流挖掘模型與算法[J]. 趙強(qiáng)利,蔣艷凰,盧宇彤. 軟件學(xué)報(bào). 2015(10)
[4]集成學(xué)習(xí)中的多樣性度量[J]. 孫博,王建東,陳海燕,王寅同. 控制與決策. 2014(03)
[5]概念漂移數(shù)據(jù)流分類研究綜述[J]. 文益民,強(qiáng)保華,范志剛. 智能系統(tǒng)學(xué)報(bào). 2013(02)
[6]針對(duì)高速數(shù)據(jù)流的大規(guī)模數(shù)據(jù)實(shí)時(shí)處理方法[J]. 亓開元,趙卓峰,房俊,馬強(qiáng). 計(jì)算機(jī)學(xué)報(bào). 2012(03)
[7]一種基于雙層窗口的概念漂移數(shù)據(jù)流分類算法[J]. 朱群,張玉紅,胡學(xué)鋼,李培培. 自動(dòng)化學(xué)報(bào). 2011(09)
[8]一種不平衡數(shù)據(jù)流集成分類模型[J]. 歐陽(yáng)震諍,羅建書,胡東敏,吳泉源. 電子學(xué)報(bào). 2010(01)
[9]基于多分類器的數(shù)據(jù)流中的概念漂移挖掘[J]. 孫岳,毛國(guó)君,劉旭,劉椿年. 自動(dòng)化學(xué)報(bào). 2008(01)
[10]一種高效的數(shù)據(jù)流挖掘增量模糊決策樹分類算法[J]. 王濤,李舟軍,胡小華,顏躍進(jìn),陳火旺. 計(jì)算機(jī)學(xué)報(bào). 2007(08)
本文編號(hào):3142139
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3142139.html
最近更新
教材專著