復(fù)雜環(huán)境下數(shù)據(jù)流自適應(yīng)學(xué)習策略及其應(yīng)用研究
發(fā)布時間:2021-09-07 03:43
在許多的應(yīng)用領(lǐng)域中,如電子商務(wù)、入侵監(jiān)控、物聯(lián)網(wǎng)環(huán)境監(jiān)控等,正在以驚人的速度產(chǎn)生大量的數(shù)據(jù)流,其中蘊含著豐富的有價值信息。對這些海量數(shù)據(jù)的提取、處理以及進一步的分析是當前數(shù)據(jù)挖掘領(lǐng)域的一大研究熱點。與一般數(shù)據(jù)環(huán)境相比,數(shù)據(jù)流具有高速到達、海量數(shù)據(jù)特點,傳統(tǒng)數(shù)據(jù)挖掘策略無法較好適應(yīng)其環(huán)境。因此,在這種復(fù)雜環(huán)境下,采用合理的學(xué)習策略是數(shù)據(jù)流挖掘領(lǐng)域中的重點。數(shù)據(jù)流中的分類問題主要存在以下挑戰(zhàn):第一,數(shù)據(jù)流數(shù)據(jù)分布的變化多樣且未知性,導(dǎo)致了分類器的分類性能損失;第二,數(shù)據(jù)流中類別分布不平衡現(xiàn)象,對學(xué)習策略的要求進一步加大;第三,數(shù)據(jù)流中的噪聲數(shù)據(jù)往往對分類模型的選擇策略造成不同程度的干擾。本文將圍繞上述問題,對復(fù)雜環(huán)境下數(shù)據(jù)流的自適應(yīng)學(xué)習策略進行了研究,主要工作包括:(1)提出了基于深度屬性加權(quán)的自適應(yīng)集成策略,改善對具有噪聲干擾的數(shù)據(jù)流環(huán)境適應(yīng)性。該策略采用增量式學(xué)習和集成學(xué)習機制。依據(jù)不同屬性值對分類貢獻進行局部加權(quán),并設(shè)計了動態(tài)自適應(yīng)閾值,同時組合分類器置信度和分類器精度權(quán)重的雙重權(quán)重策略,進一步改善對基分類器的權(quán)重分配。有效控制噪聲數(shù)據(jù)或無關(guān)屬性干擾,并改善對概念漂移適應(yīng)性。通過合成...
【文章來源】:北京交通大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:74 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2-1幾種不同類型的概念漂移??ure-
?(2-1)??這里y表示在時間點/輸入特征x與類標>■之間的聯(lián)合分布。??根據(jù)時間變化的方式,概念漂移可分為四種[3],圖2-1為四種不同類型概念漂??移的示意圖:??(1)
通常包括對少數(shù)類實例進行過采樣,或?qū)Χ鄶?shù)類實例進行欠采樣或組合??兩種方式進行采樣。??簡單的過采樣技術(shù)將復(fù)制少數(shù)類實例,示意圖如圖2-3所示。然而,由于樣本??僅僅是復(fù)制的,因此對隨機過采樣數(shù)據(jù)進行訓(xùn)練的分類器很可能會受到過度擬合??的影響[5G,51]。基于上述原因,Chawla提出了?SMOTE算法,避免了隨機過采樣所??面臨的過度擬合風險。該技術(shù)不僅僅復(fù)制現(xiàn)有的觀測結(jié)果,而是生成合成數(shù)據(jù)[52]。??然而,該算法在處理不平衡和噪聲方面存在一些缺點:SMOTE隨機選擇少數(shù)例子??以均勻概率進行過采樣的事實。Douzas等人采用hmeans聚類算法結(jié)合SMOTE??過采樣,以重新平衡偏態(tài)分布的數(shù)據(jù)集。它設(shè)法通過僅在安全區(qū)域進行過采樣來??避免產(chǎn)生噪聲。解決了類間的不平衡和類內(nèi)的不平衡,通過消除稀少的少數(shù)類別??來解決小的分離問題[53]。??〇?〇?〇??交廣、、立?U?☆廣;☆?CJ?☆??'、?一?乂?/—、'?,一、
【參考文獻】:
期刊論文
[1]具有回憶和遺忘機制的數(shù)據(jù)流挖掘模型與算法[J]. 趙強利,蔣艷凰,盧宇彤. 軟件學(xué)報. 2015(10)
本文編號:3388774
【文章來源】:北京交通大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:74 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2-1幾種不同類型的概念漂移??ure-
?(2-1)??這里y表示在時間點/輸入特征x與類標>■之間的聯(lián)合分布。??根據(jù)時間變化的方式,概念漂移可分為四種[3],圖2-1為四種不同類型概念漂??移的示意圖:??(1)
通常包括對少數(shù)類實例進行過采樣,或?qū)Χ鄶?shù)類實例進行欠采樣或組合??兩種方式進行采樣。??簡單的過采樣技術(shù)將復(fù)制少數(shù)類實例,示意圖如圖2-3所示。然而,由于樣本??僅僅是復(fù)制的,因此對隨機過采樣數(shù)據(jù)進行訓(xùn)練的分類器很可能會受到過度擬合??的影響[5G,51]。基于上述原因,Chawla提出了?SMOTE算法,避免了隨機過采樣所??面臨的過度擬合風險。該技術(shù)不僅僅復(fù)制現(xiàn)有的觀測結(jié)果,而是生成合成數(shù)據(jù)[52]。??然而,該算法在處理不平衡和噪聲方面存在一些缺點:SMOTE隨機選擇少數(shù)例子??以均勻概率進行過采樣的事實。Douzas等人采用hmeans聚類算法結(jié)合SMOTE??過采樣,以重新平衡偏態(tài)分布的數(shù)據(jù)集。它設(shè)法通過僅在安全區(qū)域進行過采樣來??避免產(chǎn)生噪聲。解決了類間的不平衡和類內(nèi)的不平衡,通過消除稀少的少數(shù)類別??來解決小的分離問題[53]。??〇?〇?〇??交廣、、立?U?☆廣;☆?CJ?☆??'、?一?乂?/—、'?,一、
【參考文獻】:
期刊論文
[1]具有回憶和遺忘機制的數(shù)據(jù)流挖掘模型與算法[J]. 趙強利,蔣艷凰,盧宇彤. 軟件學(xué)報. 2015(10)
本文編號:3388774
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3388774.html
最近更新
教材專著