基于貝葉斯網(wǎng)絡(luò)的動(dòng)態(tài)數(shù)據(jù)流分類研究
發(fā)布時(shí)間:2021-04-28 10:52
隨著大數(shù)據(jù)時(shí)代的到來,在線數(shù)據(jù)大幅增加,實(shí)時(shí)挖掘海量數(shù)據(jù)流已成為機(jī)器學(xué)習(xí)領(lǐng)域面臨的一大挑戰(zhàn)。在線學(xué)習(xí)方法通過對(duì)數(shù)據(jù)的逐條處理,并利用增量式更新模型的方法實(shí)現(xiàn)了海量數(shù)據(jù)的實(shí)時(shí)處理,受到了研究人員的廣泛關(guān)注。樸素貝葉斯作為一種在線學(xué)習(xí)方法,簡單高效且有堅(jiān)實(shí)的理論基礎(chǔ),被用來解決數(shù)據(jù)流分類問題,但當(dāng)數(shù)據(jù)流中出現(xiàn)概念漂移時(shí),會(huì)嚴(yán)重影響其分類性能。同時(shí),其屬性條件獨(dú)立假設(shè)要求在現(xiàn)實(shí)應(yīng)用中通常無法滿足;谝陨蠁栴},本文以樸素貝葉斯算法為基礎(chǔ),做改進(jìn)研究:(1)為解決分類中特征空間維度過高的問題以及樸素貝葉斯算法屬性條件獨(dú)立假設(shè)的不足,提出了一種基于信息論的屬性選擇分類框架。通過分析Jeffreys散度與貝葉斯分類器Ⅰ型和Ⅱ型錯(cuò)誤相關(guān)性質(zhì),針對(duì)Jeffreys散度在多元分布下的局限性,引入衡量多分布差異的Multi-Jeffreys-Hypothesis(MJH)度量,提出基于MJH的選擇性樸素貝葉斯分類算法。實(shí)驗(yàn)結(jié)果表明了算法的良好分類效果與收斂性。(2)針對(duì)樸素貝葉斯分類器沒有檢測與處理概念漂移的機(jī)制,無法處理非靜止情況下的流式數(shù)據(jù)分類。本文提出一種基于遺忘機(jī)制的加權(quán)樸素貝葉斯算法。通過遺忘機(jī)...
【文章來源】:西安理工大學(xué)陜西省
【文章頁數(shù)】:64 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景與意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 本文主要研究內(nèi)容
1.4 本文組織結(jié)構(gòu)
2 相關(guān)理論概述
2.1 概率論基礎(chǔ)
2.2 貝葉斯分類算法
2.2.1 樸素貝葉斯分類器
2.2.2 貝葉斯網(wǎng)絡(luò)分類器
2.2.3 擴(kuò)展的樸素貝葉斯分類器
2.3 概念漂移
2.3.1 概念漂移介紹
2.3.2 概念漂移處理策略
2.4 本章小結(jié)
3 選擇性樸素貝葉斯分類算法
3.1 屬性選擇的理論框架
3.1.1 常用屬性選擇方法
3.1.2 二元假設(shè)檢驗(yàn)的差異性度量
3.2 基于MJH散度的選擇性NB算法
3.2.1 多元假設(shè)下的MJH散度
3.2.2 基于MJH散度的選擇性NB算法
3.3 實(shí)驗(yàn)分析
3.3.1 數(shù)據(jù)集
3.3.2 評(píng)估指標(biāo)
3.3.3 實(shí)驗(yàn)結(jié)果分析
3.4 本章小結(jié)
4 基于概念漂移的改進(jìn)樸素貝葉斯算法
4.1 理論基礎(chǔ)
4.1.1 基于數(shù)據(jù)塊的集成式學(xué)習(xí)方法
4.1.2 知識(shí)遷移
4.2 基于遺忘機(jī)制的加權(quán)樸素貝葉斯算法
4.2.1 基于遺忘機(jī)制的加權(quán)策略
4.2.2 FWNB算法實(shí)現(xiàn)
4.2.3 實(shí)驗(yàn)分析
4.3 基于知識(shí)遷移的集成式樸素貝葉斯算法
4.3.1 基于知識(shí)遷移的模型使用策略
4.3.2 FTENB算法實(shí)現(xiàn)
4.4 實(shí)驗(yàn)分析
4.4.1基于仿真數(shù)據(jù)的實(shí)驗(yàn)
4.4.2基于真實(shí)數(shù)據(jù)的實(shí)驗(yàn)
4.4.3 歷史模型數(shù)量對(duì)性能的影響
4.5 本章小結(jié)
5 總結(jié)與展望
5.1 總結(jié)
5.2 研究展望
致謝
參考文獻(xiàn)
攻讀碩士學(xué)位期間主要研究成果
【參考文獻(xiàn)】:
期刊論文
[1]概念的屬性約簡及異構(gòu)數(shù)據(jù)概念漂移探測[J]. 鄧大勇,盧克文,黃厚寬,鄧志軒. 電子學(xué)報(bào). 2018(05)
[2]Embedding based quantile regression neural network for probabilistic load forecasting[J]. Dahua GAN,Yi WANG,Shuo YANG,Chongqing KANG. Journal of Modern Power Systems and Clean Energy. 2018(02)
[3]面向分布式數(shù)據(jù)流大數(shù)據(jù)分類的多變量決策樹[J]. 張宇,包研科,邵良杉,劉威. 自動(dòng)化學(xué)報(bào). 2018(06)
[4]應(yīng)對(duì)傾斜數(shù)據(jù)流在線連接方法[J]. 王春凱,孟小峰. 軟件學(xué)報(bào). 2018(03)
[5]基于森林優(yōu)化特征選擇算法的改進(jìn)研究[J]. 初蓓,李占山,張夢林,于海鴻. 軟件學(xué)報(bào). 2018(09)
[6]改進(jìn)樸素貝葉斯模型的復(fù)雜網(wǎng)絡(luò)關(guān)系預(yù)測[J]. 伍杰華,沈靜,周蓓. 計(jì)算機(jī)工程與科學(xué). 2017(10)
[7]基于國土資源的大數(shù)據(jù)應(yīng)用研究[J]. 王星月,馬友華,王靜,毛雪. 國土與自然資源研究. 2017(04)
[8]基于最大信息系數(shù)的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)算法[J]. 曾千千,曾安,潘丹,楊海東,鄧杰航. 計(jì)算機(jī)工程. 2017(08)
[9]基于信息熵的自適應(yīng)網(wǎng)絡(luò)流概念漂移分類方法[J]. 潘吳斌,程光,郭曉軍,黃順翔. 計(jì)算機(jī)學(xué)報(bào). 2017(07)
本文編號(hào):3165351
【文章來源】:西安理工大學(xué)陜西省
【文章頁數(shù)】:64 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景與意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 本文主要研究內(nèi)容
1.4 本文組織結(jié)構(gòu)
2 相關(guān)理論概述
2.1 概率論基礎(chǔ)
2.2 貝葉斯分類算法
2.2.1 樸素貝葉斯分類器
2.2.2 貝葉斯網(wǎng)絡(luò)分類器
2.2.3 擴(kuò)展的樸素貝葉斯分類器
2.3 概念漂移
2.3.1 概念漂移介紹
2.3.2 概念漂移處理策略
2.4 本章小結(jié)
3 選擇性樸素貝葉斯分類算法
3.1 屬性選擇的理論框架
3.1.1 常用屬性選擇方法
3.1.2 二元假設(shè)檢驗(yàn)的差異性度量
3.2 基于MJH散度的選擇性NB算法
3.2.1 多元假設(shè)下的MJH散度
3.2.2 基于MJH散度的選擇性NB算法
3.3 實(shí)驗(yàn)分析
3.3.1 數(shù)據(jù)集
3.3.2 評(píng)估指標(biāo)
3.3.3 實(shí)驗(yàn)結(jié)果分析
3.4 本章小結(jié)
4 基于概念漂移的改進(jìn)樸素貝葉斯算法
4.1 理論基礎(chǔ)
4.1.1 基于數(shù)據(jù)塊的集成式學(xué)習(xí)方法
4.1.2 知識(shí)遷移
4.2 基于遺忘機(jī)制的加權(quán)樸素貝葉斯算法
4.2.1 基于遺忘機(jī)制的加權(quán)策略
4.2.2 FWNB算法實(shí)現(xiàn)
4.2.3 實(shí)驗(yàn)分析
4.3 基于知識(shí)遷移的集成式樸素貝葉斯算法
4.3.1 基于知識(shí)遷移的模型使用策略
4.3.2 FTENB算法實(shí)現(xiàn)
4.4 實(shí)驗(yàn)分析
4.4.1基于仿真數(shù)據(jù)的實(shí)驗(yàn)
4.4.2基于真實(shí)數(shù)據(jù)的實(shí)驗(yàn)
4.4.3 歷史模型數(shù)量對(duì)性能的影響
4.5 本章小結(jié)
5 總結(jié)與展望
5.1 總結(jié)
5.2 研究展望
致謝
參考文獻(xiàn)
攻讀碩士學(xué)位期間主要研究成果
【參考文獻(xiàn)】:
期刊論文
[1]概念的屬性約簡及異構(gòu)數(shù)據(jù)概念漂移探測[J]. 鄧大勇,盧克文,黃厚寬,鄧志軒. 電子學(xué)報(bào). 2018(05)
[2]Embedding based quantile regression neural network for probabilistic load forecasting[J]. Dahua GAN,Yi WANG,Shuo YANG,Chongqing KANG. Journal of Modern Power Systems and Clean Energy. 2018(02)
[3]面向分布式數(shù)據(jù)流大數(shù)據(jù)分類的多變量決策樹[J]. 張宇,包研科,邵良杉,劉威. 自動(dòng)化學(xué)報(bào). 2018(06)
[4]應(yīng)對(duì)傾斜數(shù)據(jù)流在線連接方法[J]. 王春凱,孟小峰. 軟件學(xué)報(bào). 2018(03)
[5]基于森林優(yōu)化特征選擇算法的改進(jìn)研究[J]. 初蓓,李占山,張夢林,于海鴻. 軟件學(xué)報(bào). 2018(09)
[6]改進(jìn)樸素貝葉斯模型的復(fù)雜網(wǎng)絡(luò)關(guān)系預(yù)測[J]. 伍杰華,沈靜,周蓓. 計(jì)算機(jī)工程與科學(xué). 2017(10)
[7]基于國土資源的大數(shù)據(jù)應(yīng)用研究[J]. 王星月,馬友華,王靜,毛雪. 國土與自然資源研究. 2017(04)
[8]基于最大信息系數(shù)的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)算法[J]. 曾千千,曾安,潘丹,楊海東,鄧杰航. 計(jì)算機(jī)工程. 2017(08)
[9]基于信息熵的自適應(yīng)網(wǎng)絡(luò)流概念漂移分類方法[J]. 潘吳斌,程光,郭曉軍,黃順翔. 計(jì)算機(jī)學(xué)報(bào). 2017(07)
本文編號(hào):3165351
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3165351.html
最近更新
教材專著