基于McDiarmid不等式的決策樹分類方法研究與應(yīng)用
發(fā)布時間:2021-01-09 03:53
隨著信息技術(shù)和大數(shù)據(jù)的不斷發(fā)展,數(shù)據(jù)流模型被廣泛應(yīng)用于社會生產(chǎn)和生活的各個領(lǐng)域。因此,數(shù)據(jù)流的收集和分析就變得至關(guān)重要。數(shù)據(jù)流的爆炸性增長,使得研究者需要更大的內(nèi)存來存儲這些數(shù)據(jù)流。然而,使用傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)很難處理數(shù)據(jù)流,并且不可能從大量數(shù)據(jù)流中提取有價值的信息。如今,研究者使用增量決策樹方法來處理數(shù)據(jù)流分類問題,這是挖掘大量數(shù)據(jù)流中有用信息的方法之一。本文首先對數(shù)據(jù)流決策樹分類方法的相關(guān)知識進(jìn)行概述,包括數(shù)據(jù)流的定義、概念、特征等。其次介紹了現(xiàn)有的決策樹分類方法,主要包括單分類決策樹方法和集成分類決策樹方法。然后研究基于McDiarmid不等式的數(shù)據(jù)流決策樹分類算法。最后設(shè)計(jì)實(shí)現(xiàn)基于決策樹分類方法的城市用戶行為分析驗(yàn)證平臺。本文的主要貢獻(xiàn)如下:(1)首先介紹數(shù)據(jù)流的概念、特點(diǎn)和處理方式等基本知識。其次,對現(xiàn)階段用于處理數(shù)據(jù)流的分類方法,包括決策樹、支持向量機(jī)、貝葉斯、神經(jīng)網(wǎng)絡(luò)、KNN和關(guān)聯(lián)/分類規(guī)則進(jìn)行分析比較。接下來分析數(shù)據(jù)流決策樹分類方法,包括單分類決策樹方法和集成分類決策樹方法。其中,單分類決策樹方法包括快速決策樹、快速決策樹的衍生算法和其它類型的決策樹算法。集成分類決策樹...
【文章來源】:北方民族大學(xué)寧夏回族自治區(qū)
【文章頁數(shù)】:81 頁
【學(xué)位級別】:碩士
【部分圖文】:
數(shù)據(jù)流分類方法
族大學(xué)2020屆碩士學(xué)位論文 第二章 數(shù)據(jù)流決決策樹分類算法節(jié)將數(shù)據(jù)流決策樹分類按照分類模型分為兩類,單分類決策樹模型和集成分類決圖 2-1 所示。其中,單分類模型技術(shù)可以維護(hù)和增量更新單個(單一)分類模型,地應(yīng)對概念漂移。相對于單個模型,集成模型需要比單分類更簡單的技術(shù)更新模型有效地處理概念漂移[50]。更新模型以反映最近的實(shí)例并適應(yīng)內(nèi)存。具有最低分類精棄用于概念漂移;诩傻哪P捅葐我坏幕谠隽康姆椒ň哂懈玫姆诸惥萚5
圖 2-2 集成分類方法過程圖在數(shù)據(jù)流決策樹集成分類算法中,其中一部分集成決策樹算法是基于 Hoeffding 不等式設(shè)計(jì)的,另外一部分集成算法是基于隨機(jī)決策樹衍生而來的。因此,本節(jié)將通過以下兩個方面對數(shù)據(jù)流集成分類決策樹算法進(jìn)行論述。(1)基于 Hoeffding 不等式的集成分類方法Pfahringer 等人在 VFDT 的基礎(chǔ)上,提出的霍夫丁選項(xiàng)樹(HOT)[69]是一個常規(guī)的 Hoeffding樹,除了內(nèi)部決策節(jié)點(diǎn)和葉子節(jié)點(diǎn)外,還包含額外的選項(xiàng)節(jié)點(diǎn)。并且允許應(yīng)用多個測試,從而將多個 Hoeffding 樹作為單獨(dú)的路徑。這個結(jié)構(gòu)使得一個例子可以通過多個不同路徑到達(dá)多個不同的樹節(jié)點(diǎn)。目前對數(shù)據(jù)流分類的研究主要集中在特定的數(shù)據(jù)流上,通常假設(shè)數(shù)據(jù)流的值是精確和確定的。然而,由于測量不精準(zhǔn)、重復(fù)采樣和網(wǎng)絡(luò)誤差等原因,具有不確定性的數(shù)據(jù)流在實(shí)際應(yīng)用中是頻繁出現(xiàn)的。在 CVFDT 和 DTU 的基礎(chǔ)上,提出了不確定處理概念自適應(yīng)快速決策樹(UCVFDT)算法,該算法既保持了 CVFDT 對概念漂移的高速處理能力,又增加了對不確定性數(shù)據(jù)流的處理能力。實(shí)驗(yàn)研究表明 UCVFDT 算法能夠有效地對具有不確定數(shù)值屬性的動態(tài)數(shù)據(jù)
【參考文獻(xiàn)】:
期刊論文
[1]基于McDiarmid不等式的決策樹分類算法[J]. 賈濤,韓萌,王少峰,邢成. 山西大學(xué)學(xué)報(自然科學(xué)版). 2019(04)
[2]概念漂移數(shù)據(jù)流集成分類算法綜述[J]. 杜詩語,韓萌,申明堯,張春硯,孫蕊. 計(jì)算機(jī)工程. 2020(01)
[3]SDN中基于機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)流量分類方法研究[J]. 李兆斌,韓禹,魏占禎,劉澤一. 計(jì)算機(jī)應(yīng)用與軟件. 2019(05)
[4]面向大規(guī)模中文文本分類的樸素貝葉斯并行Spark算法(英文)[J]. 劉鵬,趙慧含,滕家雨,仰彥妍,劉亞峰,朱宗衛(wèi). Journal of Central South University. 2019(01)
[5]數(shù)據(jù)流頻繁模式挖掘綜述[J]. 韓萌,丁劍. 計(jì)算機(jī)應(yīng)用. 2019(03)
[6]新型含噪數(shù)據(jù)流集成分類的算法[J]. 袁泉,郭江帆. 計(jì)算機(jī)應(yīng)用. 2018(06)
[7]面向流數(shù)據(jù)的決策樹分類算法并行化[J]. 季一木,張永潘,郎賢波,張殿超,王汝傳. 計(jì)算機(jī)研究與發(fā)展. 2017(09)
[8]基于混合式聚類算法的離群點(diǎn)挖掘在異常檢測中的應(yīng)用研究[J]. 尹娜,張琳. 計(jì)算機(jī)科學(xué). 2017(05)
[9]一種基于決策樹的隱私保護(hù)數(shù)據(jù)流分類算法[J]. 陳煜,李玲娟. 計(jì)算機(jī)技術(shù)與發(fā)展. 2017(07)
[10]概念漂移數(shù)據(jù)流挖掘算法綜述[J]. 丁劍,韓萌,李娟. 計(jì)算機(jī)科學(xué). 2016(12)
博士論文
[1]基于概念漂移的數(shù)據(jù)流集成分類算法研究[D]. 任思琪.湖南大學(xué) 2018
碩士論文
[1]基于在線遷移學(xué)習(xí)的概念漂移數(shù)據(jù)流分類算法研究[D]. 唐詩淇.桂林電子科技大學(xué) 2017
[2]數(shù)據(jù)流概念漂移檢測和不平衡數(shù)據(jù)流分類算法研究[D]. 白洋.北京交通大學(xué) 2017
本文編號:2965920
【文章來源】:北方民族大學(xué)寧夏回族自治區(qū)
【文章頁數(shù)】:81 頁
【學(xué)位級別】:碩士
【部分圖文】:
數(shù)據(jù)流分類方法
族大學(xué)2020屆碩士學(xué)位論文 第二章 數(shù)據(jù)流決決策樹分類算法節(jié)將數(shù)據(jù)流決策樹分類按照分類模型分為兩類,單分類決策樹模型和集成分類決圖 2-1 所示。其中,單分類模型技術(shù)可以維護(hù)和增量更新單個(單一)分類模型,地應(yīng)對概念漂移。相對于單個模型,集成模型需要比單分類更簡單的技術(shù)更新模型有效地處理概念漂移[50]。更新模型以反映最近的實(shí)例并適應(yīng)內(nèi)存。具有最低分類精棄用于概念漂移;诩傻哪P捅葐我坏幕谠隽康姆椒ň哂懈玫姆诸惥萚5
圖 2-2 集成分類方法過程圖在數(shù)據(jù)流決策樹集成分類算法中,其中一部分集成決策樹算法是基于 Hoeffding 不等式設(shè)計(jì)的,另外一部分集成算法是基于隨機(jī)決策樹衍生而來的。因此,本節(jié)將通過以下兩個方面對數(shù)據(jù)流集成分類決策樹算法進(jìn)行論述。(1)基于 Hoeffding 不等式的集成分類方法Pfahringer 等人在 VFDT 的基礎(chǔ)上,提出的霍夫丁選項(xiàng)樹(HOT)[69]是一個常規(guī)的 Hoeffding樹,除了內(nèi)部決策節(jié)點(diǎn)和葉子節(jié)點(diǎn)外,還包含額外的選項(xiàng)節(jié)點(diǎn)。并且允許應(yīng)用多個測試,從而將多個 Hoeffding 樹作為單獨(dú)的路徑。這個結(jié)構(gòu)使得一個例子可以通過多個不同路徑到達(dá)多個不同的樹節(jié)點(diǎn)。目前對數(shù)據(jù)流分類的研究主要集中在特定的數(shù)據(jù)流上,通常假設(shè)數(shù)據(jù)流的值是精確和確定的。然而,由于測量不精準(zhǔn)、重復(fù)采樣和網(wǎng)絡(luò)誤差等原因,具有不確定性的數(shù)據(jù)流在實(shí)際應(yīng)用中是頻繁出現(xiàn)的。在 CVFDT 和 DTU 的基礎(chǔ)上,提出了不確定處理概念自適應(yīng)快速決策樹(UCVFDT)算法,該算法既保持了 CVFDT 對概念漂移的高速處理能力,又增加了對不確定性數(shù)據(jù)流的處理能力。實(shí)驗(yàn)研究表明 UCVFDT 算法能夠有效地對具有不確定數(shù)值屬性的動態(tài)數(shù)據(jù)
【參考文獻(xiàn)】:
期刊論文
[1]基于McDiarmid不等式的決策樹分類算法[J]. 賈濤,韓萌,王少峰,邢成. 山西大學(xué)學(xué)報(自然科學(xué)版). 2019(04)
[2]概念漂移數(shù)據(jù)流集成分類算法綜述[J]. 杜詩語,韓萌,申明堯,張春硯,孫蕊. 計(jì)算機(jī)工程. 2020(01)
[3]SDN中基于機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)流量分類方法研究[J]. 李兆斌,韓禹,魏占禎,劉澤一. 計(jì)算機(jī)應(yīng)用與軟件. 2019(05)
[4]面向大規(guī)模中文文本分類的樸素貝葉斯并行Spark算法(英文)[J]. 劉鵬,趙慧含,滕家雨,仰彥妍,劉亞峰,朱宗衛(wèi). Journal of Central South University. 2019(01)
[5]數(shù)據(jù)流頻繁模式挖掘綜述[J]. 韓萌,丁劍. 計(jì)算機(jī)應(yīng)用. 2019(03)
[6]新型含噪數(shù)據(jù)流集成分類的算法[J]. 袁泉,郭江帆. 計(jì)算機(jī)應(yīng)用. 2018(06)
[7]面向流數(shù)據(jù)的決策樹分類算法并行化[J]. 季一木,張永潘,郎賢波,張殿超,王汝傳. 計(jì)算機(jī)研究與發(fā)展. 2017(09)
[8]基于混合式聚類算法的離群點(diǎn)挖掘在異常檢測中的應(yīng)用研究[J]. 尹娜,張琳. 計(jì)算機(jī)科學(xué). 2017(05)
[9]一種基于決策樹的隱私保護(hù)數(shù)據(jù)流分類算法[J]. 陳煜,李玲娟. 計(jì)算機(jī)技術(shù)與發(fā)展. 2017(07)
[10]概念漂移數(shù)據(jù)流挖掘算法綜述[J]. 丁劍,韓萌,李娟. 計(jì)算機(jī)科學(xué). 2016(12)
博士論文
[1]基于概念漂移的數(shù)據(jù)流集成分類算法研究[D]. 任思琪.湖南大學(xué) 2018
碩士論文
[1]基于在線遷移學(xué)習(xí)的概念漂移數(shù)據(jù)流分類算法研究[D]. 唐詩淇.桂林電子科技大學(xué) 2017
[2]數(shù)據(jù)流概念漂移檢測和不平衡數(shù)據(jù)流分類算法研究[D]. 白洋.北京交通大學(xué) 2017
本文編號:2965920
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2965920.html
最近更新
教材專著