面向情報大數(shù)據(jù)的決策樹增量學習算法研究
發(fā)布時間:2021-12-22 12:03
由于具有易于理解的優(yōu)勢,決策樹成為最流行的分類方法之一。然而,利用已經(jīng)存在的方法構(gòu)建的決策樹一般都會過于龐大、復雜化,因此在實際應(yīng)用中實用性受到限制。此外,當今社會數(shù)據(jù)通常都是不斷增加的,如果使用傳統(tǒng)的決策樹算法,即新增一批樣本之后,將歷史數(shù)據(jù)和新增數(shù)據(jù)再放在一起重新學習一遍,這種方式會把以前的知識遺忘掉,使得之前學習到的決策樹沒有任何意義。因此,這時候增量學習就變得尤為重要,即利用新增樣本對以前學習到的決策樹進行更新調(diào)整。在深入研究決策樹方法和增量學習方法的基礎(chǔ)上,本文提出一個新的決策樹算法NOLCDT。在分裂結(jié)點之前,NOLCDT算法把結(jié)點中每個候選屬性的多個屬性值分別合并成兩組,選擇信息增益最大的候選屬性將結(jié)點分為兩個分支,這種方式可以避免生成太多的分支,進而防止決策樹過于龐大。NOLCDT算法在選擇下一個將要分裂的結(jié)點方面也有所改進,該算法為所有候選分裂結(jié)點計算對應(yīng)的結(jié)點分裂度量值,并且總是選擇結(jié)點分裂度量值最大的候選結(jié)點作為下一個分裂結(jié)點,使得每次分裂都有最大的信息增益。此外,本文在決策樹增量學習算法ID5R的基礎(chǔ)上,提出一種改進算法IID5R,IID5R增加了評估分類屬性質(zhì)...
【文章來源】:哈爾濱工程大學黑龍江省 211工程院校
【文章頁數(shù)】:63 頁
【學位級別】:碩士
【部分圖文】:
簡單決策樹
算法紹的 C4.5 算法不能進行增量學習,也就是只適合于數(shù)據(jù)全部到達之情況。但是現(xiàn)在的很多應(yīng)用,數(shù)據(jù)都是不斷演繹變化的,因此這時策樹算法[37]。本節(jié)將要介紹一種增量決策樹算法 ID5R,對于相同的5R 構(gòu)建的決策樹和 ID3 算法最后的結(jié)果是相同的。這種增量學習n 的非增量方法應(yīng)用到增量學習任務(wù)中[38],當每個新樣本來到之后一個新的決策樹。ID5R 算法是對 ID5 算法的拓展,在每個結(jié)點中,每個屬性對應(yīng)的信息增益所必須的信息,也就是屬性值所屬類別的點對應(yīng)的分類屬性對應(yīng)的信息增益不是最大時,就用候選屬性中信屬性來替換。當某個結(jié)點的分類屬性需要被替換掉的時候,ID4 與 ID5R 算法的處算法是把該結(jié)點下面的所有子樹直接丟棄,重新構(gòu)建子樹;而 ID5
【參考文獻】:
期刊論文
[1]基于信息熵的決策樹UE提升研究[J]. 黃軼文,盧世軍. 計算機與數(shù)字工程. 2016(05)
[2]基于增量式?jīng)Q策樹的時間序列分類算法研究[J]. 王樹英,王志海. 現(xiàn)代計算機(專業(yè)版). 2015(08)
[3]基于改進型C4.5算法的關(guān)系數(shù)據(jù)庫零水印模型研究[J]. 周鋼,吳克明. 計算機應(yīng)用與軟件. 2015(01)
[4]基于多光譜影像和專家決策法的作物分類研究(英文)[J]. 劉磊,江東,徐敏,尹芳. Agricultural Science & Technology. 2011(11)
[5]增量決策樹知識獲取[J]. 李明哲,葉春明. 電腦知識與技術(shù). 2009(23)
[6]貝葉斯分類器集成的增量學習方法[J]. 張全新,鄭建軍,牛振東,原達. 北京理工大學學報. 2008(05)
[7]基于最大熵選取示例的增量決策樹歸納[J]. 閆建輝,王熙照,隋春榮,王碩,苑俊英. 計算機工程與應(yīng)用. 2006(35)
博士論文
[1]增量機器學習算法研究[D]. 胡蓉.南京理工大學 2013
[2]增量學習及其在圖像識別中的應(yīng)用[D]. 李敬.上海交通大學 2008
碩士論文
[1]免疫入侵檢測中基于信息增益的檢測器生成研究[D]. 周志凱.哈爾濱理工大學 2014
[2]決策樹算法實現(xiàn)及其在信用風險控制中的應(yīng)用[D]. 李園園.山東大學 2013
[3]支持向量機不平衡問題和增量問題算法研究[D]. 閆國虹.西安電子科技大學 2012
[4]數(shù)據(jù)挖掘分類技術(shù)在健身會所管理系統(tǒng)中的應(yīng)用研究[D]. 孫喜洲.中國海洋大學 2011
[5]增量決策樹中樣例選擇的影響與評價[D]. 王碩.河北大學 2010
本文編號:3546354
【文章來源】:哈爾濱工程大學黑龍江省 211工程院校
【文章頁數(shù)】:63 頁
【學位級別】:碩士
【部分圖文】:
簡單決策樹
算法紹的 C4.5 算法不能進行增量學習,也就是只適合于數(shù)據(jù)全部到達之情況。但是現(xiàn)在的很多應(yīng)用,數(shù)據(jù)都是不斷演繹變化的,因此這時策樹算法[37]。本節(jié)將要介紹一種增量決策樹算法 ID5R,對于相同的5R 構(gòu)建的決策樹和 ID3 算法最后的結(jié)果是相同的。這種增量學習n 的非增量方法應(yīng)用到增量學習任務(wù)中[38],當每個新樣本來到之后一個新的決策樹。ID5R 算法是對 ID5 算法的拓展,在每個結(jié)點中,每個屬性對應(yīng)的信息增益所必須的信息,也就是屬性值所屬類別的點對應(yīng)的分類屬性對應(yīng)的信息增益不是最大時,就用候選屬性中信屬性來替換。當某個結(jié)點的分類屬性需要被替換掉的時候,ID4 與 ID5R 算法的處算法是把該結(jié)點下面的所有子樹直接丟棄,重新構(gòu)建子樹;而 ID5
【參考文獻】:
期刊論文
[1]基于信息熵的決策樹UE提升研究[J]. 黃軼文,盧世軍. 計算機與數(shù)字工程. 2016(05)
[2]基于增量式?jīng)Q策樹的時間序列分類算法研究[J]. 王樹英,王志海. 現(xiàn)代計算機(專業(yè)版). 2015(08)
[3]基于改進型C4.5算法的關(guān)系數(shù)據(jù)庫零水印模型研究[J]. 周鋼,吳克明. 計算機應(yīng)用與軟件. 2015(01)
[4]基于多光譜影像和專家決策法的作物分類研究(英文)[J]. 劉磊,江東,徐敏,尹芳. Agricultural Science & Technology. 2011(11)
[5]增量決策樹知識獲取[J]. 李明哲,葉春明. 電腦知識與技術(shù). 2009(23)
[6]貝葉斯分類器集成的增量學習方法[J]. 張全新,鄭建軍,牛振東,原達. 北京理工大學學報. 2008(05)
[7]基于最大熵選取示例的增量決策樹歸納[J]. 閆建輝,王熙照,隋春榮,王碩,苑俊英. 計算機工程與應(yīng)用. 2006(35)
博士論文
[1]增量機器學習算法研究[D]. 胡蓉.南京理工大學 2013
[2]增量學習及其在圖像識別中的應(yīng)用[D]. 李敬.上海交通大學 2008
碩士論文
[1]免疫入侵檢測中基于信息增益的檢測器生成研究[D]. 周志凱.哈爾濱理工大學 2014
[2]決策樹算法實現(xiàn)及其在信用風險控制中的應(yīng)用[D]. 李園園.山東大學 2013
[3]支持向量機不平衡問題和增量問題算法研究[D]. 閆國虹.西安電子科技大學 2012
[4]數(shù)據(jù)挖掘分類技術(shù)在健身會所管理系統(tǒng)中的應(yīng)用研究[D]. 孫喜洲.中國海洋大學 2011
[5]增量決策樹中樣例選擇的影響與評價[D]. 王碩.河北大學 2010
本文編號:3546354
本文鏈接:http://sikaile.net/guanlilunwen/lindaojc/3546354.html
教材專著