基于決策樹算法的研究及其在煤層底板突水中的應(yīng)用
本文關(guān)鍵詞:基于決策樹算法的研究及其在煤層底板突水中的應(yīng)用,由筆耕文化傳播整理發(fā)布。
【摘要】:在我國,水害事故頻繁發(fā)生,嚴(yán)重威脅人們的生命財(cái)產(chǎn)安全。而煤層底板突水現(xiàn)象是事故中最常見的一種,它是由多種因素綜合作用的結(jié)果,情況復(fù)雜,以往的預(yù)測方法很難解決此問題。本文將煤層底板突水預(yù)測問題歸納為數(shù)據(jù)挖掘分類問題,引入決策樹分類算法。 決策樹算法是一種簡單、易懂、有效的分類方法,已經(jīng)在各行各業(yè)得到了廣泛的應(yīng)用。盡管目前的決策樹算法發(fā)展的已經(jīng)較為成熟,但還有需要改進(jìn)的地方:一方面,分類精度還需進(jìn)一步提升;另一方面,不能很好的處理非平衡數(shù)據(jù)集。本文針對存在的問題,展開對決策樹算法的研究,首先通過UCI數(shù)據(jù)集對基于優(yōu)化算法建立的分類模型進(jìn)行實(shí)驗(yàn)論證,最后將其應(yīng)用于實(shí)際的煤層底板突水預(yù)測中。本文的主要?jiǎng)?chuàng)新點(diǎn)如下: (1)提出一種基于C4.5與CART算法建立混合節(jié)點(diǎn)分裂算法的分類模型。對比研究幾種常見的決策樹算法之間的差異及內(nèi)在聯(lián)系,設(shè)計(jì)一種基于C4.5與CART算法建立混合節(jié)點(diǎn)分裂算法的分類模型,實(shí)驗(yàn)結(jié)果表明,改進(jìn)的分類模型的分類精度較傳統(tǒng)的C4.5與CART算法建立的分類模型有一定程度的提高,但是幅度不大。 (2)提出一種基于根節(jié)點(diǎn)信息的多決策樹分類模型。為了更大程度的提高分類預(yù)測模型的分類精度,鑒于根節(jié)點(diǎn)的屬性選擇對于構(gòu)建整個(gè)決策樹的重要性,本文將每個(gè)分裂屬性分別作為根節(jié)點(diǎn)建立n(分裂屬性的個(gè)數(shù))棵決策樹,形成一種多決策樹的分類器。利用UCI數(shù)據(jù)集進(jìn)行分類器性能測試,實(shí)驗(yàn)表明,其分類精度較單棵決策樹有很大的提升。 (3)設(shè)計(jì)了一種基于代價(jià)敏感的決策樹算法分類模型。在實(shí)際應(yīng)用中少數(shù)類的誤判往往會帶來巨大的代價(jià),傳統(tǒng)決策樹對非平衡數(shù)據(jù)進(jìn)行分類時(shí)往往出現(xiàn)少數(shù)類分類困難的問題。為了減少由于數(shù)據(jù)的不平衡性帶來的少數(shù)類分類誤差,本文引入代價(jià)敏感理論。在進(jìn)行構(gòu)建決策樹時(shí),將誤分類代價(jià)引入節(jié)點(diǎn)分裂函數(shù)中,建立綜合考慮屬性信息和誤分類代價(jià)的代價(jià)敏感決策樹,并利用不同評價(jià)指標(biāo)對其進(jìn)行性能評價(jià)。實(shí)驗(yàn)結(jié)果表明,其在保證整體分類精度和多數(shù)類分類精度較高的基礎(chǔ)上,大大提高了少數(shù)類的分類精度,從而獲得具有性能較好的決策樹分類預(yù)測模型。 (4)將基于代價(jià)敏感決策樹算法應(yīng)用于煤層底板突水預(yù)測中。本文分別采用經(jīng)典的C4.5與CART算法建立突水預(yù)測模型,與基于代價(jià)敏感建立的模型進(jìn)行實(shí)驗(yàn),對比三種算法的準(zhǔn)確率、真實(shí)正類率、真實(shí)負(fù)類率、G-mean值、F-measure值。實(shí)驗(yàn)結(jié)果表明,基于代價(jià)敏感的決策樹算法與傳統(tǒng)的決策樹算法相比,有很大的優(yōu)勢,這對實(shí)際的煤礦防治水有很大的意義。
【關(guān)鍵詞】:決策樹 混合分裂 根節(jié)點(diǎn) 代價(jià)敏感 突水預(yù)測
【學(xué)位授予單位】:太原理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TD745
【目錄】:
- 摘要3-5
- ABSTRACT5-11
- 第一章 緒論11-17
- 1.1 研究背景和意義11-12
- 1.2 相關(guān)研究綜述12-15
- 1.2.1 決策樹分類算法研究綜述12-13
- 1.2.2 煤層底板突水預(yù)測問題研究綜述13-15
- 1.3 本文研究的主要內(nèi)容15-16
- 1.4 本章小結(jié)16-17
- 第二章 決策樹分類模型的理論基礎(chǔ)17-31
- 2.1 決策樹算法17-21
- 2.1.1 基本概念17-19
- 2.1.2 建樹過程19
- 2.1.3 規(guī)則提取19-20
- 2.1.4 剪枝技術(shù)20-21
- 2.2 常見的決策樹算法21-28
- 2.2.1 ID3算法21-24
- 2.2.2 C4.5算法24-26
- 2.2.3 CART算法26-28
- 2.3 決策樹算法存在的問題28-30
- 2.3.1 決策樹算法的分類精度28-29
- 2.3.2 決策樹算法的非平衡數(shù)據(jù)集處理能力29-30
- 2.4 本章小結(jié)30-31
- 第三章 基于改進(jìn)的決策樹分類算法研究31-47
- 3.1 三種節(jié)點(diǎn)分裂算法比較31-36
- 3.1.1 基于三種算法的節(jié)點(diǎn)分裂指標(biāo)值對比及分析31-33
- 3.1.2 基于三種節(jié)點(diǎn)分裂算法的決策樹分類性能比較33-36
- 3.2 基于節(jié)點(diǎn)分裂混合算法的決策樹分類器36-40
- 3.2.1 節(jié)點(diǎn)混合算法的算法描述36-37
- 3.2.2 節(jié)點(diǎn)混合算法的程序流程37-38
- 3.2.3 混合算法的分類性能實(shí)證分析38-40
- 3.3 基于根節(jié)點(diǎn)信息的多決策樹分類器40-45
- 3.3.1 算法流程設(shè)計(jì)40-42
- 3.3.2 多決策樹算法與基于混合算法的單決策樹算法的比較42-45
- 3.4 本章小結(jié)45-47
- 第四章 基于代價(jià)敏感的決策樹分類模型47-65
- 4.1 非平衡數(shù)據(jù)簡介47
- 4.2 非平衡數(shù)據(jù)集分類困難原因分析47-49
- 4.2.1 數(shù)據(jù)稀少問題47-48
- 4.2.2 數(shù)據(jù)碎片問題48
- 4.2.3 噪聲數(shù)據(jù)存在的問題48-49
- 4.2.4 評價(jià)指標(biāo)選擇問題49
- 4.3 非平衡數(shù)據(jù)集分類問題的解決方法49-50
- 4.3.1 改變數(shù)據(jù)分布方法49-50
- 4.3.2 改進(jìn)分類算法50
- 4.4 代價(jià)敏感學(xué)習(xí)50-56
- 4.4.1 代價(jià)敏感決策樹學(xué)習(xí)的研究51
- 4.4.2 代價(jià)敏感學(xué)習(xí)的理論基礎(chǔ)51-52
- 4.4.3 基于代價(jià)敏感的分裂屬性選擇52-54
- 4.4.4 評價(jià)指標(biāo)54-56
- 4.5 基于代價(jià)敏感的決策樹算法56-57
- 4.6 基于代價(jià)敏感決策樹算法性能實(shí)證分析57-63
- 4.6.1 數(shù)據(jù)集簡介57
- 4.6.2 實(shí)驗(yàn)設(shè)置57-58
- 4.6.3 實(shí)驗(yàn)結(jié)果及分析58-63
- 4.7 本章小結(jié)63-65
- 第五章 優(yōu)化后的決策樹算法在煤層底板突水預(yù)測中的應(yīng)用65-75
- 5.1 突水因素分析65-68
- 5.2 數(shù)據(jù)采集與描述68-69
- 5.2.1 數(shù)據(jù)采集68-69
- 5.2.2 數(shù)據(jù)分析69
- 5.3 基于代價(jià)敏感決策樹的煤層底板突水預(yù)測模型69-71
- 5.4 實(shí)驗(yàn)結(jié)果分析71-74
- 5.5 本章小結(jié)74-75
- 第六章 總結(jié)與展望75-77
- 6.1 總結(jié)75-76
- 6.2 展望76
- 6.3 本章小結(jié)76-77
- 參考文獻(xiàn)77-81
- 致謝及資助81-83
- 攻讀碩士期間發(fā)表的論文83
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 高陽;廖家平;吳偉;;基于決策樹的ID3算法與C4.5算法[J];湖北工業(yè)大學(xué)學(xué)報(bào);2011年02期
2 高嘉偉;梁吉業(yè);;非平衡數(shù)據(jù)集分類問題研究進(jìn)展[J];計(jì)算機(jī)科學(xué);2008年04期
3 史巖;李小民;齊曉慧;;一種新型欠采樣的支持向量機(jī)非平衡數(shù)據(jù)故障診斷研究[J];計(jì)算機(jī)測量與控制;2012年05期
4 John Durkin,蔡競峰,蔡自興;決策樹技術(shù)及其當(dāng)前研究方向[J];控制工程;2005年01期
5 余永洋,李忠凱;用模糊聚類分析方法評價(jià)10煤底板突水危險(xiǎn)性[J];煤炭技術(shù);2004年09期
6 陳輝林;夏道勛;;基于CART決策樹數(shù)據(jù)挖掘算法的應(yīng)用研究[J];煤炭技術(shù);2011年10期
7 許延春;耿德庸;;井壁破壞的模糊聚類分析和預(yù)測[J];煤炭科學(xué)技術(shù);1992年07期
8 劉偉韜,張文泉,李加祥;用層次分析-模糊評判進(jìn)行底板突水安全性評價(jià)[J];煤炭學(xué)報(bào);2000年03期
9 曹慶奎;趙斐;;基于模糊-支持向量機(jī)的煤層底板突水危險(xiǎn)性評價(jià)[J];煤炭學(xué)報(bào);2011年04期
10 肖建于;童敏明;姜春露;;基于模糊證據(jù)理論的煤層底板突水量預(yù)測[J];煤炭學(xué)報(bào);2012年S1期
本文關(guān)鍵詞:基于決策樹算法的研究及其在煤層底板突水中的應(yīng)用,由筆耕文化傳播整理發(fā)布。
,本文編號:364331
本文鏈接:http://sikaile.net/kejilunwen/anquangongcheng/364331.html