基于粗糙集的決策樹分類方法研究
本文關(guān)鍵詞:基于粗糙集的決策樹分類方法研究
更多相關(guān)文章: 數(shù)據(jù)挖掘 屬性約簡 決策樹 分布式并行框架
【摘要】:進(jìn)入“互聯(lián)網(wǎng)+”時代,人們從生產(chǎn)、生活中積累的數(shù)據(jù)呈現(xiàn)爆發(fā)式增長,數(shù)據(jù)已成為重要的戰(zhàn)略資源,如何利用海量數(shù)據(jù)發(fā)現(xiàn)新知識已成為數(shù)據(jù)挖掘領(lǐng)域的研究熱點,其中,決策樹分類算法以其結(jié)構(gòu)清晰、算法高效的特點被廣泛應(yīng)用。由于數(shù)據(jù)挖掘中決策樹算法在分類效率和準(zhǔn)確率上對決策信息的規(guī)范性較為敏感,并且隨著數(shù)據(jù)量的幾何式增長,常規(guī)的串行決策樹分類算法已難于突破內(nèi)存瓶頸和計算能力約束。因此,本文將粗糙集中的屬性約簡理論與決策樹分類算法相結(jié)合,降低了決策樹的復(fù)雜程度并提高了算法效率,取得了良好的理論和應(yīng)用效果。本文的主要研究內(nèi)容分為以下幾個部分:(1)粗糙集理論方面:從屬性約簡的候選屬性入手,在分析現(xiàn)有屬性約簡算法的基礎(chǔ)上,將相關(guān)屬性測度加入選擇候選屬性的過程中。在選擇候選屬性時,優(yōu)先選擇與核屬性相關(guān)度最大的屬性加入候選約簡集,同時剔除非相關(guān)屬性,通過這種思想達(dá)到約簡集最小,并保證屬性約簡集信息量最大化的目的。通過大量對比實驗驗證,這種算法有效解決了約簡集增刪候選屬性時的盲目性,節(jié)省了屬性約簡過程中的計算開銷。(2)決策樹分類算法方面:結(jié)合基于相關(guān)屬性的屬性約簡算法,本文得到了節(jié)點冗余度更低的決策樹分類結(jié)果,并針對現(xiàn)有串行決策樹分類算法無法適應(yīng)大數(shù)據(jù)環(huán)境下數(shù)據(jù)挖掘需求,及并行決策樹分類算法在分布式框架下I/O開銷過大的問題,使用一種新的數(shù)據(jù)結(jié)構(gòu)簡化了Map和Reduce過程,得到了新的決策樹分裂標(biāo)準(zhǔn),藉此降低了節(jié)點周轉(zhuǎn)次數(shù)和I/O開銷。通過實驗顯示,分布式并行決策樹算法在保證分類準(zhǔn)確率的情況下,得到了較為優(yōu)異的決策樹尺度和運(yùn)行效率。
【關(guān)鍵詞】:數(shù)據(jù)挖掘 屬性約簡 決策樹 分布式并行框架
【學(xué)位授予單位】:大連海事大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP311.13;TP18
【目錄】:
- 摘要5-6
- ABSTRACT6-9
- 第1章 緒論9-16
- 1.1 研究背景和意義9-11
- 1.2 國內(nèi)外研究現(xiàn)狀11-15
- 1.2.1 屬性約簡算法研究現(xiàn)狀11-12
- 1.2.2 決策樹分類算法研究現(xiàn)狀12-15
- 1.3 研究內(nèi)容及論文組織結(jié)構(gòu)15-16
- 第2章 粗糙集理論、決策樹算法與Hadoop平臺介紹16-31
- 2.1 數(shù)據(jù)挖掘理論相關(guān)介紹16-19
- 2.1.1 數(shù)據(jù)挖掘的主要方法16-17
- 2.1.2 數(shù)據(jù)挖掘流程17-19
- 2.2 粗糙集理論19-23
- 2.2.1 粗糙集的引入19-20
- 2.2.2 基于粗糙集的屬性約簡方法20-23
- 2.3 決策樹分類理論23-28
- 2.3.1 決策樹基本概念23
- 2.3.2 常見決策樹分類算法介紹23-28
- 2.4 Hadoop大數(shù)據(jù)處理框架28-30
- 2.5 本章小結(jié)30-31
- 第3章 基于粗糙集的屬性約簡算法31-46
- 3.1 粗糙集與屬性約簡31-32
- 3.2 基于相關(guān)屬性的屬性約簡算法32-39
- 3.2.1 可分辨矩陣33-34
- 3.2.2 相關(guān)屬性算法34-39
- 3.3 實驗與分析39-45
- 3.3.1 實驗環(huán)境39-41
- 3.3.2 實驗設(shè)計41-42
- 3.3.3 實驗結(jié)果分析42-45
- 3.4 本章小結(jié)45-46
- 第4章 分布式并行決策樹分類算法46-64
- 4.1 決策樹分類算法46-49
- 4.2 分布式并行模型49-54
- 4.3 分布式并行決策樹挖掘算法54-60
- 4.4 實驗與分析60-63
- 4.5 本章小結(jié)63-64
- 第5章 總結(jié)與展望64-66
- 5.1 總結(jié)64
- 5.2 未來展望64-66
- 參考文獻(xiàn)66-70
- 致謝70
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 邱兆雷;范穎;王愛云;;粗糙集理論及進(jìn)展[J];信息技術(shù)與信息化;2006年05期
2 徐偉華;張文修;;覆蓋廣義粗糙集的模糊性[J];模糊系統(tǒng)與數(shù)學(xué);2006年06期
3 石杰;;粗糙集理論及其應(yīng)用研究[J];科技信息;2008年33期
4 唐彬;;粗糙集理論和應(yīng)用研究[J];內(nèi)江科技;2008年03期
5 胡軍;王國胤;;覆蓋粗糙集的模糊度[J];重慶郵電大學(xué)學(xué)報(自然科學(xué)版);2009年04期
6 燕紅文;康向平;張麗;;依賴空間與粗糙集理論[J];農(nóng)業(yè)網(wǎng)絡(luò)信息;2009年09期
7 林國平;;覆蓋廣義粗糙集與信任函數(shù)[J];漳州師范學(xué)院學(xué)報(自然科學(xué)版);2010年02期
8 王石平;祝峰;朱培勇;;基于抽象相關(guān)關(guān)系的粗糙集研究[J];南京大學(xué)學(xué)報(自然科學(xué)版);2010年05期
9 成新文;陳國超;李琦;;關(guān)于粗糙集的理論及應(yīng)用研究[J];煤炭技術(shù);2010年10期
10 林治;張璇;;粗糙集理論的應(yīng)用探析[J];邢臺職業(yè)技術(shù)學(xué)院學(xué)報;2011年03期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 黎文航;陳善本;王兵;;粗糙集理論在焊接中的應(yīng)用綜述[A];第十一次全國焊接會議論文集(第2冊)[C];2005年
2 尹宗成;;粗糙集理論在我國糧食產(chǎn)量預(yù)測中的應(yīng)用[A];現(xiàn)代農(nóng)業(yè)理論與實踐——安徽現(xiàn)代農(nóng)業(yè)博士科技論壇論文集[C];2007年
3 鄒剛;滕書華;孫即祥;陳森林;敖永紅;;一種粗糙集優(yōu)化協(xié)同原型模式約簡分類方法[A];第十四屆全國信號處理學(xué)術(shù)年會(CCSP-2009)論文集[C];2009年
4 葛麗;傅彥;;粗糙集在科學(xué)數(shù)據(jù)屬性約簡中的應(yīng)用[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2004年
5 陳雪飛;;粗糙集分類中耦合數(shù)據(jù)的處理方法研究[A];2008年全國開放式分布與并行計算機(jī)學(xué)術(shù)會議論文集(上冊)[C];2008年
6 肖健梅;蘆曉明;王錫淮;;集裝箱起重機(jī)防搖系統(tǒng)粗糙集控制[A];第二十六屆中國控制會議論文集[C];2007年
7 王印松;馮康;;主汽溫調(diào)節(jié)系統(tǒng)性能評價的粗糙集實現(xiàn)方法[A];第二十七屆中國控制會議論文集[C];2008年
8 王紅萍;萬程亮;金彥豐;;應(yīng)用粗糙集理論的對抗效果權(quán)重確定方法[A];2009’中國西部地區(qū)聲學(xué)學(xué)術(shù)交流會論文集[C];2009年
9 王莉;周獻(xiàn)中;;一種基于粗糙集的模糊神經(jīng)網(wǎng)絡(luò)模型在鋼材力學(xué)性能預(yù)測中的研究[A];2009年中國智能自動化會議論文集(第二分冊)[C];2009年
10 卓明;王麗珍;譚旭;;基于粗糙集近似集擴(kuò)展的規(guī)則提取算法[A];第十七屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2000年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 馬希驁;概率粗糙集屬性約簡理論及方法研究[D];西南交通大學(xué);2014年
2 唐孝;基于粗糙集的知識發(fā)現(xiàn)方法及其在ECG信號識別中的應(yīng)用[D];電子科技大學(xué);2015年
3 曾凱;鄰域;植谟嬎愕年P(guān)鍵技術(shù)研究與應(yīng)用[D];電子科技大學(xué);2015年
4 鮑忠奎;面向不確定信息系統(tǒng)的粗糙集擴(kuò)展模型研究[D];合肥工業(yè)大學(xué);2015年
5 薛佩軍;正負(fù)域覆蓋廣義粗糙集與知識粗傳播研究[D];山東大學(xué);2007年
6 孔芝;粗糙集理論若干問題的研究與應(yīng)用[D];東北大學(xué);2009年
7 秦中廣;基于粗糙集的交叉研究及其在中醫(yī)診斷的應(yīng)用[D];華南理工大學(xué);2002年
8 劉少輝;知識發(fā)現(xiàn)中粗糙集理論的研究[D];中國科學(xué)院研究生院(計算技術(shù)研究所);2003年
9 鄧大勇;基于粗糙集的數(shù)據(jù)約簡及粗糙集擴(kuò)展模型的研究[D];北京交通大學(xué);2007年
10 孫英娟;基于粗糙集的分類方法研究[D];吉林大學(xué);2011年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 江飛;粗糙集神經(jīng)網(wǎng)絡(luò)故障診斷方法研究[D];西安石油大學(xué);2015年
2 何理榮;粗糙集理論在銀行信貸風(fēng)險評估中的應(yīng)用研究[D];華南理工大學(xué);2015年
3 張德齊;基于粗糙集理論的電機(jī)故障診斷方法研究[D];渤海大學(xué);2015年
4 楊禮;基于粗糙集的公路交通安全預(yù)警研究[D];西南交通大學(xué);2015年
5 聶萌瑤;基于泛系串并模型的粗糙集概念擴(kuò)展與拓?fù)淇臻g[D];蘭州大學(xué);2015年
6 徐鵬;基于粗糙集的建筑起重機(jī)械安全精細(xì)化評價研究[D];西安建筑科技大學(xué);2015年
7 孫宇航;粗糙集屬性約簡方法在醫(yī)療診斷中的應(yīng)用研究[D];蘇州大學(xué);2015年
8 張曼;基于粗糙集和包含度的聚類分類算法研究[D];青島理工大學(xué);2015年
9 車世遠(yuǎn);基于群搜索優(yōu)化粗糙集的腦科學(xué)數(shù)據(jù)研究[D];大連海事大學(xué);2015年
10 林哲;基于粗糙集的馬田系統(tǒng)研究及其在銀行直接營銷客戶分類中的應(yīng)用[D];南京理工大學(xué);2015年
,本文編號:726417
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/726417.html