基于余弦相似度和加權(quán)剪枝策略的改進(jìn)C4.5算法研究
本文關(guān)鍵詞:基于余弦相似度和加權(quán)剪枝策略的改進(jìn)C4.5算法研究 出處:《青島科技大學(xué)》2017年碩士論文 論文類型:學(xué)位論文
更多相關(guān)文章: 數(shù)據(jù)挖掘 C4.5 余弦相似度 閾值 加權(quán)剪枝
【摘要】:進(jìn)入21世紀(jì)后,隨著數(shù)據(jù)庫(kù)技術(shù)的快速發(fā)展以及存儲(chǔ)器等硬件容量的大幅擴(kuò)升,我們收集數(shù)據(jù)的能力越來(lái)越強(qiáng)。面對(duì)出現(xiàn)的大量數(shù)據(jù),采用傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)難以對(duì)這些數(shù)據(jù)進(jìn)行有效地分析和處理。研究新的數(shù)據(jù)挖掘方法,成為當(dāng)前人們?cè)絹?lái)越關(guān)注的熱點(diǎn)問(wèn)題。C4.5算法是數(shù)據(jù)挖掘算法中最經(jīng)典的算法之一,是一種非常重要的數(shù)據(jù)挖掘算法,其應(yīng)用十分的廣泛。然而傳統(tǒng)C4.5算法存在容易產(chǎn)生冗余規(guī)則、決策樹規(guī)模過(guò)大、分類速度過(guò)慢等問(wèn)題,針對(duì)上述問(wèn)題,本文提出了一種基于余弦相似度的改進(jìn)C4.5算法。首先,計(jì)算每個(gè)屬性的信息熵和增益率,如果任意屬性的任意兩個(gè)屬性值的信息熵之差在一個(gè)很小范圍內(nèi)時(shí),再計(jì)算兩個(gè)屬性值的余弦相似度。然后合并相似度在閾值范圍內(nèi)的屬性值,重新計(jì)算合并后屬性的信息增益率,最后依據(jù)傳統(tǒng)的C4.5算法進(jìn)行計(jì)算。采用冠心病數(shù)據(jù)對(duì)所提出的算法進(jìn)行實(shí)驗(yàn)驗(yàn)證,結(jié)果表明所提出的算法能夠有效地合并相似屬性值,從而縮減了決策樹規(guī)模和冗余規(guī)則、提高了分類速度。盡管上述方法能夠達(dá)到預(yù)期的效果,但在實(shí)際應(yīng)用中,會(huì)存在將重要屬性丟失的問(wèn)題,針對(duì)該問(wèn)題提出了一種基于余弦相似度和加權(quán)剪枝策略的改進(jìn)C4.5算法。該算法首先根據(jù)已有知識(shí)將屬性重要度進(jìn)行排序,再根據(jù)屬性重要度有選擇性進(jìn)行余弦相似度計(jì)算,最后根據(jù)屬性重要度進(jìn)行剪枝,得到最終的決策樹。實(shí)驗(yàn)結(jié)果表明了該算法成功地保留了重要的屬性,解決了重要屬性丟失的問(wèn)題。
【學(xué)位授予單位】:青島科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP311.13
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 劉沖;楊磊;李娜;;ID3分類及其剪枝算法研究[J];軟件導(dǎo)刊;2016年12期
2 陳桌;張麗萍;王歡;張久杰;王春暉;;基于改進(jìn)向量空間模型的克隆群映射方法[J];計(jì)算機(jī)應(yīng)用;2016年07期
3 羅鳳娥;張成偉;劉安;;基于數(shù)據(jù)挖掘的航班延誤預(yù)警管理分析[J];計(jì)算機(jī)科學(xué);2016年S1期
4 鄧興宇;胡雙演;李釗;隋中山;孫登會(huì);;基于SVSM的裝備故障案例相似度匹配算法[J];無(wú)線電工程;2016年02期
5 阮羚;李成華;宿磊;謝齊家;吳玉佳;張新訪;;基于奇異值分解的局部放電模式識(shí)別方法[J];電工技術(shù)學(xué)報(bào);2015年18期
6 施靜靜;張鵬;阮雅端;陳啟美;;多媒體信息網(wǎng)絡(luò)相似度計(jì)算方法研究[J];南京大學(xué)學(xué)報(bào)(自然科學(xué));2015年02期
7 彭昱忠;王謙;元昌安;林開平;;數(shù)據(jù)挖掘技術(shù)在氣象預(yù)報(bào)研究中的應(yīng)用[J];干旱氣象;2015年01期
8 冉進(jìn)軍;姜媛;劉巧蘭;韓樂(lè)飛;齊鴻超;;冠心病危險(xiǎn)因素的Meta分析[J];西部醫(yī)學(xué);2014年12期
9 陳大力;沈巖濤;謝檳竹;馬穎異;;基于余弦相似度模型的最佳教練遴選算法[J];東北大學(xué)學(xué)報(bào)(自然科學(xué)版);2014年12期
10 王雪松;潘杰;程玉虎;曹戈;;基于相似度衡量的決策樹自適應(yīng)遷移[J];自動(dòng)化學(xué)報(bào);2013年12期
相關(guān)博士學(xué)位論文 前3條
1 郭春;基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)入侵檢測(cè)關(guān)鍵技術(shù)研究[D];北京郵電大學(xué);2014年
2 朱林;基于特征加權(quán)與特征選擇的數(shù)據(jù)挖掘算法研究[D];上海交通大學(xué);2013年
3 郭秀娟;基于關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法的研究[D];吉林大學(xué);2004年
相關(guān)碩士學(xué)位論文 前10條
1 邱磊;基于決策樹C4.5算法剪枝策略的改進(jìn)研究[D];華中師范大學(xué);2016年
2 何佩佩;云環(huán)境下數(shù)據(jù)挖掘算法的研究與設(shè)計(jì)[D];東華大學(xué);2016年
3 尹哲;基于粗糙集的決策樹分類方法研究[D];大連海事大學(xué);2016年
4 孔玉婷;數(shù)據(jù)挖掘中分類算法研究及應(yīng)用[D];遼寧科技大學(xué);2015年
5 杜春蕾;基于決策樹算法的研究及其在煤層底板突水中的應(yīng)用[D];太原理工大學(xué);2015年
6 郭忠俊;基于數(shù)據(jù)挖掘技術(shù)的礦井提升機(jī)故障診斷研究[D];中國(guó)礦業(yè)大學(xué);2015年
7 嚴(yán)春梅;向量空間模型與語(yǔ)義理解相結(jié)合的論文相似度算法研究[D];西南交通大學(xué);2015年
8 李迎春;數(shù)據(jù)挖掘中決策樹分類算法的研究[D];湖南師范大學(xué);2015年
9 張金鵬;基于語(yǔ)義的文本相似度算法研究及應(yīng)用[D];重慶理工大學(xué);2014年
10 劉曉宇;C4.5算法的一種改進(jìn)及其應(yīng)用[D];中國(guó)海洋大學(xué);2013年
,本文編號(hào):1325604
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/1325604.html