基于遺傳算法的知識發(fā)現(xiàn)算法研究及應(yīng)用
本文關(guān)鍵詞:基于遺傳算法的知識發(fā)現(xiàn)算法研究及應(yīng)用,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著數(shù)據(jù)在日常決策中的重要性越來越顯著,人們對數(shù)據(jù)處理技術(shù)的要求也不斷提高,需要對數(shù)據(jù)進行更深層次的處理,以得到關(guān)于數(shù)據(jù)的總體特征以及對發(fā)展趨勢的預(yù)測。然而數(shù)據(jù)量爆炸性的增長使得現(xiàn)有的知識發(fā)現(xiàn)算法存在著一定的局限性,因此必須對現(xiàn)有的算法進行改進或創(chuàng)建新的算法以適應(yīng)時代之需。 遺傳算法是模擬自然進化的通用全局搜索算法,它具有簡單、通用、魯棒性強和適于并行處理的特點,為其他科學(xué)技術(shù)無法解決或難以解決的復(fù)雜問題提供了新的計算模型。而今,交易數(shù)據(jù)庫在不斷地增大,花費在掃描整個數(shù)據(jù)庫的時間會越來越長,效率的低下促使我們必須尋找新的關(guān)聯(lián)規(guī)則挖掘算法。因此,本文提出了ARM-GA算法,并針對礦山事故數(shù)據(jù)庫進行了簡單的計算和分析,取得了很好的效果。 大家普遍認可:在數(shù)據(jù)挖掘技術(shù)中,決策樹是在數(shù)據(jù)集上發(fā)現(xiàn)有價值模式的最高效的方法之一。然而,當需要在大規(guī)模數(shù)據(jù)集上進行規(guī)則挖掘時,可比例縮放性和準確率問題卻無時不困擾著決策樹算法,使它力不從心。為了在有限的計算能力內(nèi)構(gòu)建出高質(zhì)量的決策樹、挖掘出實用的規(guī)則,本文提出了DT_GA(Decision Tree on geneticalgorithm)算法,它是將隨機采樣技術(shù)、遺傳算法和標準的決策樹算法集成在一起而生成的。該算法是使傳統(tǒng)決策樹算法的質(zhì)量得到提高的一種有力方法。 本文分別對交叉和變異算子給出了新的定義,并取決策樹在測試集上的分類準確度作為種群中各樹個體的適應(yīng)值。通過在礦山數(shù)據(jù)集上進行試驗研究,主要對平均計算時間和分類準確度這兩個指標進行了考察和分析,發(fā)現(xiàn)DT_GA算法:即使在較低的采樣水平上也能獲得標準決策樹算法一樣的分類準確度;無論初始種群質(zhì)量如何,該算法都能產(chǎn)生高準確度的決策規(guī)則,且結(jié)果具有一致性;該算法具有很好的比例縮放性,對大型數(shù)據(jù)集的挖掘很有效。為更加適應(yīng)實際的需求,本文還提出了DT_GA算法可做的改進,并給出了改造后的CAMM算法的大致描述。
【關(guān)鍵詞】:知識發(fā)現(xiàn) 遺傳算法 關(guān)聯(lián)規(guī)則 決策樹 采樣技術(shù)
【學(xué)位授予單位】:西安建筑科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2005
【分類號】:C934
【目錄】:
- 1 緒論8-15
- 1.1 課題研究的目的和意義8
- 1.2 國內(nèi)外研究的現(xiàn)狀及水平8-13
- 1.3 本文研究的主要內(nèi)容13-15
- 2 知識發(fā)現(xiàn)的概述15-20
- 2.1 KDD的產(chǎn)生背景15
- 2.2 KDD的基本概念15-16
- 2.3 KDD的過程16-17
- 2.4 KDD的應(yīng)用17
- 2.5 數(shù)據(jù)挖掘技術(shù)簡介17-20
- 3 遺傳算法20-28
- 3.1 遺傳算法的簡介20-23
- 3.1.1 遺傳算法的產(chǎn)生與發(fā)展20-21
- 3.1.2 遺傳算法的基本思想21
- 3.1.3 遺傳算法的基本特點21-22
- 3.1.4 遺傳算法的基礎(chǔ)理論22-23
- 3.2 基本遺傳算法23-24
- 3.2.1 基本遺傳算法的構(gòu)成要素23-24
- 3.2.2 基本遺傳算法的流程圖24
- 3.3 遺傳算法的實施技術(shù)24-27
- 3.4 本章小結(jié)27-28
- 4 ARM-GA算法28-38
- 4.1 關(guān)聯(lián)規(guī)則28-30
- 4.1.1 關(guān)聯(lián)規(guī)則的基本概念28-29
- 4.1.2 關(guān)聯(lián)規(guī)則的挖掘29
- 4.1.3 現(xiàn)有的關(guān)聯(lián)規(guī)則算法29-30
- 4.2 ARM-GA算法的分析與構(gòu)造30-33
- 4.2.1 染色體編碼的設(shè)計30-31
- 4.2.2 適應(yīng)度函數(shù)的構(gòu)造31
- 4.2.3 遺傳操作的設(shè)計31-32
- 4.2.4 規(guī)則過濾算子的引入32
- 4.2.5 ARM-GA算法描述和流程圖32-33
- 4.3 算法在礦山事故分析中的應(yīng)用33-37
- 4.4 本章小結(jié)37-38
- 5 DT_GA算法38-64
- 5.1 決策樹38-43
- 5.1.1 決策樹技術(shù)簡介38-39
- 5.1.2 決策樹算法概述39-42
- 5.1.3 現(xiàn)有決策樹算法的瓶頸42
- 5.1.4 決策樹方法的發(fā)展趨勢42-43
- 5.2 DT_GA算法的分析與構(gòu)造43-49
- 5.2.1 DT_GA算法的分析43-44
- 5.2.2 DT_GA算法的構(gòu)造44-49
- 5.3 算法描述49-51
- 5.4 DT_GA算法在礦山事故分析中的應(yīng)用51-55
- 5.4.1 參數(shù)設(shè)置51
- 5.4.2 試驗設(shè)置51-53
- 5.4.3 試驗結(jié)果與分析53-55
- 5.5 DT_GA算法的補充說明55-62
- 5.5.1 自適應(yīng)的控制參數(shù)55-56
- 5.5.2 改造的 CAMM算法56-58
- 5.5.3 樹與粗糙集結(jié)合58-62
- 5.6 本章小結(jié)62-64
- 6 結(jié)論與展望64-67
- 6.1 本文的創(chuàng)新性工作64-65
- 6.2 本文的主要結(jié)論65-66
- 6.3 尚待進一步研究的問題和展望66-67
- 致謝67-68
- 參考文獻68-71
- 附錄I:攻讀碩士期間所發(fā)表的學(xué)術(shù)論文71
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 熊軍,高敦堂,都思丹,沈慶宏;變異率和種群數(shù)目自適應(yīng)的遺傳算法[J];東南大學(xué)學(xué)報(自然科學(xué)版);2004年04期
2 陶志,許寶棟,汪定偉,李冉;基于遺傳算法的粗糙集知識約簡方法[J];系統(tǒng)工程;2003年04期
3 程巖,黃梯云;粗糙集中定量關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)及其規(guī)則約簡的方法研究[J];管理工程學(xué)報;2001年03期
4 寇育敬,王春花,黃厚寬;約束關(guān)聯(lián)規(guī)則的增量式維護算法[J];計算機研究與發(fā)展;2001年08期
5 杜孝平,馬秀莉,唐世渭,牧之內(nèi) 顯文;快速關(guān)聯(lián)規(guī)則挖掘算法[J];計算機工程與應(yīng)用;2002年11期
6 李玉榕,喬斌;一種集成遺傳算法與模糊推理的粗糙集數(shù)據(jù)分析算法[J];計算機工程與應(yīng)用;2002年18期
7 郭景峰,米浦波,劉國華;決策樹算法的并行性研究[J];計算機工程;2002年08期
8 谷文祥,殷明浩;數(shù)據(jù)挖掘中決策樹加權(quán)模糊熵算法[J];計算技術(shù)與自動化;2002年03期
9 吳艷艷;粗集結(jié)合決策樹的一種數(shù)據(jù)挖掘算法[J];計算機工程與科學(xué);2004年02期
10 程繼華,施鵬飛;多層次關(guān)聯(lián)規(guī)則的有效挖掘算法[J];軟件學(xué)報;1998年12期
本文關(guān)鍵詞:基于遺傳算法的知識發(fā)現(xiàn)算法研究及應(yīng)用,由筆耕文化傳播整理發(fā)布。
,本文編號:503084
本文鏈接:http://sikaile.net/guanlilunwen/lindaojc/503084.html