分布式?jīng)Q策樹算法在分類問題中的研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-04-08 18:08
分類問題是模式識別、機(jī)器學(xué)習(xí)、圖像處理以及信息檢索等數(shù)據(jù)挖掘領(lǐng)域中一個(gè)重要的研究課題。在眾多分類算法中,決策樹(Decision Trees)是最有效且應(yīng)用最為廣泛的經(jīng)典算法之一,其具有分類精度高、參數(shù)少、可解釋性強(qiáng)等優(yōu)點(diǎn)。決策樹在商業(yè)、醫(yī)療、制造和生產(chǎn)、金融分析、遙感影像分類、分子生物學(xué)等方面已經(jīng)有了廣泛的應(yīng)用并且取得了顯著的成效。隨著科技的進(jìn)步和網(wǎng)絡(luò)的發(fā)展,日常生活中產(chǎn)生的數(shù)據(jù)正在急劇增長,這為決策樹解決大規(guī)模數(shù)據(jù)分類問題帶來了機(jī)遇與挑戰(zhàn)。然而由于內(nèi)存空間、時(shí)間復(fù)雜度以及數(shù)據(jù)復(fù)雜度等限制,傳統(tǒng)的決策樹算法還無法直接應(yīng)用于大規(guī)模數(shù)據(jù)集的分類問題。為有效進(jìn)行大規(guī)模數(shù)據(jù)集的分析與處理,算法分布式化研究的重要性日益顯著。本文針對分類問題,對決策樹算法的分布式化進(jìn)行了研究與實(shí)現(xiàn),主要研究工作包括以下幾個(gè)方面:(1)為應(yīng)對C4.5決策樹在處理大規(guī)模數(shù)據(jù)分類問題時(shí)所面臨的挑戰(zhàn),提出了一種基于C4.5決策樹的分布式化方法。本算法將Map-Reduce技術(shù)應(yīng)用于決策樹構(gòu)造的每一個(gè)樹節(jié)點(diǎn)中,構(gòu)建了兩個(gè)分布式算法:一個(gè)分布式算法用于樹節(jié)點(diǎn)分裂屬性和分裂點(diǎn)的選擇,另一個(gè)用于數(shù)據(jù)的分割。其中在分裂屬性和分裂...
【文章來源】:大連理工大學(xué)遼寧省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:134 頁
【學(xué)位級別】:博士
【部分圖文】:
圖2.2文件在Hadoop分布式文件系統(tǒng)上的存儲(chǔ)模式??Fig.?2.2?The?distribution?of?a?file?in?Hadoop?Distributed?File?System??
生在多個(gè)計(jì)算機(jī)上,在該階段存在一個(gè)被稱為Map的函數(shù),該函數(shù)主要用于處理輸入數(shù)??據(jù)并產(chǎn)生一些中間的輸出。然后,這些中間結(jié)果在Reduce階段通過一個(gè)Reduce函數(shù)進(jìn)行??聚合,該函數(shù)按照用戶的實(shí)際實(shí)現(xiàn)輸出最終的結(jié)果。圖2.3詳細(xì)描述了?Map-Reduce框架??的處理步驟。??Map?Shuffle?Reduce??<?A?、r?A??K?n??<keyi,valuei>?Iist<kcy2,valuc2>?<key2,list(valuC2)>?<key3,value3>??圖2.3?Map-Reduce框架的詳細(xì)處理流程??Fig.?2.3?The?detailed?processing?procedure?of?the?Map-Reduce?framework??如圖2.3所示,Map階段和Reduce階段都用<?>對作為相應(yīng)函數(shù)的輸入和輸??出。在Map階段,Map函數(shù)將每一個(gè)</:〇;,對作為輸入,并且輸出了一個(gè)中間結(jié)??-25-??
圖3.2所提算法在Adult數(shù)據(jù)集上的執(zhí)行時(shí)間??Fig.?3.2?Running?time?of?the?proposed?method?for?Adult?data?set??-42-??
【參考文獻(xiàn)】:
期刊論文
[1]基于MapReduce的決策樹算法并行化[J]. 陸秋,程小輝. 計(jì)算機(jī)應(yīng)用. 2012(09)
[2]Information entropy for ordinal classification[J]. HU QingHua , GUO MaoZu, YU DaRen & LIU JinFu Harbin Institute of Technology, Harbin 150001, China. Science China(Information Sciences). 2010(06)
[3]粗糙集理論與應(yīng)用研究綜述[J]. 王國胤,姚一豫,于洪. 計(jì)算機(jī)學(xué)報(bào). 2009(07)
[4]基于分層遺傳算法的網(wǎng)格任務(wù)調(diào)度策略[J]. 劉海迪,楊裔,馬生峰,李廉. 計(jì)算機(jī)研究與發(fā)展. 2008(S1)
[5]分支合并對決策樹歸納學(xué)習(xí)的影響[J]. 王熙照,楊晨曉. 計(jì)算機(jī)學(xué)報(bào). 2007(08)
[6]SVM-KNN組合改進(jìn)算法在專利文本分類中的應(yīng)用[J]. 李程雄,丁月華,文貴華. 計(jì)算機(jī)工程與應(yīng)用. 2006(20)
[7]基于SVM的特征加權(quán)KNN算法[J]. 陳振洲,李磊,姚正安. 中山大學(xué)學(xué)報(bào)(自然科學(xué)版). 2005(01)
[8]決策樹的優(yōu)化算法[J]. 劉小虎,李生. 軟件學(xué)報(bào). 1998(10)
[9]基于粗糙集的多變量決策樹構(gòu)造方法[J]. 苗奪謙,王玨. 軟件學(xué)報(bào). 1997(06)
博士論文
[1]基于模糊規(guī)則的知識發(fā)現(xiàn)與表示研究[D]. 王顯昌.大連理工大學(xué) 2015
[2]基于公理模糊集的模糊決策樹算法研究[D]. 馮興華.大連理工大學(xué) 2013
本文編號:3126006
【文章來源】:大連理工大學(xué)遼寧省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:134 頁
【學(xué)位級別】:博士
【部分圖文】:
圖2.2文件在Hadoop分布式文件系統(tǒng)上的存儲(chǔ)模式??Fig.?2.2?The?distribution?of?a?file?in?Hadoop?Distributed?File?System??
生在多個(gè)計(jì)算機(jī)上,在該階段存在一個(gè)被稱為Map的函數(shù),該函數(shù)主要用于處理輸入數(shù)??據(jù)并產(chǎn)生一些中間的輸出。然后,這些中間結(jié)果在Reduce階段通過一個(gè)Reduce函數(shù)進(jìn)行??聚合,該函數(shù)按照用戶的實(shí)際實(shí)現(xiàn)輸出最終的結(jié)果。圖2.3詳細(xì)描述了?Map-Reduce框架??的處理步驟。??Map?Shuffle?Reduce??<?A?、r?A??K?n??<keyi,valuei>?Iist<kcy2,valuc2>?<key2,list(valuC2)>?<key3,value3>??圖2.3?Map-Reduce框架的詳細(xì)處理流程??Fig.?2.3?The?detailed?processing?procedure?of?the?Map-Reduce?framework??如圖2.3所示,Map階段和Reduce階段都用<?>對作為相應(yīng)函數(shù)的輸入和輸??出。在Map階段,Map函數(shù)將每一個(gè)</:〇;,對作為輸入,并且輸出了一個(gè)中間結(jié)??-25-??
圖3.2所提算法在Adult數(shù)據(jù)集上的執(zhí)行時(shí)間??Fig.?3.2?Running?time?of?the?proposed?method?for?Adult?data?set??-42-??
【參考文獻(xiàn)】:
期刊論文
[1]基于MapReduce的決策樹算法并行化[J]. 陸秋,程小輝. 計(jì)算機(jī)應(yīng)用. 2012(09)
[2]Information entropy for ordinal classification[J]. HU QingHua , GUO MaoZu, YU DaRen & LIU JinFu Harbin Institute of Technology, Harbin 150001, China. Science China(Information Sciences). 2010(06)
[3]粗糙集理論與應(yīng)用研究綜述[J]. 王國胤,姚一豫,于洪. 計(jì)算機(jī)學(xué)報(bào). 2009(07)
[4]基于分層遺傳算法的網(wǎng)格任務(wù)調(diào)度策略[J]. 劉海迪,楊裔,馬生峰,李廉. 計(jì)算機(jī)研究與發(fā)展. 2008(S1)
[5]分支合并對決策樹歸納學(xué)習(xí)的影響[J]. 王熙照,楊晨曉. 計(jì)算機(jī)學(xué)報(bào). 2007(08)
[6]SVM-KNN組合改進(jìn)算法在專利文本分類中的應(yīng)用[J]. 李程雄,丁月華,文貴華. 計(jì)算機(jī)工程與應(yīng)用. 2006(20)
[7]基于SVM的特征加權(quán)KNN算法[J]. 陳振洲,李磊,姚正安. 中山大學(xué)學(xué)報(bào)(自然科學(xué)版). 2005(01)
[8]決策樹的優(yōu)化算法[J]. 劉小虎,李生. 軟件學(xué)報(bào). 1998(10)
[9]基于粗糙集的多變量決策樹構(gòu)造方法[J]. 苗奪謙,王玨. 軟件學(xué)報(bào). 1997(06)
博士論文
[1]基于模糊規(guī)則的知識發(fā)現(xiàn)與表示研究[D]. 王顯昌.大連理工大學(xué) 2015
[2]基于公理模糊集的模糊決策樹算法研究[D]. 馮興華.大連理工大學(xué) 2013
本文編號:3126006
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3126006.html
最近更新
教材專著