基于CUDA平臺的C4.5算法研究
發(fā)布時(shí)間:2021-01-26 13:03
21世紀(jì)是信息爆炸的時(shí)代,如何有效利用已有信息和數(shù)據(jù)發(fā)現(xiàn)規(guī)律,無疑成為重要課題。當(dāng)前許多公司或企業(yè)的數(shù)據(jù)庫中存儲有海量數(shù)據(jù),如餐飲業(yè)的顧客消費(fèi)記錄、顧客登記記錄;網(wǎng)絡(luò)運(yùn)營商的客戶通話和短信記錄;大型超市的銷售記錄等等,從這些海量數(shù)據(jù)中發(fā)現(xiàn)規(guī)律,進(jìn)而指導(dǎo)決策者進(jìn)行決策就是數(shù)據(jù)挖掘的任務(wù)。進(jìn)行數(shù)據(jù)挖掘,選取適當(dāng)?shù)臄?shù)據(jù)挖掘算法是必要的。數(shù)據(jù)挖掘算法有很多類別,主要包括關(guān)聯(lián)規(guī)則分析、聚類分析、分類分析等。關(guān)聯(lián)規(guī)則算法中最經(jīng)典的莫過于apriori算法,本文在apriori算法的基礎(chǔ)上討論了FP-growth算法,并給出了FP-growth算法的并行計(jì)算思路;聚類分析算法部分重點(diǎn)介紹了K-MEANS算法及其并行處理思想;分類分析中決策樹算法是比較重要的,本文重點(diǎn)討論了C4.5決策樹算法,介紹了算法中測試屬性的選擇、包含未知屬性值樣本的處理、窗口機(jī)制、離散屬性值分組、決策樹剪枝等問題。在詳細(xì)討論該算法的基礎(chǔ)上給出了其并行處理思路。有了并行處理思路,本文借助于NVIDIA公司推出的CUDA平臺實(shí)現(xiàn)了C4.5算法的并行化。CUDA平臺是實(shí)現(xiàn)GPU通用計(jì)算的平臺,使用擴(kuò)展的C語言進(jìn)行編程,編譯器為nvc...
【文章來源】:西安電子科技大學(xué)陜西省 211工程院校 教育部直屬院校
【文章頁數(shù)】:72 頁
【學(xué)位級別】:碩士
【部分圖文】:
C4.5和C5.0分別對三個數(shù)據(jù)集產(chǎn)生規(guī)則集
Sleep income forest圖 1.2 C4.5 和 C5.0 分別對三個數(shù)據(jù)集產(chǎn)生決策樹上圖再一次表明了 C5.0 的效率。其余不再贅述?梢姏Q策樹領(lǐng)域的算法取得很大成果。但 C5.0 效率的提升靠的是一些技術(shù)的改進(jìn),算法的改進(jìn)性方面增加了數(shù)據(jù)類型,增加了屬性間的關(guān)聯(lián)。但如果數(shù)據(jù)集繼續(xù)增大要考慮并行執(zhí)行,并不是單單靠改進(jìn)算法就能達(dá)到滿意效果的。這正是的內(nèi)容。1.3 研究思路及創(chuàng)新點(diǎn)鑒于當(dāng)今企業(yè)級數(shù)據(jù)挖掘應(yīng)用涉及的數(shù)據(jù)量是巨大的,算法的執(zhí)行時(shí)間形的瓶頸。CUDA(Compute Unified Device Architecture)平臺是顯卡廠商 N的運(yùn)算平臺,其解放了 GPU 的計(jì)算能力,使我們可以用 C 高級語言直接進(jìn)行 GPU 通用計(jì)算[7]。目前,主流計(jì)算機(jī)中的處理器主要是中央處理器 CPU 和圖形處理器 G
(a) CPU (b)GPU圖 1.3 CPU 與 GPU 晶體管的使用游戲市場和軍事視景仿真需求的牽引,GPU 性能提高速度很快。最近GPU 的性能每一年就可以翻倍,大大超過了 CPU 遵照摩爾定律(每 1能翻倍)的發(fā)展速度。為了實(shí)現(xiàn)更逼真的圖形效果,GPU 支持越來越復(fù),其可編程性和功能都大大擴(kuò)展了。目前,主流 GPU 的單精度浮點(diǎn)處理達(dá)到了同時(shí)期 CPU 的 10 倍左右,而其外部存儲器帶寬則是 CPU 的 5 倍構(gòu)上,目前的主流 GPU 采用了統(tǒng)一架構(gòu)單元,并且實(shí)現(xiàn)了細(xì)粒度的線程大大擴(kuò)展了應(yīng)用范圍。2006 年,隨著支持 DirectX 10 的 GPU 的發(fā)布, 的通用計(jì)算(General Purpose GPU,GPGPU)的普及條件成熟了。N于 2007 年正式發(fā)布的 CUDA(Compute Unified Device Architecture,計(jì)算架構(gòu))是第一種不需借助圖形學(xué) API 就可以使用類 C 語言進(jìn)行通用計(jì)算境和軟件體系[8]。與以往的傳統(tǒng) GPGPU 開發(fā)方式相比,CUDA 有十分顯。經(jīng)過兩年多的發(fā)展,CUDA 與支持 CUDA 的 GPU 在性能上有顯著提也在不斷完善。
【參考文獻(xiàn)】:
期刊論文
[1]基于KNN和RVM的分類方法——KNN-RVM分類器[J]. 張磊,劉建偉,羅雄麟. 模式識別與人工智能. 2010(03)
[2]基于GPU的串匹配算法研究[J]. 張慶丹,戴正華,馮圣中,孫凝暉. 計(jì)算機(jī)應(yīng)用. 2006(07)
[3]基于FP-tree的最大頻繁模式挖掘算法[J]. 馮志新,鐘誠. 計(jì)算機(jī)工程. 2004(11)
[4]基于遺傳算法的智能組卷系統(tǒng)數(shù)據(jù)庫結(jié)構(gòu)的研究[J]. 毛秉毅. 計(jì)算機(jī)工程與應(yīng)用. 2003(06)
[5]快速更新頻繁項(xiàng)集[J]. 朱玉全,孫志揮,趙傳申. 計(jì)算機(jī)研究與發(fā)展. 2003(01)
[6]關(guān)聯(lián)規(guī)則挖掘技術(shù)及發(fā)展動向[J]. 朱紹文,王泉德,黃浩,彭清濤,陸玉昌. 計(jì)算機(jī)工程. 2000(09)
[7]關(guān)于統(tǒng)計(jì)學(xué)習(xí)理論與支持向量機(jī)[J]. 張學(xué)工. 自動化學(xué)報(bào). 2000(01)
[8]CART-分類與回歸樹方法介紹[J]. 張松林. 火山地質(zhì)與礦產(chǎn). 1997(01)
本文編號:3001161
【文章來源】:西安電子科技大學(xué)陜西省 211工程院校 教育部直屬院校
【文章頁數(shù)】:72 頁
【學(xué)位級別】:碩士
【部分圖文】:
C4.5和C5.0分別對三個數(shù)據(jù)集產(chǎn)生規(guī)則集
Sleep income forest圖 1.2 C4.5 和 C5.0 分別對三個數(shù)據(jù)集產(chǎn)生決策樹上圖再一次表明了 C5.0 的效率。其余不再贅述?梢姏Q策樹領(lǐng)域的算法取得很大成果。但 C5.0 效率的提升靠的是一些技術(shù)的改進(jìn),算法的改進(jìn)性方面增加了數(shù)據(jù)類型,增加了屬性間的關(guān)聯(lián)。但如果數(shù)據(jù)集繼續(xù)增大要考慮并行執(zhí)行,并不是單單靠改進(jìn)算法就能達(dá)到滿意效果的。這正是的內(nèi)容。1.3 研究思路及創(chuàng)新點(diǎn)鑒于當(dāng)今企業(yè)級數(shù)據(jù)挖掘應(yīng)用涉及的數(shù)據(jù)量是巨大的,算法的執(zhí)行時(shí)間形的瓶頸。CUDA(Compute Unified Device Architecture)平臺是顯卡廠商 N的運(yùn)算平臺,其解放了 GPU 的計(jì)算能力,使我們可以用 C 高級語言直接進(jìn)行 GPU 通用計(jì)算[7]。目前,主流計(jì)算機(jī)中的處理器主要是中央處理器 CPU 和圖形處理器 G
(a) CPU (b)GPU圖 1.3 CPU 與 GPU 晶體管的使用游戲市場和軍事視景仿真需求的牽引,GPU 性能提高速度很快。最近GPU 的性能每一年就可以翻倍,大大超過了 CPU 遵照摩爾定律(每 1能翻倍)的發(fā)展速度。為了實(shí)現(xiàn)更逼真的圖形效果,GPU 支持越來越復(fù),其可編程性和功能都大大擴(kuò)展了。目前,主流 GPU 的單精度浮點(diǎn)處理達(dá)到了同時(shí)期 CPU 的 10 倍左右,而其外部存儲器帶寬則是 CPU 的 5 倍構(gòu)上,目前的主流 GPU 采用了統(tǒng)一架構(gòu)單元,并且實(shí)現(xiàn)了細(xì)粒度的線程大大擴(kuò)展了應(yīng)用范圍。2006 年,隨著支持 DirectX 10 的 GPU 的發(fā)布, 的通用計(jì)算(General Purpose GPU,GPGPU)的普及條件成熟了。N于 2007 年正式發(fā)布的 CUDA(Compute Unified Device Architecture,計(jì)算架構(gòu))是第一種不需借助圖形學(xué) API 就可以使用類 C 語言進(jìn)行通用計(jì)算境和軟件體系[8]。與以往的傳統(tǒng) GPGPU 開發(fā)方式相比,CUDA 有十分顯。經(jīng)過兩年多的發(fā)展,CUDA 與支持 CUDA 的 GPU 在性能上有顯著提也在不斷完善。
【參考文獻(xiàn)】:
期刊論文
[1]基于KNN和RVM的分類方法——KNN-RVM分類器[J]. 張磊,劉建偉,羅雄麟. 模式識別與人工智能. 2010(03)
[2]基于GPU的串匹配算法研究[J]. 張慶丹,戴正華,馮圣中,孫凝暉. 計(jì)算機(jī)應(yīng)用. 2006(07)
[3]基于FP-tree的最大頻繁模式挖掘算法[J]. 馮志新,鐘誠. 計(jì)算機(jī)工程. 2004(11)
[4]基于遺傳算法的智能組卷系統(tǒng)數(shù)據(jù)庫結(jié)構(gòu)的研究[J]. 毛秉毅. 計(jì)算機(jī)工程與應(yīng)用. 2003(06)
[5]快速更新頻繁項(xiàng)集[J]. 朱玉全,孫志揮,趙傳申. 計(jì)算機(jī)研究與發(fā)展. 2003(01)
[6]關(guān)聯(lián)規(guī)則挖掘技術(shù)及發(fā)展動向[J]. 朱紹文,王泉德,黃浩,彭清濤,陸玉昌. 計(jì)算機(jī)工程. 2000(09)
[7]關(guān)于統(tǒng)計(jì)學(xué)習(xí)理論與支持向量機(jī)[J]. 張學(xué)工. 自動化學(xué)報(bào). 2000(01)
[8]CART-分類與回歸樹方法介紹[J]. 張松林. 火山地質(zhì)與礦產(chǎn). 1997(01)
本文編號:3001161
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/3001161.html
最近更新
教材專著