基于云計(jì)算的決策樹挖掘算法研究
發(fā)布時(shí)間:2022-02-11 21:38
隨著計(jì)算機(jī)技術(shù)、通信技術(shù)以及Internet技術(shù)的飛速發(fā)展,全球內(nèi)的數(shù)據(jù)量呈現(xiàn)出爆炸式增長。如何在海量數(shù)據(jù)中提取隱含在其中的、有價(jià)值的信息成為當(dāng)今數(shù)據(jù)挖掘領(lǐng)域面臨的一大難題。云計(jì)算憑借其強(qiáng)大的運(yùn)算能力和巨大的存儲能力為解決海量數(shù)據(jù)挖掘領(lǐng)域的難題提供了全新的思路。Hadoop是當(dāng)前應(yīng)用最廣泛的云計(jì)算平臺,由Apache基金會(huì)參考Google云實(shí)現(xiàn)的云計(jì)算解決方案,具有成本低廉、高通用性、高可靠性和可伸縮性等優(yōu)勢。決策樹算法是數(shù)據(jù)挖掘算法中最容易理解且應(yīng)用最普遍的算法模型。但是傳統(tǒng)的決策樹算法是運(yùn)行在單機(jī)下的,受到CPU和內(nèi)存制約,僅適用于小規(guī)模數(shù)據(jù)集的處理。本文介紹了Hadoop云計(jì)算平臺,并對其中的兩大關(guān)鍵技術(shù)HDFS和MapReduce作了詳細(xì)的論述。本文選擇了決策樹算法中的C4.5算法和SPRINT算法作為研究對象。首先,對C4.5算法進(jìn)行了改進(jìn),提出了選用兩層信息增益率的新方法(D-C4.5算法),并對改進(jìn)后的算法進(jìn)行了并行化設(shè)計(jì)。同時(shí),針對SPRINT算法中Gini指數(shù)存在的多值偏向問題,提出了計(jì)算兩層Gini指數(shù)的新策略(D-SPRINT算法),并對該算法進(jìn)行了并行化設(shè)計(jì)。為...
【文章來源】:南京郵電大學(xué)江蘇省
【文章頁數(shù)】:64 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 課題的研究背景和意義
1.2 研究現(xiàn)狀
1.2.1 云計(jì)算研究現(xiàn)狀
1.2.2 數(shù)據(jù)挖掘研究現(xiàn)狀
1.3 論文的主要工作
1.4 論文組織結(jié)構(gòu)
1.5 本章小結(jié)
第二章 Hadoop框架和數(shù)據(jù)挖掘算法研究
2.1 Hadoop簡介
2.2 Hadoop關(guān)鍵技術(shù)
2.2.1 分布式文件系統(tǒng)HDFS
2.2.2 Hadoop的I/O操作
2.2.3 MapReduce編程模型
2.2.4 MapReduce的執(zhí)行流程
2.3 實(shí)驗(yàn)平臺的環(huán)境配置和搭建
2.3.1 實(shí)驗(yàn)平臺的環(huán)境配置
2.3.2 實(shí)驗(yàn)平臺的搭建
2.4 數(shù)據(jù)挖掘算法研究
2.4.1 數(shù)據(jù)挖掘算法簡介
2.4.2 常見的數(shù)據(jù)挖掘方法
2.5 本章小結(jié)
第三章 HD-C4.5 算法的研究和實(shí)現(xiàn)
3.1 C4.5 算法簡介
3.2 C4.5 算法基本思想
3.3 C4.5 算法的分析和改進(jìn)
3.4 D-C4.5 算法的并行化設(shè)計(jì)和實(shí)現(xiàn)
3.4.1 D-C4.5 算法的并行化設(shè)計(jì)
3.4.2 D-C4.5 算法的并行化實(shí)現(xiàn)
3.5 HD-C4.5 算法的實(shí)驗(yàn)和分析
3.6 本章小結(jié)
第四章 HD-SPRINT算法的研究和實(shí)現(xiàn)
4.1 SPRINT算法簡介
4.2 SPRINT算法的基本思想
4.3 SPRINT算法的分析和改進(jìn)
4.4 D-SPRINT算法并行化
4.5 HD-SPRINT算法的實(shí)驗(yàn)和分析
4.6 本章小結(jié)
第五章 HD-CS算法的研究和實(shí)現(xiàn)
5.1 D-CS算法的研究和實(shí)現(xiàn)
5.1.1 D-CS算法的數(shù)據(jù)結(jié)構(gòu)
5.1.2 D-CS算法的最佳分割屬性計(jì)算方式
5.1.3 D-CS算法終止條件
5.2 D-CS算法的并行化
5.3 HD-CS算法的實(shí)驗(yàn)和分析
5.4 本章小結(jié)
第六章 總結(jié)與展望
6.1 本文工作總結(jié)
6.2 未來研究方向
參考文獻(xiàn)
附錄1 讀碩士學(xué)位期間撰寫的論文
附錄2 讀碩士學(xué)位期間參加的科研項(xiàng)目
致謝
本文編號:3620986
【文章來源】:南京郵電大學(xué)江蘇省
【文章頁數(shù)】:64 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 課題的研究背景和意義
1.2 研究現(xiàn)狀
1.2.1 云計(jì)算研究現(xiàn)狀
1.2.2 數(shù)據(jù)挖掘研究現(xiàn)狀
1.3 論文的主要工作
1.4 論文組織結(jié)構(gòu)
1.5 本章小結(jié)
第二章 Hadoop框架和數(shù)據(jù)挖掘算法研究
2.1 Hadoop簡介
2.2 Hadoop關(guān)鍵技術(shù)
2.2.1 分布式文件系統(tǒng)HDFS
2.2.2 Hadoop的I/O操作
2.2.3 MapReduce編程模型
2.2.4 MapReduce的執(zhí)行流程
2.3 實(shí)驗(yàn)平臺的環(huán)境配置和搭建
2.3.1 實(shí)驗(yàn)平臺的環(huán)境配置
2.3.2 實(shí)驗(yàn)平臺的搭建
2.4 數(shù)據(jù)挖掘算法研究
2.4.1 數(shù)據(jù)挖掘算法簡介
2.4.2 常見的數(shù)據(jù)挖掘方法
2.5 本章小結(jié)
第三章 HD-C4.5 算法的研究和實(shí)現(xiàn)
3.1 C4.5 算法簡介
3.2 C4.5 算法基本思想
3.3 C4.5 算法的分析和改進(jìn)
3.4 D-C4.5 算法的并行化設(shè)計(jì)和實(shí)現(xiàn)
3.4.1 D-C4.5 算法的并行化設(shè)計(jì)
3.4.2 D-C4.5 算法的并行化實(shí)現(xiàn)
3.5 HD-C4.5 算法的實(shí)驗(yàn)和分析
3.6 本章小結(jié)
第四章 HD-SPRINT算法的研究和實(shí)現(xiàn)
4.1 SPRINT算法簡介
4.2 SPRINT算法的基本思想
4.3 SPRINT算法的分析和改進(jìn)
4.4 D-SPRINT算法并行化
4.5 HD-SPRINT算法的實(shí)驗(yàn)和分析
4.6 本章小結(jié)
第五章 HD-CS算法的研究和實(shí)現(xiàn)
5.1 D-CS算法的研究和實(shí)現(xiàn)
5.1.1 D-CS算法的數(shù)據(jù)結(jié)構(gòu)
5.1.2 D-CS算法的最佳分割屬性計(jì)算方式
5.1.3 D-CS算法終止條件
5.2 D-CS算法的并行化
5.3 HD-CS算法的實(shí)驗(yàn)和分析
5.4 本章小結(jié)
第六章 總結(jié)與展望
6.1 本文工作總結(jié)
6.2 未來研究方向
參考文獻(xiàn)
附錄1 讀碩士學(xué)位期間撰寫的論文
附錄2 讀碩士學(xué)位期間參加的科研項(xiàng)目
致謝
本文編號:3620986
本文鏈接:http://sikaile.net/guanlilunwen/lindaojc/3620986.html
最近更新
教材專著