天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于云計(jì)算的決策樹挖掘算法研究

發(fā)布時(shí)間:2022-02-11 21:38
  隨著計(jì)算機(jī)技術(shù)、通信技術(shù)以及Internet技術(shù)的飛速發(fā)展,全球內(nèi)的數(shù)據(jù)量呈現(xiàn)出爆炸式增長。如何在海量數(shù)據(jù)中提取隱含在其中的、有價(jià)值的信息成為當(dāng)今數(shù)據(jù)挖掘領(lǐng)域面臨的一大難題。云計(jì)算憑借其強(qiáng)大的運(yùn)算能力和巨大的存儲能力為解決海量數(shù)據(jù)挖掘領(lǐng)域的難題提供了全新的思路。Hadoop是當(dāng)前應(yīng)用最廣泛的云計(jì)算平臺,由Apache基金會(huì)參考Google云實(shí)現(xiàn)的云計(jì)算解決方案,具有成本低廉、高通用性、高可靠性和可伸縮性等優(yōu)勢。決策樹算法是數(shù)據(jù)挖掘算法中最容易理解且應(yīng)用最普遍的算法模型。但是傳統(tǒng)的決策樹算法是運(yùn)行在單機(jī)下的,受到CPU和內(nèi)存制約,僅適用于小規(guī)模數(shù)據(jù)集的處理。本文介紹了Hadoop云計(jì)算平臺,并對其中的兩大關(guān)鍵技術(shù)HDFS和MapReduce作了詳細(xì)的論述。本文選擇了決策樹算法中的C4.5算法和SPRINT算法作為研究對象。首先,對C4.5算法進(jìn)行了改進(jìn),提出了選用兩層信息增益率的新方法(D-C4.5算法),并對改進(jìn)后的算法進(jìn)行了并行化設(shè)計(jì)。同時(shí),針對SPRINT算法中Gini指數(shù)存在的多值偏向問題,提出了計(jì)算兩層Gini指數(shù)的新策略(D-SPRINT算法),并對該算法進(jìn)行了并行化設(shè)計(jì)。為... 

【文章來源】:南京郵電大學(xué)江蘇省

【文章頁數(shù)】:64 頁

【學(xué)位級別】:碩士

【文章目錄】:
摘要
abstract
第一章 緒論
    1.1 課題的研究背景和意義
    1.2 研究現(xiàn)狀
        1.2.1 云計(jì)算研究現(xiàn)狀
        1.2.2 數(shù)據(jù)挖掘研究現(xiàn)狀
    1.3 論文的主要工作
    1.4 論文組織結(jié)構(gòu)
    1.5 本章小結(jié)
第二章 Hadoop框架和數(shù)據(jù)挖掘算法研究
    2.1 Hadoop簡介
    2.2 Hadoop關(guān)鍵技術(shù)
        2.2.1 分布式文件系統(tǒng)HDFS
        2.2.2 Hadoop的I/O操作
        2.2.3 MapReduce編程模型
        2.2.4 MapReduce的執(zhí)行流程
    2.3 實(shí)驗(yàn)平臺的環(huán)境配置和搭建
        2.3.1 實(shí)驗(yàn)平臺的環(huán)境配置
        2.3.2 實(shí)驗(yàn)平臺的搭建
    2.4 數(shù)據(jù)挖掘算法研究
        2.4.1 數(shù)據(jù)挖掘算法簡介
        2.4.2 常見的數(shù)據(jù)挖掘方法
    2.5 本章小結(jié)
第三章 HD-C4.5 算法的研究和實(shí)現(xiàn)
    3.1 C4.5 算法簡介
    3.2 C4.5 算法基本思想
    3.3 C4.5 算法的分析和改進(jìn)
    3.4 D-C4.5 算法的并行化設(shè)計(jì)和實(shí)現(xiàn)
        3.4.1 D-C4.5 算法的并行化設(shè)計(jì)
        3.4.2 D-C4.5 算法的并行化實(shí)現(xiàn)
    3.5 HD-C4.5 算法的實(shí)驗(yàn)和分析
    3.6 本章小結(jié)
第四章 HD-SPRINT算法的研究和實(shí)現(xiàn)
    4.1 SPRINT算法簡介
    4.2 SPRINT算法的基本思想
    4.3 SPRINT算法的分析和改進(jìn)
    4.4 D-SPRINT算法并行化
    4.5 HD-SPRINT算法的實(shí)驗(yàn)和分析
    4.6 本章小結(jié)
第五章 HD-CS算法的研究和實(shí)現(xiàn)
    5.1 D-CS算法的研究和實(shí)現(xiàn)
        5.1.1 D-CS算法的數(shù)據(jù)結(jié)構(gòu)
        5.1.2 D-CS算法的最佳分割屬性計(jì)算方式
        5.1.3 D-CS算法終止條件
    5.2 D-CS算法的并行化
    5.3 HD-CS算法的實(shí)驗(yàn)和分析
    5.4 本章小結(jié)
第六章 總結(jié)與展望
    6.1 本文工作總結(jié)
    6.2 未來研究方向
參考文獻(xiàn)
附錄1 讀碩士學(xué)位期間撰寫的論文
附錄2 讀碩士學(xué)位期間參加的科研項(xiàng)目
致謝



本文編號:3620986

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/lindaojc/3620986.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶90b42***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com