天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 軟件論文 >

基于Spark的隨機(jī)森林算法優(yōu)化與并行化研究

發(fā)布時(shí)間:2021-07-24 23:09
  隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,以及各類應(yīng)用軟件及傳感器技術(shù)日益成熟,海量的數(shù)據(jù)信息能被各個(gè)領(lǐng)域內(nèi)的組織機(jī)構(gòu)所獲取或積累。大數(shù)據(jù)逐漸走進(jìn)了人們的日常生活中,并得到了各行各業(yè)的重視。但因其大數(shù)據(jù)的特性人們無(wú)法直接從中提取出一些有價(jià)值的知識(shí),所以從大數(shù)據(jù)中挖掘出有價(jià)值的知識(shí)已成為當(dāng)下研究的熱點(diǎn)之一。而數(shù)據(jù)挖掘技術(shù)能很好的從數(shù)據(jù)中挖掘出有價(jià)值的信息。目前有許多大數(shù)據(jù)平臺(tái),而Spark因其迭代速度快的優(yōu)勢(shì)被廣泛使用。分類算法屬于數(shù)據(jù)挖掘中的一個(gè)重要分支,在大數(shù)據(jù)時(shí)代也具有重要的意義。隨機(jī)森林算法是分類算法中的一種,因其較好的分類性能被廣泛的應(yīng)用于各行各業(yè)。但是隨機(jī)森林算法在面對(duì)高維數(shù)據(jù)和不平衡數(shù)據(jù)時(shí),其算法的表現(xiàn)不是那么好。本文就針對(duì)這兩個(gè)領(lǐng)域提出了兩種優(yōu)化算法:在特征選擇領(lǐng)域,本文提出了一種基于最大互信息系數(shù)的隨機(jī)森林算法。該方法主要思路為:首先利用最大互信息系數(shù)來(lái)對(duì)特征進(jìn)行打分,隨后根據(jù)特征的得分從高到低對(duì)特征進(jìn)行排序并選取得分高的全部特征和部分得分中等水平的特征(隨機(jī)選。﹨⑴c到隨機(jī)森林算法的構(gòu)建之中,最后基于Spark完成了優(yōu)化算法的并行化設(shè)計(jì),最終的實(shí)驗(yàn)結(jié)果證明了本文所提出的方法很好的解決... 

【文章來(lái)源】:齊魯工業(yè)大學(xué)山東省

【文章頁(yè)數(shù)】:93 頁(yè)

【學(xué)位級(jí)別】:碩士

【文章目錄】:
摘要
ABSTRACT
第1章 緒論
    1.1 研究背景與意義
        1.1.1 研究背景
        1.1.2 研究意義
    1.2 研究現(xiàn)狀
        1.2.1 隨機(jī)森林研究現(xiàn)狀
        1.2.2 基于Spark大數(shù)據(jù)框架的隨機(jī)森林算法研究現(xiàn)狀
    1.3 研究?jī)?nèi)容及主要工作
    1.4 論文結(jié)構(gòu)安排
    1.5 本文創(chuàng)新點(diǎn)
第2章 相關(guān)技術(shù)及基本概念
    2.1 Hadoop相關(guān)技術(shù)介紹
        2.1.1 HDFS的概念特性及工作機(jī)制
        2.1.2 MapReduce原理介紹
        2.1.3 YARN的原理介紹
    2.2 Spark相關(guān)技術(shù)介紹
        2.2.1 Spark生態(tài)系統(tǒng)
        2.2.2 Spark RDD
        2.2.3 Spark SQL
        2.2.4 Spark Streaming
        2.2.5 Spark MLlib和Spark ML
        2.2.6 Spark GraphX
        2.2.7 Spark專業(yè)術(shù)語(yǔ)簡(jiǎn)單介紹
    2.3 隨機(jī)森林算法介紹
        2.3.1 決策樹(shù)
        2.3.2 隨機(jī)森林定義
        2.3.3 隨機(jī)森林構(gòu)建過(guò)程
        2.3.4 隨機(jī)森林算法的優(yōu)缺點(diǎn)
    2.4 特征選擇相關(guān)技術(shù)介紹
        2.4.1 特征選擇
        2.4.2 特征選擇相關(guān)方法
    2.5 不平衡分類相關(guān)技術(shù)介紹
        2.5.1 不平衡數(shù)據(jù)及其特點(diǎn)
        2.5.2 不平衡分類相關(guān)解決方法
    2.6 本章小結(jié)
第3章 基于最大互信息系數(shù)的隨機(jī)森林算法
    3.1 隨機(jī)森林的特征選擇問(wèn)題
    3.2 最大互信息系數(shù)
    3.3 基于最大互信息系數(shù)的隨機(jī)森林算法
    3.4 優(yōu)化算法的并行化設(shè)計(jì)
        3.4.1 數(shù)據(jù)并行化
        3.4.2 任務(wù)并行化
    3.5 實(shí)驗(yàn)結(jié)果與分析
        3.5.1 實(shí)驗(yàn)環(huán)境準(zhǔn)備
        3.5.2 實(shí)驗(yàn)數(shù)據(jù)
        3.5.3 實(shí)驗(yàn)結(jié)果
    3.6 本章小結(jié)
第4章 基于GAN的隨機(jī)森林算法
    4.1 隨機(jī)森林的不平衡分類問(wèn)題
    4.2 生成對(duì)抗網(wǎng)絡(luò)
    4.3 基于GAN的隨機(jī)森林算法
    4.4 優(yōu)化算法的并行化設(shè)計(jì)
    4.5 實(shí)驗(yàn)論證
        4.5.1 實(shí)驗(yàn)環(huán)境
        4.5.2 評(píng)估標(biāo)準(zhǔn)與實(shí)驗(yàn)數(shù)據(jù)
        4.5.3 實(shí)驗(yàn)過(guò)程及實(shí)驗(yàn)結(jié)果
    4.6 本章小結(jié)
第5章 改進(jìn)隨機(jī)森林算法的應(yīng)用
    5.1 算法應(yīng)用領(lǐng)域介紹
        5.1.1 入侵檢測(cè)系統(tǒng)介紹
        5.1.2 入侵檢測(cè)相關(guān)技術(shù)介紹
    5.2 入侵檢測(cè)領(lǐng)域存在問(wèn)題
    5.3 具體解決方案
        5.3.1 基于GAN的隨機(jī)森林算法的應(yīng)用
        5.3.2 基于最大互信息系數(shù)的隨機(jī)森林算法的應(yīng)用
    5.4 實(shí)驗(yàn)論證
        5.4.1 實(shí)驗(yàn)數(shù)據(jù)與數(shù)據(jù)預(yù)處理
        5.4.2 實(shí)驗(yàn)環(huán)境
        5.4.3 評(píng)價(jià)標(biāo)準(zhǔn)
        5.4.4 實(shí)驗(yàn)結(jié)果
    5.5 本章總結(jié)
第6章 總結(jié)與展望
    6.1 總結(jié)
    6.2 展望
參考文獻(xiàn)
致謝
在學(xué)期間主要研究成果
    一、發(fā)表學(xué)術(shù)論文
    二、其他科研成果


【參考文獻(xiàn)】:
期刊論文
[1]基于Spark和隨機(jī)森林的乳腺癌風(fēng)險(xiǎn)預(yù)測(cè)分析[J]. 苗立志,刁繼堯,婁沖,崔進(jìn)東.  計(jì)算機(jī)技術(shù)與發(fā)展. 2019(08)
[2]Spark環(huán)境下基于綜合權(quán)重的不平衡數(shù)據(jù)集成分類方法[J]. 丁家滿,王思晨,賈連印,游進(jìn)國(guó),姜瑛.  小型微型計(jì)算機(jī)系統(tǒng). 2019(02)
[3]基于類區(qū)分度的高維不平衡特征選擇算法[J]. 楊杰明,高聰,曲朝陽(yáng),劉鵬,陳宇陽(yáng),趙才博.  科技通報(bào). 2019(01)
[4]基于隨機(jī)森林和氣象參數(shù)的PM2.5濃度等級(jí)預(yù)測(cè)[J]. 任才溶,謝剛.  計(jì)算機(jī)工程與應(yīng)用. 2019(02)
[5]基于隨機(jī)森林的文本分類并行化[J]. 彭徵,王靈矯,郭華.  計(jì)算機(jī)科學(xué). 2018(12)
[6]基于隨機(jī)森林的加權(quán)特征選擇算法[J]. 徐少成,李東喜.  統(tǒng)計(jì)與決策. 2018(18)
[7]基于數(shù)據(jù)挖掘技術(shù)的乳腺癌亞型識(shí)別方法[J]. 楊紹華,陳冬東,張旭,何林.  西南大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(05)
[8]生成式對(duì)抗網(wǎng)絡(luò):從生成數(shù)據(jù)到創(chuàng)造智能[J]. 王坤峰,左旺孟,譚營(yíng),秦濤,李力,王飛躍.  自動(dòng)化學(xué)報(bào). 2018(05)
[9]基于隨機(jī)森林的自適應(yīng)特征選擇算法[J]. 劉凱,鄭山紅,蔣權(quán),趙天傲.  計(jì)算機(jī)技術(shù)與發(fā)展. 2018(09)
[10]基于非平衡數(shù)據(jù)的隨機(jī)森林分類算法改進(jìn)[J]. 魏正韜,楊有龍,白婧.  重慶大學(xué)學(xué)報(bào). 2018(04)

碩士論文
[1]基于GIS和MIC法的廣西土壤侵蝕區(qū)劃研究[D]. 蒙靜.廣西師范學(xué)院 2018
[2]Spark平臺(tái)下的基于隨機(jī)森林算法的用戶貸款風(fēng)險(xiǎn)預(yù)測(cè)研究[D]. 周杰.東北師范大學(xué) 2018
[3]數(shù)據(jù)挖掘算法優(yōu)化研究與應(yīng)用[D]. 王明星.安徽大學(xué) 2014
[4]隨機(jī)森林在醫(yī)學(xué)影像數(shù)據(jù)分析中的應(yīng)用[D]. 張紅巖.湖南師范大學(xué) 2013
[5]基于組合策略的隨機(jī)森林方法研究[D]. 劉曉東.大連理工大學(xué) 2013
[6]隨機(jī)森林的特征選擇和模型優(yōu)化算法研究[D]. 雍凱.哈爾濱工業(yè)大學(xué) 2008



本文編號(hào):3301616

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3301616.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶48809***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com