天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 軟件論文 >

基于Spark的并行數(shù)據(jù)挖掘研究及應(yīng)用

發(fā)布時(shí)間:2022-07-08 10:23
  在當(dāng)前大數(shù)據(jù)時(shí)代,網(wǎng)絡(luò)技術(shù)和硬件設(shè)備的飛速發(fā)展造成指數(shù)性的數(shù)據(jù)增長(zhǎng)。盡管在小數(shù)據(jù)集上,傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)已經(jīng)得到了充分的發(fā)展和利用,證明了其巨大的價(jià)值與意義。但是在海量數(shù)據(jù)的挑戰(zhàn)下,數(shù)據(jù)挖掘領(lǐng)域仍然存在著算法執(zhí)行效率低、算法并行優(yōu)化不夠以及數(shù)據(jù)挖掘平臺(tái)易用性差等問(wèn)題。當(dāng)前主流的分布式計(jì)算框架,主要有Hadoop、Storm和Spark。其中Storm為流式處理引擎,用于解決數(shù)據(jù)流的實(shí)時(shí)計(jì)算問(wèn)題。Hadoop屬于批處理計(jì)算框架,應(yīng)用于海量數(shù)據(jù)的存儲(chǔ)與計(jì)算。其中HDFS組件面向大數(shù)據(jù)存儲(chǔ),具有高可靠、高容錯(cuò)和高擴(kuò)展等優(yōu)點(diǎn),MapReduce模型則極大地簡(jiǎn)化了并行編程工作。而Spark是新一代的基于內(nèi)存的并行計(jì)算框架,其提出的RDD模型更加簡(jiǎn)單,在執(zhí)行效率上也遠(yuǎn)勝于Hadoop。本文基于上述背景,調(diào)研了當(dāng)前并行數(shù)據(jù)挖掘領(lǐng)域發(fā)展現(xiàn)狀,主要針對(duì)并行數(shù)據(jù)挖掘算法和并行數(shù)據(jù)挖掘工具進(jìn)行研究;赟park作為編程模型和處理引擎,本文主要完成了以下工作:(1)KMeans++算法優(yōu)化及并行化:研究了聚類(lèi)問(wèn)題中的典型算法KMeans及KMeans++的原理和實(shí)現(xiàn)方式。分析了算法優(yōu)劣,并針對(duì)KMeans+... 

【文章頁(yè)數(shù)】:88 頁(yè)

【學(xué)位級(jí)別】:碩士

【文章目錄】:
摘要
abstract
第一章 緒論
    1.1 項(xiàng)目背景
    1.2 國(guó)內(nèi)外研究現(xiàn)狀
        1.2.1 數(shù)據(jù)挖掘發(fā)展現(xiàn)狀
        1.2.2 數(shù)據(jù)挖掘工具發(fā)展現(xiàn)狀
    1.3 研究意義與創(chuàng)新
    1.4 論文內(nèi)容及結(jié)構(gòu)
第二章 Spark平臺(tái)及相關(guān)技術(shù)介紹
    2.1 相關(guān)技術(shù)綜述
    2.2 Hadoop簡(jiǎn)介
    2.3 Spark內(nèi)存計(jì)算框架
        2.3.1 Spark簡(jiǎn)介
        2.3.2 Spark生態(tài)介紹
        2.3.3 Spark并行計(jì)算架構(gòu)設(shè)計(jì)思想
        2.3.4 Spark運(yùn)行流程
    2.4 工作流引擎Oozie介紹
    2.5 數(shù)據(jù)挖掘框架介紹
    2.6 本章小結(jié)
第三章 數(shù)據(jù)挖掘算法研究與并行優(yōu)化
    3.1 KMeans++算法的改進(jìn)和并行化
        3.1.1 聚類(lèi)問(wèn)題介紹
        3.1.2 KMeans算法簡(jiǎn)介
        3.1.3 KMeans++算法簡(jiǎn)介
        3.1.4 改進(jìn)的KMeans++算法
        3.1.5 改進(jìn)后算法的并行實(shí)現(xiàn)
    3.2 SVM算法并行化研究與改進(jìn)
        3.2.1 分類(lèi)問(wèn)題定義
        3.2.2 SVM算法和小批量隨機(jī)梯度下降算法
        3.2.3 自適應(yīng)梯度下降算法
        3.2.4 SVM算法的并行實(shí)現(xiàn)思路
        3.2.5 SVM算法的并行算法優(yōu)化
    3.3 本章小結(jié)
第四章 并行數(shù)據(jù)挖掘調(diào)度框架的設(shè)計(jì)與實(shí)現(xiàn)
    4.1 系統(tǒng)目標(biāo)
    4.2 并行數(shù)據(jù)挖掘調(diào)度框架設(shè)計(jì)
        4.2.1 功能設(shè)計(jì)
        4.2.2 系統(tǒng)架構(gòu)設(shè)計(jì)
        4.2.3 物理架構(gòu)設(shè)計(jì)
    4.3 任務(wù)處理引擎
        4.3.1 任務(wù)處理引擎設(shè)計(jì)原理
        4.3.2 拖拽式任務(wù)調(diào)度流程
        4.3.3 工作流描述定義
        4.3.4 圖結(jié)構(gòu)定義
        4.3.5 程序解析模塊實(shí)現(xiàn)
        4.3.6 工作流處理模塊實(shí)現(xiàn)
        4.3.7 任務(wù)調(diào)度器實(shí)現(xiàn)
    4.4 算法層設(shè)計(jì)
    4.5 本章小結(jié)
第五章 算法實(shí)驗(yàn)和系統(tǒng)分析
    5.1 測(cè)試環(huán)境
        5.1.1 硬件環(huán)境
        5.1.2 軟件環(huán)境
    5.2 算法實(shí)驗(yàn)分析
        5.2.1 改進(jìn)的 KMeans++算法分析實(shí)驗(yàn)
            5.2.1.1 數(shù)據(jù)集介紹
            5.2.1.2 SSE和迭代次數(shù)對(duì)比
            5.2.1.3 輪廓系數(shù)對(duì)比
            5.2.1.4 時(shí)間對(duì)比
            5.2.1.5 加速比實(shí)驗(yàn)
        5.2.2 并行 SVM 算法分析實(shí)驗(yàn)
            5.2.2.1 數(shù)據(jù)集介紹
            5.2.2.2 時(shí)間和準(zhǔn)確率對(duì)比
            5.2.2.3 分區(qū)數(shù)對(duì)訓(xùn)練時(shí)間影響
    5.3 系統(tǒng)分析
        5.3.1 系統(tǒng)展示
        5.3.2 性能對(duì)比
    5.4 電商評(píng)論數(shù)據(jù)分析應(yīng)用
        5.4.1 實(shí)驗(yàn)及數(shù)據(jù)集介紹
        5.4.2 實(shí)驗(yàn)過(guò)程
        5.4.3 效果對(duì)比
    5.5 本章小結(jié)
第六章 總結(jié)與展望
    6.1 總結(jié)
    6.2 展望
致謝
參考文獻(xiàn)
攻讀碩士學(xué)位期間取得的成果


【參考文獻(xiàn)】:
期刊論文
[1]PDMiner:基于云計(jì)算的并行分布式數(shù)據(jù)挖掘工具平臺(tái)[J]. 何清,莊福振,曾立,趙衛(wèi)中,譚慶.  中國(guó)科學(xué):信息科學(xué). 2014(07)

碩士論文
[1]基于Spark的若干數(shù)據(jù)挖掘技術(shù)研究[D]. 寧永恒.中國(guó)計(jì)量學(xué)院 2015
[2]基于Spark平臺(tái)的CURE算法并行化設(shè)計(jì)與應(yīng)用[D]. 邱榮財(cái).華南理工大學(xué) 2014



本文編號(hào):3656851

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3656851.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶8e5a5***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com