基于Spark和PU-learning的分布式機(jī)器學(xué)習(xí)平臺的研究與實現(xiàn)

發(fā)布時間：2021-05-01 01:13

　　近年來,隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,企業(yè)數(shù)據(jù)總量正逐年增多,在企業(yè)內(nèi)被當(dāng)做資源核心和財富。為了挖掘數(shù)據(jù)蘊(yùn)藏著的潛在價值,機(jī)器學(xué)習(xí)將繼續(xù)扮演著重要的核心作用。在工業(yè)界,大型企業(yè)一般會構(gòu)建分布式機(jī)器學(xué)習(xí)平臺,提供更高效的機(jī)器學(xué)習(xí)服務(wù)能力。然而目前的分布式機(jī)器學(xué)習(xí)平臺還存在著以下問題:1)目前工業(yè)界對外服務(wù)的商用分布式機(jī)器學(xué)習(xí)平臺構(gòu)建在企業(yè)內(nèi)部的特定的集群環(huán)境中且難以對外部署,因此對于數(shù)據(jù)的保密安全等級要求比較高的國家衛(wèi)健委等國家級組織和企業(yè)來說,將數(shù)據(jù)放在此類商用平臺上進(jìn)行分析時候存在顧慮,需要一個可以部署在這些國家級組織和企業(yè)的內(nèi)部環(huán)境中的機(jī)器學(xué)習(xí)平臺。2)在算法層面,衛(wèi)健委的人口資源數(shù)據(jù)中存在著的大量未標(biāo)記的數(shù)據(jù),例如在孕前優(yōu)生數(shù)據(jù)中,由于需要“隨訪”才能確定新生兒是否患有缺陷疾病且大量的人群未“隨訪”,這些未標(biāo)記人群中存在沉默的患病潛在人群。這正是致力于利用未標(biāo)記數(shù)據(jù)的基于正例樣本和無標(biāo)記樣本的PU學(xué)習(xí)算法（Positive and Unlabeled Learning,簡稱PU-learning,是一種半監(jiān)督學(xué)習(xí)算法）所解決的問題,然而目前PU學(xué)習(xí)算法只有單機(jī)版的實現(xiàn),阻礙了平臺對這類數(shù)...

【文章來源】：北京郵電大學(xué)北京市 211工程院校教育部直屬院校

【文章頁數(shù)】：70 頁

【學(xué)位級別】：碩士

【文章目錄】：
摘要
ABSTRACT
第一章引言
    1.1 研究背景和意義
    1.2 國內(nèi)外研究現(xiàn)狀
        1.2.1 分布式機(jī)器學(xué)習(xí)平臺的研究現(xiàn)狀
        1.2.2 PU學(xué)習(xí)算法的研究現(xiàn)狀
    1.3 論文主要研究內(nèi)容
    1.4 碩士在讀期間主要工作
    1.5 論文章節(jié)安排
第二章相關(guān)技術(shù)及研究
    2.1 分布式計算框架Spark
        2.1.1 Spark概述
        2.1.2 Spark類MapReduce編程模型
        2.1.3 Spark抽象單元
    2.2 PU學(xué)習(xí)算法“兩步驟”方法
    2.3 PU學(xué)習(xí)算法優(yōu)化技術(shù)
        2.3.1 Rocchio算法
        2.3.2 Spy算法
        2.3.3 SMOTE重采樣算法
        2.3.4 集成學(xué)習(xí)算法
    2.4 基于Spark的REST服務(wù)引擎
第三章 PU學(xué)習(xí)算法分布式版本的改進(jìn)與實現(xiàn)
    3.1 問題的提出
    3.2 算法設(shè)計
    3.3 算法實現(xiàn)
    3.4 算法實驗與分析
        3.4.1 實驗環(huán)境
        3.4.2 實驗數(shù)據(jù)
        3.4.3 實驗評估指標(biāo)
        3.4.4 實驗結(jié)果與分析
第四章 PU學(xué)習(xí)算法擴(kuò)展框架的設(shè)計與實現(xiàn)
    4.1 問題的提出
    4.2 算法設(shè)計
        4.2.1 Bagging和Boosting融合策略
        4.2.2 基于互信息的權(quán)重更新的Wrapper策略
    4.3 算法實現(xiàn)
    4.4 算法實驗與分析
        4.4.1 實驗環(huán)境與實驗數(shù)據(jù)
        4.4.2 實驗評估指標(biāo)
        4.4.3 實驗結(jié)果與分析
第五章基于Spark的分布式機(jī)器學(xué)習(xí)平臺的設(shè)計與實現(xiàn)
    5.1 系統(tǒng)需求分析
        5.1.1 系統(tǒng)業(yè)務(wù)需求
        5.1.2 系統(tǒng)功能需求
    5.2 系統(tǒng)總體設(shè)計
        5.2.1 功能結(jié)構(gòu)設(shè)計
        5.2.2 技術(shù)架構(gòu)設(shè)計
        5.2.3 整體架構(gòu)設(shè)計
    5.3 數(shù)據(jù)庫設(shè)計
    5.4 系統(tǒng)模塊的設(shè)計與實現(xiàn)
        5.4.1 資源管理模塊
        5.4.2 算法實現(xiàn)模塊
        5.4.3 日志審計模塊
    5.5 平臺測試與評估
        5.5.1 頁面展示
        5.5.2 平臺測試
第六章總結(jié)與展望
    6.1 工作總結(jié)
    6.2 工作展望
參考文獻(xiàn)
致謝
攻讀學(xué)位期間取得的研究成果

本文編號：3169850

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3169850.html

上一篇：軌控式導(dǎo)彈的直接力/氣動力復(fù)合控制研究
下一篇：養(yǎng)老護(hù)理抱舉機(jī)器人全向輪導(dǎo)航控制系統(tǒng)研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Spark和PU-learning的分布式機(jī)器學(xué)習(xí)平臺的研究與實現(xiàn)