基于Spark和PU-learning的分布式機器學習平臺的研究與實現
發(fā)布時間:2021-05-01 01:13
近年來,隨著互聯網技術的發(fā)展,企業(yè)數據總量正逐年增多,在企業(yè)內被當做資源核心和財富。為了挖掘數據蘊藏著的潛在價值,機器學習將繼續(xù)扮演著重要的核心作用。在工業(yè)界,大型企業(yè)一般會構建分布式機器學習平臺,提供更高效的機器學習服務能力。然而目前的分布式機器學習平臺還存在著以下問題:1)目前工業(yè)界對外服務的商用分布式機器學習平臺構建在企業(yè)內部的特定的集群環(huán)境中且難以對外部署,因此對于數據的保密安全等級要求比較高的國家衛(wèi)健委等國家級組織和企業(yè)來說,將數據放在此類商用平臺上進行分析時候存在顧慮,需要一個可以部署在這些國家級組織和企業(yè)的內部環(huán)境中的機器學習平臺。2)在算法層面,衛(wèi)健委的人口資源數據中存在著的大量未標記的數據,例如在孕前優(yōu)生數據中,由于需要“隨訪”才能確定新生兒是否患有缺陷疾病且大量的人群未“隨訪”,這些未標記人群中存在沉默的患病潛在人群。這正是致力于利用未標記數據的基于正例樣本和無標記樣本的PU學習算法(Positive and Unlabeled Learning,簡稱PU-learning,是一種半監(jiān)督學習算法)所解決的問題,然而目前PU學習算法只有單機版的實現,阻礙了平臺對這類數...
【文章來源】:北京郵電大學北京市 211工程院校 教育部直屬院校
【文章頁數】:70 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 引言
1.1 研究背景和意義
1.2 國內外研究現狀
1.2.1 分布式機器學習平臺的研究現狀
1.2.2 PU學習算法的研究現狀
1.3 論文主要研究內容
1.4 碩士在讀期間主要工作
1.5 論文章節(jié)安排
第二章 相關技術及研究
2.1 分布式計算框架Spark
2.1.1 Spark概述
2.1.2 Spark類MapReduce編程模型
2.1.3 Spark抽象單元
2.2 PU學習算法“兩步驟”方法
2.3 PU學習算法優(yōu)化技術
2.3.1 Rocchio算法
2.3.2 Spy算法
2.3.3 SMOTE重采樣算法
2.3.4 集成學習算法
2.4 基于Spark的REST服務引擎
第三章 PU學習算法分布式版本的改進與實現
3.1 問題的提出
3.2 算法設計
3.3 算法實現
3.4 算法實驗與分析
3.4.1 實驗環(huán)境
3.4.2 實驗數據
3.4.3 實驗評估指標
3.4.4 實驗結果與分析
第四章 PU學習算法擴展框架的設計與實現
4.1 問題的提出
4.2 算法設計
4.2.1 Bagging和Boosting融合策略
4.2.2 基于互信息的權重更新的Wrapper策略
4.3 算法實現
4.4 算法實驗與分析
4.4.1 實驗環(huán)境與實驗數據
4.4.2 實驗評估指標
4.4.3 實驗結果與分析
第五章 基于Spark的分布式機器學習平臺的設計與實現
5.1 系統需求分析
5.1.1 系統業(yè)務需求
5.1.2 系統功能需求
5.2 系統總體設計
5.2.1 功能結構設計
5.2.2 技術架構設計
5.2.3 整體架構設計
5.3 數據庫設計
5.4 系統模塊的設計與實現
5.4.1 資源管理模塊
5.4.2 算法實現模塊
5.4.3 日志審計模塊
5.5 平臺測試與評估
5.5.1 頁面展示
5.5.2 平臺測試
第六章 總結與展望
6.1 工作總結
6.2 工作展望
參考文獻
致謝
攻讀學位期間取得的研究成果
本文編號:3169850
【文章來源】:北京郵電大學北京市 211工程院校 教育部直屬院校
【文章頁數】:70 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 引言
1.1 研究背景和意義
1.2 國內外研究現狀
1.2.1 分布式機器學習平臺的研究現狀
1.2.2 PU學習算法的研究現狀
1.3 論文主要研究內容
1.4 碩士在讀期間主要工作
1.5 論文章節(jié)安排
第二章 相關技術及研究
2.1 分布式計算框架Spark
2.1.1 Spark概述
2.1.2 Spark類MapReduce編程模型
2.1.3 Spark抽象單元
2.2 PU學習算法“兩步驟”方法
2.3 PU學習算法優(yōu)化技術
2.3.1 Rocchio算法
2.3.2 Spy算法
2.3.3 SMOTE重采樣算法
2.3.4 集成學習算法
2.4 基于Spark的REST服務引擎
第三章 PU學習算法分布式版本的改進與實現
3.1 問題的提出
3.2 算法設計
3.3 算法實現
3.4 算法實驗與分析
3.4.1 實驗環(huán)境
3.4.2 實驗數據
3.4.3 實驗評估指標
3.4.4 實驗結果與分析
第四章 PU學習算法擴展框架的設計與實現
4.1 問題的提出
4.2 算法設計
4.2.1 Bagging和Boosting融合策略
4.2.2 基于互信息的權重更新的Wrapper策略
4.3 算法實現
4.4 算法實驗與分析
4.4.1 實驗環(huán)境與實驗數據
4.4.2 實驗評估指標
4.4.3 實驗結果與分析
第五章 基于Spark的分布式機器學習平臺的設計與實現
5.1 系統需求分析
5.1.1 系統業(yè)務需求
5.1.2 系統功能需求
5.2 系統總體設計
5.2.1 功能結構設計
5.2.2 技術架構設計
5.2.3 整體架構設計
5.3 數據庫設計
5.4 系統模塊的設計與實現
5.4.1 資源管理模塊
5.4.2 算法實現模塊
5.4.3 日志審計模塊
5.5 平臺測試與評估
5.5.1 頁面展示
5.5.2 平臺測試
第六章 總結與展望
6.1 工作總結
6.2 工作展望
參考文獻
致謝
攻讀學位期間取得的研究成果
本文編號:3169850
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3169850.html