基于Spark的標簽校準排序多標簽算法研究
發(fā)布時間:2021-05-14 01:54
隨著數(shù)據(jù)規(guī)模的不斷擴大和數(shù)據(jù)量的爆炸式增長,傳統(tǒng)標簽技術(shù)已不能滿足人們現(xiàn)實的需求。各個領(lǐng)域數(shù)據(jù)表現(xiàn)出不同的特征,在種類上趨于多樣化,在價值上趨于低密度化,在來源上趨于分散化,在處理需求上趨于實時化。在傳統(tǒng)的單標簽數(shù)據(jù)挖掘中,每個事物樣本的分類只屬于一個類別。事物與事物之間存在一定地關(guān)聯(lián),這種關(guān)聯(lián)將原來的一種類別化分為更多的類別。隨著多標簽技術(shù)的發(fā)展,不同領(lǐng)域出現(xiàn)了大量表現(xiàn)不一致的多標簽機器學(xué)習(xí)算法,針對不同的領(lǐng)域場景選擇合適的算法是提高預(yù)測正確性的一種手段。從一階、二階到高階策略多標簽學(xué)習(xí)方法,每階策略所體現(xiàn)的標簽關(guān)聯(lián)也存在極大的差異,其復(fù)雜程度呈現(xiàn)顯著的變化。為了探討標簽之間地關(guān)聯(lián),本文選擇了一種二階多標簽學(xué)習(xí)方法,即校準標簽排序算法(Calibrated Label Ranking,CLR)。傳統(tǒng)的校準標簽排序算法利用成對標簽關(guān)聯(lián)進行轉(zhuǎn)化來預(yù)測結(jié)果,該算法的校準是在二元關(guān)系算法(Binary Relevance,BR)基礎(chǔ)上進行比較而產(chǎn)生結(jié)果。其預(yù)測對BR產(chǎn)生結(jié)果具有一定的依賴性,因此該算法在預(yù)測某些數(shù)據(jù)集具有一定的局限性。當數(shù)據(jù)的特征和數(shù)量不斷增加時,直接使用串行方法會出現(xiàn)耗時太...
【文章來源】:重慶郵電大學(xué)重慶市
【文章頁數(shù)】:67 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
abstract
第1章 緒論
1.1 研究背景和意義
1.2 多標簽國內(nèi)外研究現(xiàn)狀
1.2.1 多標簽學(xué)習(xí)問題描述
1.2.2 多標簽學(xué)習(xí)方法
1.3 論文主要工作
1.4 本文的組織結(jié)構(gòu)
第2章 校準標簽排序算法與并行化研究
2.1 校準標簽排序算法介紹
2.2 校準標簽排序算法研究現(xiàn)狀
2.3 Spark并行化研究現(xiàn)狀
2.4 本章小結(jié)
第3章 基于樸素貝葉斯校準標簽排序方法
3.1 樸素貝葉斯概率模型
3.2 基于樸素貝葉斯校準標簽排序方法
3.3 實驗方法與算法描述
3.3.1 實驗方法
3.3.2 算法描述
3.4 實驗評價
3.4.1 實驗數(shù)據(jù)
3.4.2 評價指標
3.5 實驗方法
3.5.1 樸素貝葉斯概率模型權(quán)重設(shè)定
3.5.2 參數(shù)設(shè)定
3.5.3 實驗結(jié)果
3.6 本章小結(jié)
第4章 基于樸素貝葉斯校準標簽排序方法的并行化研究
4.1 基于Spark并行研究
4.1.1 MapReduce計算框架
4.1.2 MPI
4.1.3 Spark并行計算框架
4.1.4 MapReduce與 Spark聯(lián)系
4.1.5 MPI與 Spark
4.2 基于樸素貝葉斯校準標簽排序方法的并行化研究
4.2.1 訓(xùn)練集劃分階段的并行化
4.2.2 樸素貝葉斯概率模型的并行化
4.2.3 校準標簽排序模型的并行化
4.2.4 基分類使用
4.3 實驗及結(jié)果分析
4.3.1 實驗數(shù)據(jù)
4.3.2 評價指標
4.3.3 NBCLRM程序與CLR程序比較
4.3.4 實驗結(jié)果分析
4.4 本章小結(jié)
第5章 總結(jié)及未來工作
5.1 總結(jié)
5.2 未來工作
參考文獻
致謝
攻讀碩士學(xué)位期間從事的科研工作及取得的成果
【參考文獻】:
期刊論文
[1]科技數(shù)據(jù)應(yīng)用效果評估模型初探[J]. 朱艷華,胡良霖,黎建輝. 中國科技資源導(dǎo)刊. 2014 (02)
[2]多標簽數(shù)據(jù)挖掘技術(shù):研究綜述[J]. 李思男,李寧,李戰(zhàn)懷. 計算機科學(xué). 2013(04)
[3]基于機器學(xué)習(xí)的中文微博情感分類實證研究[J]. 劉志明,劉魯. 計算機工程與應(yīng)用. 2012(01)
[4]一種基于關(guān)聯(lián)規(guī)則的多類標分類算法[J]. 李宏,李博,吳敏,陳松喬. 控制與決策. 2009(04)
[5]樸素貝葉斯及其擴展模型[J]. 裴亞輝,熊盛武. 網(wǎng)絡(luò)安全技術(shù)與應(yīng)用. 2007(08)
本文編號:3185042
【文章來源】:重慶郵電大學(xué)重慶市
【文章頁數(shù)】:67 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
abstract
第1章 緒論
1.1 研究背景和意義
1.2 多標簽國內(nèi)外研究現(xiàn)狀
1.2.1 多標簽學(xué)習(xí)問題描述
1.2.2 多標簽學(xué)習(xí)方法
1.3 論文主要工作
1.4 本文的組織結(jié)構(gòu)
第2章 校準標簽排序算法與并行化研究
2.1 校準標簽排序算法介紹
2.2 校準標簽排序算法研究現(xiàn)狀
2.3 Spark并行化研究現(xiàn)狀
2.4 本章小結(jié)
第3章 基于樸素貝葉斯校準標簽排序方法
3.1 樸素貝葉斯概率模型
3.2 基于樸素貝葉斯校準標簽排序方法
3.3 實驗方法與算法描述
3.3.1 實驗方法
3.3.2 算法描述
3.4 實驗評價
3.4.1 實驗數(shù)據(jù)
3.4.2 評價指標
3.5 實驗方法
3.5.1 樸素貝葉斯概率模型權(quán)重設(shè)定
3.5.2 參數(shù)設(shè)定
3.5.3 實驗結(jié)果
3.6 本章小結(jié)
第4章 基于樸素貝葉斯校準標簽排序方法的并行化研究
4.1 基于Spark并行研究
4.1.1 MapReduce計算框架
4.1.2 MPI
4.1.3 Spark并行計算框架
4.1.4 MapReduce與 Spark聯(lián)系
4.1.5 MPI與 Spark
4.2 基于樸素貝葉斯校準標簽排序方法的并行化研究
4.2.1 訓(xùn)練集劃分階段的并行化
4.2.2 樸素貝葉斯概率模型的并行化
4.2.3 校準標簽排序模型的并行化
4.2.4 基分類使用
4.3 實驗及結(jié)果分析
4.3.1 實驗數(shù)據(jù)
4.3.2 評價指標
4.3.3 NBCLRM程序與CLR程序比較
4.3.4 實驗結(jié)果分析
4.4 本章小結(jié)
第5章 總結(jié)及未來工作
5.1 總結(jié)
5.2 未來工作
參考文獻
致謝
攻讀碩士學(xué)位期間從事的科研工作及取得的成果
【參考文獻】:
期刊論文
[1]科技數(shù)據(jù)應(yīng)用效果評估模型初探[J]. 朱艷華,胡良霖,黎建輝. 中國科技資源導(dǎo)刊. 2014 (02)
[2]多標簽數(shù)據(jù)挖掘技術(shù):研究綜述[J]. 李思男,李寧,李戰(zhàn)懷. 計算機科學(xué). 2013(04)
[3]基于機器學(xué)習(xí)的中文微博情感分類實證研究[J]. 劉志明,劉魯. 計算機工程與應(yīng)用. 2012(01)
[4]一種基于關(guān)聯(lián)規(guī)則的多類標分類算法[J]. 李宏,李博,吳敏,陳松喬. 控制與決策. 2009(04)
[5]樸素貝葉斯及其擴展模型[J]. 裴亞輝,熊盛武. 網(wǎng)絡(luò)安全技術(shù)與應(yīng)用. 2007(08)
本文編號:3185042
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3185042.html
最近更新
教材專著