基于Spark的標(biāo)簽校準(zhǔn)排序多標(biāo)簽算法研究
發(fā)布時(shí)間:2021-05-14 01:54
隨著數(shù)據(jù)規(guī)模的不斷擴(kuò)大和數(shù)據(jù)量的爆炸式增長(zhǎng),傳統(tǒng)標(biāo)簽技術(shù)已不能滿足人們現(xiàn)實(shí)的需求。各個(gè)領(lǐng)域數(shù)據(jù)表現(xiàn)出不同的特征,在種類上趨于多樣化,在價(jià)值上趨于低密度化,在來源上趨于分散化,在處理需求上趨于實(shí)時(shí)化。在傳統(tǒng)的單標(biāo)簽數(shù)據(jù)挖掘中,每個(gè)事物樣本的分類只屬于一個(gè)類別。事物與事物之間存在一定地關(guān)聯(lián),這種關(guān)聯(lián)將原來的一種類別化分為更多的類別。隨著多標(biāo)簽技術(shù)的發(fā)展,不同領(lǐng)域出現(xiàn)了大量表現(xiàn)不一致的多標(biāo)簽機(jī)器學(xué)習(xí)算法,針對(duì)不同的領(lǐng)域場(chǎng)景選擇合適的算法是提高預(yù)測(cè)正確性的一種手段。從一階、二階到高階策略多標(biāo)簽學(xué)習(xí)方法,每階策略所體現(xiàn)的標(biāo)簽關(guān)聯(lián)也存在極大的差異,其復(fù)雜程度呈現(xiàn)顯著的變化。為了探討標(biāo)簽之間地關(guān)聯(lián),本文選擇了一種二階多標(biāo)簽學(xué)習(xí)方法,即校準(zhǔn)標(biāo)簽排序算法(Calibrated Label Ranking,CLR)。傳統(tǒng)的校準(zhǔn)標(biāo)簽排序算法利用成對(duì)標(biāo)簽關(guān)聯(lián)進(jìn)行轉(zhuǎn)化來預(yù)測(cè)結(jié)果,該算法的校準(zhǔn)是在二元關(guān)系算法(Binary Relevance,BR)基礎(chǔ)上進(jìn)行比較而產(chǎn)生結(jié)果。其預(yù)測(cè)對(duì)BR產(chǎn)生結(jié)果具有一定的依賴性,因此該算法在預(yù)測(cè)某些數(shù)據(jù)集具有一定的局限性。當(dāng)數(shù)據(jù)的特征和數(shù)量不斷增加時(shí),直接使用串行方法會(huì)出現(xiàn)耗時(shí)太...
【文章來源】:重慶郵電大學(xué)重慶市
【文章頁數(shù)】:67 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
第1章 緒論
1.1 研究背景和意義
1.2 多標(biāo)簽國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 多標(biāo)簽學(xué)習(xí)問題描述
1.2.2 多標(biāo)簽學(xué)習(xí)方法
1.3 論文主要工作
1.4 本文的組織結(jié)構(gòu)
第2章 校準(zhǔn)標(biāo)簽排序算法與并行化研究
2.1 校準(zhǔn)標(biāo)簽排序算法介紹
2.2 校準(zhǔn)標(biāo)簽排序算法研究現(xiàn)狀
2.3 Spark并行化研究現(xiàn)狀
2.4 本章小結(jié)
第3章 基于樸素貝葉斯校準(zhǔn)標(biāo)簽排序方法
3.1 樸素貝葉斯概率模型
3.2 基于樸素貝葉斯校準(zhǔn)標(biāo)簽排序方法
3.3 實(shí)驗(yàn)方法與算法描述
3.3.1 實(shí)驗(yàn)方法
3.3.2 算法描述
3.4 實(shí)驗(yàn)評(píng)價(jià)
3.4.1 實(shí)驗(yàn)數(shù)據(jù)
3.4.2 評(píng)價(jià)指標(biāo)
3.5 實(shí)驗(yàn)方法
3.5.1 樸素貝葉斯概率模型權(quán)重設(shè)定
3.5.2 參數(shù)設(shè)定
3.5.3 實(shí)驗(yàn)結(jié)果
3.6 本章小結(jié)
第4章 基于樸素貝葉斯校準(zhǔn)標(biāo)簽排序方法的并行化研究
4.1 基于Spark并行研究
4.1.1 MapReduce計(jì)算框架
4.1.2 MPI
4.1.3 Spark并行計(jì)算框架
4.1.4 MapReduce與 Spark聯(lián)系
4.1.5 MPI與 Spark
4.2 基于樸素貝葉斯校準(zhǔn)標(biāo)簽排序方法的并行化研究
4.2.1 訓(xùn)練集劃分階段的并行化
4.2.2 樸素貝葉斯概率模型的并行化
4.2.3 校準(zhǔn)標(biāo)簽排序模型的并行化
4.2.4 基分類使用
4.3 實(shí)驗(yàn)及結(jié)果分析
4.3.1 實(shí)驗(yàn)數(shù)據(jù)
4.3.2 評(píng)價(jià)指標(biāo)
4.3.3 NBCLRM程序與CLR程序比較
4.3.4 實(shí)驗(yàn)結(jié)果分析
4.4 本章小結(jié)
第5章 總結(jié)及未來工作
5.1 總結(jié)
5.2 未來工作
參考文獻(xiàn)
致謝
攻讀碩士學(xué)位期間從事的科研工作及取得的成果
【參考文獻(xiàn)】:
期刊論文
[1]科技數(shù)據(jù)應(yīng)用效果評(píng)估模型初探[J]. 朱艷華,胡良霖,黎建輝. 中國(guó)科技資源導(dǎo)刊. 2014 (02)
[2]多標(biāo)簽數(shù)據(jù)挖掘技術(shù):研究綜述[J]. 李思男,李寧,李戰(zhàn)懷. 計(jì)算機(jī)科學(xué). 2013(04)
[3]基于機(jī)器學(xué)習(xí)的中文微博情感分類實(shí)證研究[J]. 劉志明,劉魯. 計(jì)算機(jī)工程與應(yīng)用. 2012(01)
[4]一種基于關(guān)聯(lián)規(guī)則的多類標(biāo)分類算法[J]. 李宏,李博,吳敏,陳松喬. 控制與決策. 2009(04)
[5]樸素貝葉斯及其擴(kuò)展模型[J]. 裴亞輝,熊盛武. 網(wǎng)絡(luò)安全技術(shù)與應(yīng)用. 2007(08)
本文編號(hào):3185042
【文章來源】:重慶郵電大學(xué)重慶市
【文章頁數(shù)】:67 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
第1章 緒論
1.1 研究背景和意義
1.2 多標(biāo)簽國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 多標(biāo)簽學(xué)習(xí)問題描述
1.2.2 多標(biāo)簽學(xué)習(xí)方法
1.3 論文主要工作
1.4 本文的組織結(jié)構(gòu)
第2章 校準(zhǔn)標(biāo)簽排序算法與并行化研究
2.1 校準(zhǔn)標(biāo)簽排序算法介紹
2.2 校準(zhǔn)標(biāo)簽排序算法研究現(xiàn)狀
2.3 Spark并行化研究現(xiàn)狀
2.4 本章小結(jié)
第3章 基于樸素貝葉斯校準(zhǔn)標(biāo)簽排序方法
3.1 樸素貝葉斯概率模型
3.2 基于樸素貝葉斯校準(zhǔn)標(biāo)簽排序方法
3.3 實(shí)驗(yàn)方法與算法描述
3.3.1 實(shí)驗(yàn)方法
3.3.2 算法描述
3.4 實(shí)驗(yàn)評(píng)價(jià)
3.4.1 實(shí)驗(yàn)數(shù)據(jù)
3.4.2 評(píng)價(jià)指標(biāo)
3.5 實(shí)驗(yàn)方法
3.5.1 樸素貝葉斯概率模型權(quán)重設(shè)定
3.5.2 參數(shù)設(shè)定
3.5.3 實(shí)驗(yàn)結(jié)果
3.6 本章小結(jié)
第4章 基于樸素貝葉斯校準(zhǔn)標(biāo)簽排序方法的并行化研究
4.1 基于Spark并行研究
4.1.1 MapReduce計(jì)算框架
4.1.2 MPI
4.1.3 Spark并行計(jì)算框架
4.1.4 MapReduce與 Spark聯(lián)系
4.1.5 MPI與 Spark
4.2 基于樸素貝葉斯校準(zhǔn)標(biāo)簽排序方法的并行化研究
4.2.1 訓(xùn)練集劃分階段的并行化
4.2.2 樸素貝葉斯概率模型的并行化
4.2.3 校準(zhǔn)標(biāo)簽排序模型的并行化
4.2.4 基分類使用
4.3 實(shí)驗(yàn)及結(jié)果分析
4.3.1 實(shí)驗(yàn)數(shù)據(jù)
4.3.2 評(píng)價(jià)指標(biāo)
4.3.3 NBCLRM程序與CLR程序比較
4.3.4 實(shí)驗(yàn)結(jié)果分析
4.4 本章小結(jié)
第5章 總結(jié)及未來工作
5.1 總結(jié)
5.2 未來工作
參考文獻(xiàn)
致謝
攻讀碩士學(xué)位期間從事的科研工作及取得的成果
【參考文獻(xiàn)】:
期刊論文
[1]科技數(shù)據(jù)應(yīng)用效果評(píng)估模型初探[J]. 朱艷華,胡良霖,黎建輝. 中國(guó)科技資源導(dǎo)刊. 2014 (02)
[2]多標(biāo)簽數(shù)據(jù)挖掘技術(shù):研究綜述[J]. 李思男,李寧,李戰(zhàn)懷. 計(jì)算機(jī)科學(xué). 2013(04)
[3]基于機(jī)器學(xué)習(xí)的中文微博情感分類實(shí)證研究[J]. 劉志明,劉魯. 計(jì)算機(jī)工程與應(yīng)用. 2012(01)
[4]一種基于關(guān)聯(lián)規(guī)則的多類標(biāo)分類算法[J]. 李宏,李博,吳敏,陳松喬. 控制與決策. 2009(04)
[5]樸素貝葉斯及其擴(kuò)展模型[J]. 裴亞輝,熊盛武. 網(wǎng)絡(luò)安全技術(shù)與應(yīng)用. 2007(08)
本文編號(hào):3185042
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3185042.html
最近更新
教材專著