天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 自動(dòng)化論文 >

基于局部標(biāo)簽關(guān)聯(lián)的并行多標(biāo)簽k近鄰

發(fā)布時(shí)間:2021-03-20 20:01
  多標(biāo)簽分類問題中每個(gè)對(duì)象和若干個(gè)類標(biāo)簽關(guān)聯(lián),多標(biāo)簽分類的主要任務(wù)是識(shí)別所有可能和樣本關(guān)聯(lián)的標(biāo)簽。多標(biāo)簽分類的主要挑戰(zhàn)在于如何應(yīng)對(duì)隨標(biāo)簽數(shù)量的增長呈指數(shù)級(jí)的標(biāo)簽輸出空間,然而現(xiàn)存的多標(biāo)簽學(xué)習(xí)算法無法高效地挖掘和利用標(biāo)簽之間的關(guān)聯(lián)性促進(jìn)多標(biāo)簽學(xué)習(xí)過程。多標(biāo)簽k近鄰算法(Multi-Label k Nearest Neighbor,ML-kNN)由經(jīng)典的kNN改而來的惰性多標(biāo)簽學(xué)習(xí)方法,其克服了多標(biāo)簽學(xué)習(xí)領(lǐng)域類別不平衡問題且繼承了惰性學(xué)習(xí)的優(yōu)勢(shì),但其忽略了標(biāo)簽之間的關(guān)聯(lián)性;贛L-kNN的特點(diǎn),本文在ML-kNN預(yù)測(cè)樣本的標(biāo)簽集合時(shí)引入局部標(biāo)簽子集的關(guān)聯(lián)性提高模型的有效性;此外,結(jié)合分布式計(jì)算框架和惰性學(xué)習(xí)的優(yōu)勢(shì),本文對(duì)局部關(guān)聯(lián)多標(biāo)簽k近鄰算法進(jìn)行了并行化研究,使其能夠適應(yīng)大規(guī)模多標(biāo)簽數(shù)據(jù)挖掘應(yīng)用。本文主要的研究工作如下:1.為了提高M(jìn)L-kNN的有效性和泛化能力,本文提出了一種局部標(biāo)簽關(guān)聯(lián)多標(biāo)簽k近鄰分類方法。首先為了縮減標(biāo)簽空間,按照互信息的大小選擇和標(biāo)簽具有共現(xiàn)和互斥關(guān)系的標(biāo)簽子集,其次在計(jì)算標(biāo)簽的后驗(yàn)概率時(shí)考慮標(biāo)簽子集在近鄰中分布的影響;最后,使用標(biāo)簽子集在近鄰集合中分布的相似性對(duì)... 

【文章來源】:重慶郵電大學(xué)重慶市

【文章頁數(shù)】:79 頁

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于局部標(biāo)簽關(guān)聯(lián)的并行多標(biāo)簽k近鄰


LD-kNN算法流程圖

變化曲線,近鄰,數(shù)據(jù)集,變化曲線


適應(yīng)法在 SubsetAccuracy 指標(biāo)上總體表現(xiàn)地較差。與 ML-kNN 相比,LD-kNN 總體上更具有優(yōu)勢(shì)。參數(shù)敏感性ML-kNN 算法是基于經(jīng)典的機(jī)器學(xué)習(xí)算法 kNN 改進(jìn)而來以處理多標(biāo)簽數(shù)據(jù)集,自然地繼承了 kNN 算法的優(yōu)缺點(diǎn)。該算法主要依據(jù)近鄰中標(biāo)簽的分布擬合待預(yù)測(cè)樣本的標(biāo)簽集合,因此參數(shù)近鄰的個(gè)數(shù) k 對(duì)模型的性能影響巨大。近鄰個(gè)數(shù) k 實(shí)質(zhì)上是對(duì)特征空間的不等分劃分,k 取值很小意味著模型的輸出只和較少的輸入樣本有關(guān),上述情況容易引起過擬合的現(xiàn)象;相反地,k 取值很大,在某種程度上緩解過擬合問題,但是當(dāng)訓(xùn)練集中存在大量噪聲時(shí),異常樣本參與到模型的輸出,導(dǎo)致模型不穩(wěn)定。本節(jié)進(jìn)一步以數(shù)據(jù)集 enron 為例探索不同的近鄰個(gè)數(shù) k 對(duì)算法 LD-kNN性能的影響。試驗(yàn)中 k 的取值范圍為[5,50],步長為 5。

變化曲線,近鄰,數(shù)據(jù)集,變化曲線


適應(yīng)法在 SubsetAccuracy 指標(biāo)上總體表現(xiàn)地較差。與 ML-kNN 相比,LD-kNN 總體上更具有優(yōu)勢(shì)。參數(shù)敏感性ML-kNN 算法是基于經(jīng)典的機(jī)器學(xué)習(xí)算法 kNN 改進(jìn)而來以處理多標(biāo)簽數(shù)據(jù)集,自然地繼承了 kNN 算法的優(yōu)缺點(diǎn)。該算法主要依據(jù)近鄰中標(biāo)簽的分布擬合待預(yù)測(cè)樣本的標(biāo)簽集合,因此參數(shù)近鄰的個(gè)數(shù) k 對(duì)模型的性能影響巨大。近鄰個(gè)數(shù) k 實(shí)質(zhì)上是對(duì)特征空間的不等分劃分,k 取值很小意味著模型的輸出只和較少的輸入樣本有關(guān),上述情況容易引起過擬合的現(xiàn)象;相反地,k 取值很大,在某種程度上緩解過擬合問題,但是當(dāng)訓(xùn)練集中存在大量噪聲時(shí),異常樣本參與到模型的輸出,導(dǎo)致模型不穩(wěn)定。本節(jié)進(jìn)一步以數(shù)據(jù)集 enron 為例探索不同的近鄰個(gè)數(shù) k 對(duì)算法 LD-kNN性能的影響。試驗(yàn)中 k 的取值范圍為[5,50],步長為 5。

【參考文獻(xiàn)】:
期刊論文
[1]基于Spark的多標(biāo)簽超網(wǎng)絡(luò)集成學(xué)習(xí)[J]. 李航,王進(jìn),趙蕊.  智能系統(tǒng)學(xué)報(bào). 2017(05)
[2]Spark下的并行多標(biāo)簽最近鄰算法[J]. 王進(jìn),夏翠萍,歐陽衛(wèi)華,王鴻,鄧欣,陳喬松.  計(jì)算機(jī)工程與科學(xué). 2017(02)



本文編號(hào):3091583

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3091583.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶dac2f***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com