基于局部標簽關(guān)聯(lián)的并行多標簽k近鄰
發(fā)布時間:2021-03-20 20:01
多標簽分類問題中每個對象和若干個類標簽關(guān)聯(lián),多標簽分類的主要任務(wù)是識別所有可能和樣本關(guān)聯(lián)的標簽。多標簽分類的主要挑戰(zhàn)在于如何應(yīng)對隨標簽數(shù)量的增長呈指數(shù)級的標簽輸出空間,然而現(xiàn)存的多標簽學(xué)習算法無法高效地挖掘和利用標簽之間的關(guān)聯(lián)性促進多標簽學(xué)習過程。多標簽k近鄰算法(Multi-Label k Nearest Neighbor,ML-kNN)由經(jīng)典的kNN改而來的惰性多標簽學(xué)習方法,其克服了多標簽學(xué)習領(lǐng)域類別不平衡問題且繼承了惰性學(xué)習的優(yōu)勢,但其忽略了標簽之間的關(guān)聯(lián)性;贛L-kNN的特點,本文在ML-kNN預(yù)測樣本的標簽集合時引入局部標簽子集的關(guān)聯(lián)性提高模型的有效性;此外,結(jié)合分布式計算框架和惰性學(xué)習的優(yōu)勢,本文對局部關(guān)聯(lián)多標簽k近鄰算法進行了并行化研究,使其能夠適應(yīng)大規(guī)模多標簽數(shù)據(jù)挖掘應(yīng)用。本文主要的研究工作如下:1.為了提高ML-kNN的有效性和泛化能力,本文提出了一種局部標簽關(guān)聯(lián)多標簽k近鄰分類方法。首先為了縮減標簽空間,按照互信息的大小選擇和標簽具有共現(xiàn)和互斥關(guān)系的標簽子集,其次在計算標簽的后驗概率時考慮標簽子集在近鄰中分布的影響;最后,使用標簽子集在近鄰集合中分布的相似性對...
【文章來源】:重慶郵電大學(xué)重慶市
【文章頁數(shù)】:79 頁
【學(xué)位級別】:碩士
【部分圖文】:
LD-kNN算法流程圖
適應(yīng)法在 SubsetAccuracy 指標上總體表現(xiàn)地較差。與 ML-kNN 相比,LD-kNN 總體上更具有優(yōu)勢。參數(shù)敏感性ML-kNN 算法是基于經(jīng)典的機器學(xué)習算法 kNN 改進而來以處理多標簽數(shù)據(jù)集,自然地繼承了 kNN 算法的優(yōu)缺點。該算法主要依據(jù)近鄰中標簽的分布擬合待預(yù)測樣本的標簽集合,因此參數(shù)近鄰的個數(shù) k 對模型的性能影響巨大。近鄰個數(shù) k 實質(zhì)上是對特征空間的不等分劃分,k 取值很小意味著模型的輸出只和較少的輸入樣本有關(guān),上述情況容易引起過擬合的現(xiàn)象;相反地,k 取值很大,在某種程度上緩解過擬合問題,但是當訓(xùn)練集中存在大量噪聲時,異常樣本參與到模型的輸出,導(dǎo)致模型不穩(wěn)定。本節(jié)進一步以數(shù)據(jù)集 enron 為例探索不同的近鄰個數(shù) k 對算法 LD-kNN性能的影響。試驗中 k 的取值范圍為[5,50],步長為 5。
適應(yīng)法在 SubsetAccuracy 指標上總體表現(xiàn)地較差。與 ML-kNN 相比,LD-kNN 總體上更具有優(yōu)勢。參數(shù)敏感性ML-kNN 算法是基于經(jīng)典的機器學(xué)習算法 kNN 改進而來以處理多標簽數(shù)據(jù)集,自然地繼承了 kNN 算法的優(yōu)缺點。該算法主要依據(jù)近鄰中標簽的分布擬合待預(yù)測樣本的標簽集合,因此參數(shù)近鄰的個數(shù) k 對模型的性能影響巨大。近鄰個數(shù) k 實質(zhì)上是對特征空間的不等分劃分,k 取值很小意味著模型的輸出只和較少的輸入樣本有關(guān),上述情況容易引起過擬合的現(xiàn)象;相反地,k 取值很大,在某種程度上緩解過擬合問題,但是當訓(xùn)練集中存在大量噪聲時,異常樣本參與到模型的輸出,導(dǎo)致模型不穩(wěn)定。本節(jié)進一步以數(shù)據(jù)集 enron 為例探索不同的近鄰個數(shù) k 對算法 LD-kNN性能的影響。試驗中 k 的取值范圍為[5,50],步長為 5。
【參考文獻】:
期刊論文
[1]基于Spark的多標簽超網(wǎng)絡(luò)集成學(xué)習[J]. 李航,王進,趙蕊. 智能系統(tǒng)學(xué)報. 2017(05)
[2]Spark下的并行多標簽最近鄰算法[J]. 王進,夏翠萍,歐陽衛(wèi)華,王鴻,鄧欣,陳喬松. 計算機工程與科學(xué). 2017(02)
本文編號:3091583
【文章來源】:重慶郵電大學(xué)重慶市
【文章頁數(shù)】:79 頁
【學(xué)位級別】:碩士
【部分圖文】:
LD-kNN算法流程圖
適應(yīng)法在 SubsetAccuracy 指標上總體表現(xiàn)地較差。與 ML-kNN 相比,LD-kNN 總體上更具有優(yōu)勢。參數(shù)敏感性ML-kNN 算法是基于經(jīng)典的機器學(xué)習算法 kNN 改進而來以處理多標簽數(shù)據(jù)集,自然地繼承了 kNN 算法的優(yōu)缺點。該算法主要依據(jù)近鄰中標簽的分布擬合待預(yù)測樣本的標簽集合,因此參數(shù)近鄰的個數(shù) k 對模型的性能影響巨大。近鄰個數(shù) k 實質(zhì)上是對特征空間的不等分劃分,k 取值很小意味著模型的輸出只和較少的輸入樣本有關(guān),上述情況容易引起過擬合的現(xiàn)象;相反地,k 取值很大,在某種程度上緩解過擬合問題,但是當訓(xùn)練集中存在大量噪聲時,異常樣本參與到模型的輸出,導(dǎo)致模型不穩(wěn)定。本節(jié)進一步以數(shù)據(jù)集 enron 為例探索不同的近鄰個數(shù) k 對算法 LD-kNN性能的影響。試驗中 k 的取值范圍為[5,50],步長為 5。
適應(yīng)法在 SubsetAccuracy 指標上總體表現(xiàn)地較差。與 ML-kNN 相比,LD-kNN 總體上更具有優(yōu)勢。參數(shù)敏感性ML-kNN 算法是基于經(jīng)典的機器學(xué)習算法 kNN 改進而來以處理多標簽數(shù)據(jù)集,自然地繼承了 kNN 算法的優(yōu)缺點。該算法主要依據(jù)近鄰中標簽的分布擬合待預(yù)測樣本的標簽集合,因此參數(shù)近鄰的個數(shù) k 對模型的性能影響巨大。近鄰個數(shù) k 實質(zhì)上是對特征空間的不等分劃分,k 取值很小意味著模型的輸出只和較少的輸入樣本有關(guān),上述情況容易引起過擬合的現(xiàn)象;相反地,k 取值很大,在某種程度上緩解過擬合問題,但是當訓(xùn)練集中存在大量噪聲時,異常樣本參與到模型的輸出,導(dǎo)致模型不穩(wěn)定。本節(jié)進一步以數(shù)據(jù)集 enron 為例探索不同的近鄰個數(shù) k 對算法 LD-kNN性能的影響。試驗中 k 的取值范圍為[5,50],步長為 5。
【參考文獻】:
期刊論文
[1]基于Spark的多標簽超網(wǎng)絡(luò)集成學(xué)習[J]. 李航,王進,趙蕊. 智能系統(tǒng)學(xué)報. 2017(05)
[2]Spark下的并行多標簽最近鄰算法[J]. 王進,夏翠萍,歐陽衛(wèi)華,王鴻,鄧欣,陳喬松. 計算機工程與科學(xué). 2017(02)
本文編號:3091583
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3091583.html
最近更新
教材專著