天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 碩博論文 > 信息類碩士論文 >

基于標(biāo)簽傳播的半監(jiān)督聚類算法研究

發(fā)布時間:2021-11-22 16:33
  聚類分析是數(shù)據(jù)挖掘中的一項重要技術(shù),已被用來探索實際應(yīng)用中各種數(shù)據(jù)的潛在類結(jié)構(gòu)。由于數(shù)據(jù)的復(fù)雜性,聚類結(jié)果并不一定能滿足用戶期望。半監(jiān)督聚類利用少量的先驗信息指導(dǎo)聚類過程,使得聚類結(jié)果盡可能的滿足用戶期望。本文以如何利用和傳播先驗信息為主題,針對標(biāo)簽傳播算法和成對約束的擴充算法進行了系統(tǒng)的研究,主要研究內(nèi)容如下:(1)本文對標(biāo)簽傳播算法進行了擴展,提出了基于成對約束的標(biāo)簽傳播算法。在該算法中,我們將先驗信息保存到成對關(guān)系矩陣中,并且通過計算成對關(guān)系與聚類結(jié)果之間的差異來代替劃分矩陣之間的差異。同時,我們通過構(gòu)建一種新的最優(yōu)化模型,將標(biāo)簽傳播算法的最優(yōu)化問題轉(zhuǎn)化為譜聚類問題,并通過特征值分解方法得到最優(yōu)解。該算法不僅可以解決標(biāo)簽傳播過程中存在的非對齊問題,同時還可以處理成對約束先驗信息。最后,將該算法與8種半監(jiān)督聚類算法在11個基準(zhǔn)數(shù)據(jù)集上進行了比較。實驗結(jié)果表明,所提出的算法相比其他算法更有效。(2)成對約束的數(shù)量是影響半監(jiān)督聚類結(jié)果有效性的重要因素。然而,在現(xiàn)實應(yīng)用中,成對約束的獲取需要耗費大量的成本。因此,本文提出了一種基于安全性的成對約束擴充方法。該算法通過統(tǒng)計傳遞閉包中最大局部... 

【文章來源】:山西大學(xué)山西省

【文章頁數(shù)】:65 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于標(biāo)簽傳播的半監(jiān)督聚類算法研究


類標(biāo)簽和簇標(biāo)簽之間存在的非對齊現(xiàn)象

過程圖,矩陣,標(biāo)簽,過程


基于標(biāo)簽傳播的半監(jiān)督聚類算法研究8根據(jù)以上,和的定義,我們可以按照先驗信息類型的不同來定義成對關(guān)系矩陣,如下所示:={,先驗信息為正標(biāo)簽,11(),先驗信息為負(fù)標(biāo)簽,,先驗信息為成對約束,(2-9)其中和11()分別是和的成對關(guān)系表示,表示數(shù)據(jù)集的聚類數(shù)量。由于僅根據(jù)兩個數(shù)據(jù)對象的負(fù)標(biāo)簽無法判斷兩個數(shù)據(jù)對象是否屬于同一類。因此,我們使用11來反映兩個數(shù)據(jù)對象屬于同一類的概率。根據(jù)成對關(guān)系矩陣的定義,我們重新定義了標(biāo)簽傳播算法的代價函數(shù)′()如下所示:′()=‖‖2,(2-10)其中是的成對關(guān)系表示,′()表示預(yù)先給定的成對關(guān)系和聚類得到的成對關(guān)系之間存在的差異。新的代價函數(shù)可以解決預(yù)先給定的類標(biāo)簽和聚類得到的簇標(biāo)簽之間存在的非對齊問題。延續(xù)圖2.1中的示例,在圖2.2中我們展示了新代價函數(shù)′()的優(yōu)勢。由圖2.2可知,完全等價于。因此使用成對關(guān)系矩陣可以克服非對齊問題。圖2.2將劃分矩陣轉(zhuǎn)化為成對關(guān)系矩陣的過程此外,我們修改了標(biāo)簽傳播算法的最優(yōu)化問題,如下所示:

算法,參數(shù),先驗信息,標(biāo)簽


第二章基于成對約束的標(biāo)簽傳播算法13聚類性能的影響。在分析中,我們考慮了三種情況,即正標(biāo)簽,成對約束,正負(fù)標(biāo)簽分別作為先驗信息時算法的聚類性能。我們將約束的數(shù)量固定為25%,其中對應(yīng)數(shù)據(jù)集中數(shù)據(jù)對象的數(shù)量。我們以0.1為步長在[0,1]區(qū)間內(nèi)測試了不同值所對應(yīng)提出算法的聚類結(jié)果。根據(jù)這些圖可以發(fā)現(xiàn),參數(shù)對不同數(shù)據(jù)集的影響是不同的。這表明很難為每個數(shù)據(jù)集選擇合適的來執(zhí)行所提出的算法。為了進一步分析參數(shù)的影響,我們在圖2.4和圖2.6中展示了每個值對算法在所有測試的數(shù)據(jù)集上得到的平均評價指標(biāo)。根據(jù)平均線我們可以發(fā)現(xiàn)當(dāng)在某種程度上增加時,所提出算法的平均聚類性能相對穩(wěn)定。(a)正標(biāo)簽為先驗信息(b)成對約束為先驗信息(c)正負(fù)標(biāo)簽為先驗信息圖2.3參數(shù)對NLPPC算法NMI值的影響(a)正標(biāo)簽為先驗信息(b)成對約束為先驗信息(c)正負(fù)標(biāo)簽為先驗信息圖2.4參數(shù)在所有數(shù)據(jù)集上對NLPPC算法NMI平均值的影響(a)正標(biāo)簽為先驗信息(b)成對約束為先驗信息(c)正負(fù)標(biāo)簽為先驗信息圖2.5參數(shù)對NLPPC算法ARI值的影響

【參考文獻】:
期刊論文
[1]密度敏感的半監(jiān)督譜聚類[J]. 王玲,薄列峰,焦李成.  軟件學(xué)報. 2007(10)



本文編號:3512067

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3512067.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶6193d***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com