基于共協(xié)關(guān)系矩陣的聚類集成算法研究
發(fā)布時(shí)間:2020-12-16 05:56
聚類分析作為數(shù)據(jù)挖掘領(lǐng)域的重要研究方向之一,已經(jīng)受到研究者的廣泛關(guān)注。近年來,許多有效的聚類算法已經(jīng)被提出,并且在數(shù)據(jù)聚類上表現(xiàn)出很好的性能,但是單個(gè)聚類算法很難適應(yīng)復(fù)雜結(jié)構(gòu)的數(shù)據(jù)。為了解決這一問題,聚類集成被提出并得到快速發(fā)展。聚類集成的目標(biāo)是通過集成多個(gè)基聚類結(jié)果提高聚類算法的穩(wěn)定性、魯棒性以及精度。在眾多的聚類集成方法中,基于共協(xié)關(guān)系矩陣的聚類集成是一個(gè)重要的研究方向,也是該領(lǐng)域研究熱點(diǎn)之一。因此,本文選擇基于共協(xié)關(guān)系矩陣的聚類集成為對(duì)象開展研究工作,主要研究內(nèi)容如下:(1)提出了基于樣本對(duì)加權(quán)共協(xié)關(guān)系矩陣的聚類集成算法。該算法利用k-means算法產(chǎn)生多個(gè)基聚類,然后對(duì)于基聚類中的每個(gè)類再利用k-means算法產(chǎn)生多個(gè)樣本簇,并通過去掉某個(gè)樣本對(duì)所在樣本簇后類的不確定性變化程度,評(píng)價(jià)共協(xié)關(guān)系矩陣中該對(duì)樣本的重要性,實(shí)現(xiàn)基于樣本對(duì)加權(quán)共協(xié)關(guān)系矩陣的聚類集成,實(shí)驗(yàn)結(jié)果表明了提出算法的有效性。(2)提出了基于度量學(xué)習(xí)的聚類集成算法。該算法利用共協(xié)關(guān)系矩陣構(gòu)造樣本對(duì)之間的必連約束集合和勿連約束集合,并給出相應(yīng)的度量學(xué)習(xí)算法,進(jìn)而根據(jù)學(xué)得的度量產(chǎn)生新的基聚類,再利用基聚類構(gòu)造新的共協(xié)關(guān)系...
【文章來源】:山西大學(xué)山西省
【文章頁數(shù)】:57 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
聚類集成過程示意圖
基于共協(xié)關(guān)系矩陣的聚類集成算法研究8個(gè)類中,值為1,否則,值為0,ijm代表著對(duì)象ix和對(duì)象jx在這M個(gè)基聚類中出現(xiàn)的頻率。圖2.2舉例簡單解釋共協(xié)關(guān)系矩陣是如何得到的。圖2.2兩個(gè)基聚類結(jié)果及其對(duì)應(yīng)的共協(xié)關(guān)系矩陣EAC算法描述如下:算法2.1:EAC算法輸入:數(shù)據(jù)集},...,,{21nxxxX,聚類個(gè)數(shù)K輸出:將數(shù)據(jù)集X劃分成K個(gè)簇的結(jié)果;步驟1:在數(shù)據(jù)集X上利用k-means算法得到M個(gè)基聚類結(jié)果;步驟2:利用公式(2.1)得到共協(xié)關(guān)系矩陣;步驟3:通過層次聚類算法得到最后的聚類結(jié)果。(2)基于圖的聚類集成基于圖的聚類集成[14-18]將得到的基聚類結(jié)果構(gòu)造成圖,利用圖聚類的算法來得到最后的聚類結(jié)果。Strehl等人[14]提出了CSPA、HGPA和MCLA三種超圖集成算法。CSPA算法在共協(xié)關(guān)系矩陣的基礎(chǔ)上構(gòu)建的圖,頂點(diǎn)代表對(duì)象,邊代表的是對(duì)象與對(duì)象之間的相似度,即共協(xié)關(guān)系矩陣中該對(duì)對(duì)象對(duì)應(yīng)位置的值,最后利用METIS算法得到最后的聚類結(jié)果。CSPA是最簡單的一種圖算法,易于實(shí)現(xiàn),但是復(fù)雜度較高,也十分占用空間,處理大規(guī)模數(shù)據(jù)就會(huì)很吃力。HGPA算法構(gòu)建一個(gè)超圖,頂點(diǎn)代表數(shù)據(jù)樣本,一個(gè)閉合的曲線是一個(gè)超邊代表一個(gè)簇。MCLA算法通過考慮類與類之間的關(guān)系來構(gòu)建圖,頂點(diǎn)代表類,邊代表類與類之間的相似度,然后利用METIS算法將類劃分成k個(gè)簇,最后將每個(gè)對(duì)象依次放入出現(xiàn)頻率最高的簇中。Fern和Brodley等人[15]提出了HBGF算法,改進(jìn)了之前算法的問題,考慮了類與對(duì)象之間的關(guān)系,利用基聚類結(jié)果構(gòu)建二度圖,頂點(diǎn)代表對(duì)象和類,若對(duì)象屬于該類,則有連邊,若
第三章基于樣本對(duì)加權(quán)共協(xié)關(guān)系矩陣的聚類集成算法15),(|jitxxC代表類tC去掉ix和jx所在的小類中的所有樣本之后的類。若ix和jx被分在同一個(gè)小類里,就去掉一個(gè)小類,被分到不同的小類中,就去掉兩個(gè)小類。由于去掉了與ix和jx在同一小類中的樣本,類tC的不確定性度量會(huì)有所減小,只不過有的減少的多,有的減少的少,所以由公式(3.4)可以看出(,,)tijHCxx的取值范圍是[0,∞],并且若(,,)tijHCxx越大,則從tC中去掉樣本ix和jx所在的小類后,類tC的不確定性減小的程度就越大,也就是說,去掉樣本ix和jx所在小類后使得類tC的不確定性變小的程度很大,因此樣本對(duì)ix和jx的權(quán)值應(yīng)該越;诖,我們給出樣本對(duì)ix和jx的權(quán)重如下:(,,)exp((,,)/())tijtijwCxxHCxxM(3.5)其中,參數(shù)θ>0,是用來調(diào)節(jié)樣本對(duì)的不穩(wěn)定性對(duì)于最后的權(quán)值的影響。由公式(3.5)可以看出權(quán)值),,(jitwxxC的取值范圍是[0,1],樣本對(duì)導(dǎo)致類不確定性變化的程度越大,給的權(quán)值就越校圖3.1給出了不同的參數(shù)對(duì)于權(quán)值的影響,可以看到當(dāng)θ<1時(shí),隨著(,,)tijHCxx的增加),,(jitwxxC會(huì)顯著的減少,當(dāng)θ>4時(shí),隨著(,,)tijHCxx的增加),,(jitwxxC減少的速度會(huì)很緩慢。根據(jù)公式(3.5),可以定義基于樣本加權(quán)的共協(xié)關(guān)系矩陣WCM為:NNij}{mWCM(3.6)其中,MmmijmijijwMm11,),),((jiimijwxxxClsw,otherwisexxClsClsjmimmij,0)()(,1,mijw代表樣本ix和jx對(duì)于所在的類tC的權(quán)值。圖3.1對(duì)于不同參數(shù),權(quán)值與樣本對(duì)不穩(wěn)定程度之間的相關(guān)性
本文編號(hào):2919657
【文章來源】:山西大學(xué)山西省
【文章頁數(shù)】:57 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
聚類集成過程示意圖
基于共協(xié)關(guān)系矩陣的聚類集成算法研究8個(gè)類中,值為1,否則,值為0,ijm代表著對(duì)象ix和對(duì)象jx在這M個(gè)基聚類中出現(xiàn)的頻率。圖2.2舉例簡單解釋共協(xié)關(guān)系矩陣是如何得到的。圖2.2兩個(gè)基聚類結(jié)果及其對(duì)應(yīng)的共協(xié)關(guān)系矩陣EAC算法描述如下:算法2.1:EAC算法輸入:數(shù)據(jù)集},...,,{21nxxxX,聚類個(gè)數(shù)K輸出:將數(shù)據(jù)集X劃分成K個(gè)簇的結(jié)果;步驟1:在數(shù)據(jù)集X上利用k-means算法得到M個(gè)基聚類結(jié)果;步驟2:利用公式(2.1)得到共協(xié)關(guān)系矩陣;步驟3:通過層次聚類算法得到最后的聚類結(jié)果。(2)基于圖的聚類集成基于圖的聚類集成[14-18]將得到的基聚類結(jié)果構(gòu)造成圖,利用圖聚類的算法來得到最后的聚類結(jié)果。Strehl等人[14]提出了CSPA、HGPA和MCLA三種超圖集成算法。CSPA算法在共協(xié)關(guān)系矩陣的基礎(chǔ)上構(gòu)建的圖,頂點(diǎn)代表對(duì)象,邊代表的是對(duì)象與對(duì)象之間的相似度,即共協(xié)關(guān)系矩陣中該對(duì)對(duì)象對(duì)應(yīng)位置的值,最后利用METIS算法得到最后的聚類結(jié)果。CSPA是最簡單的一種圖算法,易于實(shí)現(xiàn),但是復(fù)雜度較高,也十分占用空間,處理大規(guī)模數(shù)據(jù)就會(huì)很吃力。HGPA算法構(gòu)建一個(gè)超圖,頂點(diǎn)代表數(shù)據(jù)樣本,一個(gè)閉合的曲線是一個(gè)超邊代表一個(gè)簇。MCLA算法通過考慮類與類之間的關(guān)系來構(gòu)建圖,頂點(diǎn)代表類,邊代表類與類之間的相似度,然后利用METIS算法將類劃分成k個(gè)簇,最后將每個(gè)對(duì)象依次放入出現(xiàn)頻率最高的簇中。Fern和Brodley等人[15]提出了HBGF算法,改進(jìn)了之前算法的問題,考慮了類與對(duì)象之間的關(guān)系,利用基聚類結(jié)果構(gòu)建二度圖,頂點(diǎn)代表對(duì)象和類,若對(duì)象屬于該類,則有連邊,若
第三章基于樣本對(duì)加權(quán)共協(xié)關(guān)系矩陣的聚類集成算法15),(|jitxxC代表類tC去掉ix和jx所在的小類中的所有樣本之后的類。若ix和jx被分在同一個(gè)小類里,就去掉一個(gè)小類,被分到不同的小類中,就去掉兩個(gè)小類。由于去掉了與ix和jx在同一小類中的樣本,類tC的不確定性度量會(huì)有所減小,只不過有的減少的多,有的減少的少,所以由公式(3.4)可以看出(,,)tijHCxx的取值范圍是[0,∞],并且若(,,)tijHCxx越大,則從tC中去掉樣本ix和jx所在的小類后,類tC的不確定性減小的程度就越大,也就是說,去掉樣本ix和jx所在小類后使得類tC的不確定性變小的程度很大,因此樣本對(duì)ix和jx的權(quán)值應(yīng)該越;诖,我們給出樣本對(duì)ix和jx的權(quán)重如下:(,,)exp((,,)/())tijtijwCxxHCxxM(3.5)其中,參數(shù)θ>0,是用來調(diào)節(jié)樣本對(duì)的不穩(wěn)定性對(duì)于最后的權(quán)值的影響。由公式(3.5)可以看出權(quán)值),,(jitwxxC的取值范圍是[0,1],樣本對(duì)導(dǎo)致類不確定性變化的程度越大,給的權(quán)值就越校圖3.1給出了不同的參數(shù)對(duì)于權(quán)值的影響,可以看到當(dāng)θ<1時(shí),隨著(,,)tijHCxx的增加),,(jitwxxC會(huì)顯著的減少,當(dāng)θ>4時(shí),隨著(,,)tijHCxx的增加),,(jitwxxC減少的速度會(huì)很緩慢。根據(jù)公式(3.5),可以定義基于樣本加權(quán)的共協(xié)關(guān)系矩陣WCM為:NNij}{mWCM(3.6)其中,MmmijmijijwMm11,),),((jiimijwxxxClsw,otherwisexxClsClsjmimmij,0)()(,1,mijw代表樣本ix和jx對(duì)于所在的類tC的權(quán)值。圖3.1對(duì)于不同參數(shù),權(quán)值與樣本對(duì)不穩(wěn)定程度之間的相關(guān)性
本文編號(hào):2919657
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/2919657.html
最近更新
教材專著