基于圖論的聚類技術(shù)研究及應(yīng)用
發(fā)布時間:2020-08-21 20:04
【摘要】:聚類技術(shù)是人工智能與模式識別方向的一個重要研究領(lǐng)域,基于聚類技術(shù)的研究與應(yīng)用也早已被用在社會的各個方向。聚類技術(shù)的目的是將數(shù)據(jù)場景中未知標簽的樣本點按照特定的聚類方式以及數(shù)據(jù)之間的內(nèi)在關(guān)系聚成相應(yīng)的類別。圖是數(shù)學(xué)中的基本模型,由點和邊等基本元素組成,基于圖論的聚類技術(shù)以點和邊為出發(fā)點,點代表數(shù)據(jù)元素,邊用來描述數(shù)據(jù)元素之間的各種關(guān)系。譜聚類方法作為聚類技術(shù)的一個研究分支,以圖論為理論基礎(chǔ),利用數(shù)據(jù)樣本間的相似度矩陣構(gòu)建(廣義)特征系統(tǒng),再對特征系統(tǒng)分解出的特征向量聚類得到數(shù)據(jù)的類別。譜聚類本質(zhì)上是按照數(shù)據(jù)之間的關(guān)系進行劃分,找到圖論中數(shù)據(jù)之間的最優(yōu)劃分問題。譜聚類基于圖論技術(shù)且同時具有全局最優(yōu)解,被研究和應(yīng)用在多個領(lǐng)域,以最近一些基于成熟理論發(fā)展的相關(guān)研究成果為基礎(chǔ),本文在對圖論聚類技術(shù)譜聚類知識系統(tǒng)學(xué)習(xí)后,展開了如下的兩個主要的研究工作。(1)在目標數(shù)據(jù)受到噪聲或污染的情況下,聚類算法往往會偏移想要達到的聚類效果。針對此問題,利用遷移學(xué)習(xí)機制,以譜聚類算法為理論指導(dǎo),本文提出了域間F-范數(shù)正則化遷移譜聚類方法。該方法通過第K最近鄰原則為目標域數(shù)據(jù)從源域(歷史數(shù)據(jù))獲取等量的可參照數(shù)據(jù)樣本,然后基于域間F范數(shù)正則化機制,遷移這些源域可參照數(shù)據(jù)樣本的譜聚類特征矩陣,輔助目標域數(shù)據(jù)的最后的聚類過程,最終提高聚類效果,以解決實際問題中由于各種污染或干擾引起的聚類問題。(2)針對目標數(shù)據(jù)集受離群值,干擾顏色以及大中型圖像分割中時間耗費的影響問題,本文以譜聚類為基礎(chǔ),結(jié)合半監(jiān)督學(xué)習(xí),提出了可調(diào)整的親合度與架構(gòu)共同約束的譜聚類框架,并將此框架應(yīng)用到實際的圖像分割實驗中。該方法能夠充分的利用好半監(jiān)督信息,將先驗知識整合到規(guī)范化譜聚類中。一方面,此框架基于特定的抽樣方法和經(jīng)典KNN算法,極大的縮短了中大型圖像的分割時間;另一方面,受益于所設(shè)框架的約束以及平衡因子的變動,更靈活的適應(yīng)任何半監(jiān)督約束場景。
【學(xué)位授予單位】:江南大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:TP311.13;O157.5
【圖文】:
來輔助目標域的譜聚類過程。為此本文基于第 K 近鄰(K域每一數(shù)據(jù)樣本從源域挑選一可用來遷移歷史聚類知識的樣本的歷史特征向量組成歷史特征矩陣,結(jié)合 F-范數(shù)正則目標函數(shù)完成聚類。該算法具有三大特點:過遷移歷史特征矩陣,TSC-IDFR 實現(xiàn)了對歷史知識的有高了目標算法在受干擾或噪聲影響的目標數(shù)據(jù)集上的聚類C-IDFR 從源域遷移的是歷史特征矩陣這一高級歷史知識定程度上可以滿足源域隱私保護的要求;過第 K 近鄰點策略和為 F-范數(shù)正則化項引入正則化系數(shù)有效性驗證指標,TSC-IDFR 可以較靈活地決定關(guān)于源域務(wù)于目標域的譜聚類過程。目標域的知識遷移所介紹,譜聚類最終將進行基于拉普拉斯矩陣 L 的特征量(對應(yīng)于前 k 個最小的特征值)構(gòu)成的特征矩陣。也據(jù)信息從原數(shù)據(jù)集 X(N×d)變換成特征矩陣 U(N×k),dk
ep 3:對 ( )進行特征分解,取前 k 個最小特征值對應(yīng)的特征向量并列并進行歸一化操作得到特征矩陣 ( );ep 4:根據(jù)式 3.8,輸入正則化系數(shù) λ,新的譜聚類的拉普拉斯矩陣等于 ( ) ( ) ( ) ;ep 5 :對步驟 4 得到的新拉普拉斯矩陣做特征分解,最后通過 k-means 聚特征矩陣的每一行進行聚類ep 6 : 輸出聚類實驗結(jié)果。C-IDFR 的整體設(shè)計思想如圖 3.2 所示:源域歷史數(shù)據(jù)目標域目標數(shù)據(jù)
效學(xué)習(xí)和利用。具體說就是通過第 K 近鄰點策略和 F-范數(shù)正則化系數(shù) 的調(diào)節(jié),IDFR 可以較靈活地決定關(guān)于源域歷史知識的借鑒程度,最終服務(wù)于目標域的譜聚。此外,TSC-IDFR 遷移的是歷史特征矩陣,這還可以滿足源域隱私保護的特定這些結(jié)論與我們在人造數(shù)據(jù)場景中所得結(jié)論是一致的;)TII-KT-CM 算法的實際性能始終優(yōu)于 TI-KT-CM 算法,這是因為 TI-KT-CM 僅源域歷史類中心這一高級知識,而 TII-KT-CM 同時借鑒了源域歷史類中心和關(guān)于中心的模糊隸屬度知識,即 TII-KT-CM 具有更強的歷史知識借鑒學(xué)習(xí)能力,因此比 TI-KT-CM 更有效。而在這些數(shù)據(jù)集上我們所提 TSC-IDFR 算法更優(yōu)于T-CM 算法,這進一步佐證了本文同時結(jié)合遷移學(xué)習(xí)、譜聚類和 F 范數(shù)正則化等機的遷移譜聚類方法有效性;)圖 3.5(a)~(d)示意了參數(shù) K 對 TSC-IDFR 算法的性能影響情況。結(jié)合給定的聚類指標,我們可以為每個數(shù)據(jù)集找到一個最優(yōu) K 值。圖 3.5(e)~(l)示意了參數(shù)λ和TSC-IDFR 的聚類性能影響情況,總體上看,取最佳參數(shù)設(shè)置時,TSC-IDFR 對正則λ相對穩(wěn)定,對高斯徑向基窗寬參數(shù)σ相對稍敏感,但在合適區(qū)間范圍內(nèi),其聚總體上波動不大。
本文編號:2799804
【學(xué)位授予單位】:江南大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:TP311.13;O157.5
【圖文】:
來輔助目標域的譜聚類過程。為此本文基于第 K 近鄰(K域每一數(shù)據(jù)樣本從源域挑選一可用來遷移歷史聚類知識的樣本的歷史特征向量組成歷史特征矩陣,結(jié)合 F-范數(shù)正則目標函數(shù)完成聚類。該算法具有三大特點:過遷移歷史特征矩陣,TSC-IDFR 實現(xiàn)了對歷史知識的有高了目標算法在受干擾或噪聲影響的目標數(shù)據(jù)集上的聚類C-IDFR 從源域遷移的是歷史特征矩陣這一高級歷史知識定程度上可以滿足源域隱私保護的要求;過第 K 近鄰點策略和為 F-范數(shù)正則化項引入正則化系數(shù)有效性驗證指標,TSC-IDFR 可以較靈活地決定關(guān)于源域務(wù)于目標域的譜聚類過程。目標域的知識遷移所介紹,譜聚類最終將進行基于拉普拉斯矩陣 L 的特征量(對應(yīng)于前 k 個最小的特征值)構(gòu)成的特征矩陣。也據(jù)信息從原數(shù)據(jù)集 X(N×d)變換成特征矩陣 U(N×k),dk
ep 3:對 ( )進行特征分解,取前 k 個最小特征值對應(yīng)的特征向量并列并進行歸一化操作得到特征矩陣 ( );ep 4:根據(jù)式 3.8,輸入正則化系數(shù) λ,新的譜聚類的拉普拉斯矩陣等于 ( ) ( ) ( ) ;ep 5 :對步驟 4 得到的新拉普拉斯矩陣做特征分解,最后通過 k-means 聚特征矩陣的每一行進行聚類ep 6 : 輸出聚類實驗結(jié)果。C-IDFR 的整體設(shè)計思想如圖 3.2 所示:源域歷史數(shù)據(jù)目標域目標數(shù)據(jù)
效學(xué)習(xí)和利用。具體說就是通過第 K 近鄰點策略和 F-范數(shù)正則化系數(shù) 的調(diào)節(jié),IDFR 可以較靈活地決定關(guān)于源域歷史知識的借鑒程度,最終服務(wù)于目標域的譜聚。此外,TSC-IDFR 遷移的是歷史特征矩陣,這還可以滿足源域隱私保護的特定這些結(jié)論與我們在人造數(shù)據(jù)場景中所得結(jié)論是一致的;)TII-KT-CM 算法的實際性能始終優(yōu)于 TI-KT-CM 算法,這是因為 TI-KT-CM 僅源域歷史類中心這一高級知識,而 TII-KT-CM 同時借鑒了源域歷史類中心和關(guān)于中心的模糊隸屬度知識,即 TII-KT-CM 具有更強的歷史知識借鑒學(xué)習(xí)能力,因此比 TI-KT-CM 更有效。而在這些數(shù)據(jù)集上我們所提 TSC-IDFR 算法更優(yōu)于T-CM 算法,這進一步佐證了本文同時結(jié)合遷移學(xué)習(xí)、譜聚類和 F 范數(shù)正則化等機的遷移譜聚類方法有效性;)圖 3.5(a)~(d)示意了參數(shù) K 對 TSC-IDFR 算法的性能影響情況。結(jié)合給定的聚類指標,我們可以為每個數(shù)據(jù)集找到一個最優(yōu) K 值。圖 3.5(e)~(l)示意了參數(shù)λ和TSC-IDFR 的聚類性能影響情況,總體上看,取最佳參數(shù)設(shè)置時,TSC-IDFR 對正則λ相對穩(wěn)定,對高斯徑向基窗寬參數(shù)σ相對稍敏感,但在合適區(qū)間范圍內(nèi),其聚總體上波動不大。
【參考文獻】
相關(guān)期刊論文 前5條
1 鄧趙紅;張江濱;蔣亦樟;史熒中;王士同;;基于模糊子空間聚類的0階L2型TSK模糊系統(tǒng)[J];電子與信息學(xué)報;2015年09期
2 錢鵬江;孫壽偉;蔣亦樟;王士同;鄧趙紅;;知識遷移極大熵聚類算法[J];控制與決策;2015年06期
3 莊福振;羅平;何清;史忠植;;遷移學(xué)習(xí)研究進展[J];軟件學(xué)報;2015年01期
4 蔣亦樟;鄧趙紅;王駿;葛洪偉;王士同;;基于知識利用的遷移學(xué)習(xí)一般化增強模糊劃分聚類算法[J];模式識別與人工智能;2013年10期
5 方建斌;陳正旭;;一種基于加權(quán)F-范數(shù)的半正定矩陣的逼近方法[J];統(tǒng)計與信息論壇;2007年02期
本文編號:2799804
本文鏈接:http://sikaile.net/kejilunwen/yysx/2799804.html
最近更新
教材專著