模型自動選擇聚類算法的研究與應(yīng)用
發(fā)布時間:2018-10-05 13:05
【摘要】:聚類是模式識別的一個重要工具,它在如生物信息學(xué),網(wǎng)絡(luò)數(shù)據(jù)分析,信息檢索,客戶關(guān)系管理,文本挖掘,以及科學(xué)數(shù)據(jù)探索等領(lǐng)域中有很多應(yīng)用。聚類的目的是把一個有限的、未標記的數(shù)據(jù)集,根據(jù)預(yù)定義的相似性度量,劃分成多個自然的子集(簇),從而使得來自同一簇內(nèi)的數(shù)據(jù)對象都彼此接近,不同的簇中的數(shù)據(jù)對象彼此不同。 對聚類分析來說,其中一個最有挑戰(zhàn)性也是最困難的問題是確定數(shù)據(jù)中包含的簇的真實數(shù)目。簇的數(shù)目在絕大部分已有的聚類算法中是一個輸入?yún)?shù)。盡管對于一些應(yīng)用來說,用戶能夠利用自己的專業(yè)知識預(yù)先確定簇的數(shù)目。不過對于絕大多數(shù)情況,簇的數(shù)目k是完全未知的,需要從數(shù)據(jù)本身估計出來。聚類的結(jié)果在很大程度上取決于對k的估計:如果把數(shù)據(jù)劃分成太多簇的話會使結(jié)果變得復(fù)雜,并且難以進一步分析與闡釋;相反,如果把數(shù)據(jù)劃分的簇太少的話會丟失信息,從而誤導(dǎo)后續(xù)的決策。模型選擇是指,在給定數(shù)據(jù)的情況下,從一組候選模型中選擇一個統(tǒng)計模型的過程。在聚類問題中,選擇最優(yōu)的k的過程就是模型選擇。 本文在以下三個方面研究了具有自動模型選擇能力的聚類算法以及它們的應(yīng)用: (1)由于k-means算法理論簡單、容易實現(xiàn),因此在所有聚類算法中,k-means是應(yīng)用最廣泛的。然而這種算法存在兩個嚴重的問題:需要人工指定聚類數(shù)與死單元問題。死單元問題是指如果某個初始的中心點離數(shù)據(jù)區(qū)域距離較遠的話永遠都沒有學(xué)習(xí)的機會。為了解決這兩個問題,經(jīng)過多年研究,出現(xiàn)了競爭對手受懲罰學(xué)習(xí)算法(RivalPenalizationCompetitive Learning,,RPCL),這種方法能夠在聚類過程中自動確定聚類數(shù)目。又因為自動確定聚類數(shù)目這個優(yōu)點,可以給一個比真實聚類數(shù)大一點的初始聚類數(shù)目,從而忽略死單元造成的影響。然而這種算法仍然存在以下幾個缺點:首先,一些研究顯示,RPCL對懲罰率的選擇比較敏感。如果懲罰率設(shè)置不好的話,有可能得到不正確的結(jié)果。第二,因為RPCL是一個在線學(xué)習(xí)算法,需要手工設(shè)定學(xué)習(xí)率。如果學(xué)習(xí)率太大,算法會很難收斂。相反如果學(xué)習(xí)率太小,算法就會收斂很慢。第三,實驗顯示,當(dāng)給定的初始類別數(shù)k遠遠大于真實類別數(shù)k的時候,RPCL會比較容易收斂到不正確的類別數(shù)。本文在以下三方面改進了RPCL算法。首先,引入了狄利克雷過程先驗(Dirichlet Process)到獨立判斷條件中,利用這個先驗,本文的聚類算法聚合性更好。第二,引入了一種自動確定學(xué)習(xí)率的方法,這種學(xué)習(xí)率的確定方法被證明是符合牛頓下降法的。第三,根據(jù)新的獨立判斷條件,提出了一種自動確定懲罰率的方法。 (2)圖像分割是計算機視覺中一種常用的預(yù)處理過程,它把圖像中的像素根據(jù)空間上的接近程度和特征的相似性分割成多個緊湊的圖像塊。由于圖像分割與聚類的內(nèi)在一致性,基于聚類的方法是常用的無監(jiān)督圖像分割算法。貝葉斯陰陽和諧學(xué)習(xí)(BayesianYing-Yang harmony learning,BYY)把現(xiàn)實世界X及其表示Y在貝葉斯框架下用陰和陽兩種方式來表示。并提出,盡管這兩種表示方式理論上應(yīng)當(dāng)是相等的,但是實際上由于受到各方面的限制并不相等。因此他提出貝葉斯陰陽和諧學(xué)習(xí)理論,學(xué)習(xí)的目標是使陰陽兩個系統(tǒng)和諧一致。為了進一步挖掘基于BYY的圖像分割算法的潛能,本文提出了一種新的基于BYY的自然圖像分割算法。本文基于BYY理論以及Dirichlet-Normal-Wishart先驗分布提出了一種新的聚類算法。采用批量更新參數(shù)的策略,并且在更新過程中消除了幾處復(fù)雜項的計算,從而大大加速了聚類過程。在聚類過程中,本算法繼承了基于BYY算法的強大的模型自動選擇能力。更進一步,開發(fā)了一套適用于基于聚類的圖像分割算法的后處理過程。與其它基于聚類的圖像分割方法相比,本算法一個重要的改進是把超像素作為整體來賦標簽而不是每個像素單獨賦標簽。在BSDS500數(shù)據(jù)庫上做了大量與其它方法以及專家手工分割比較的實驗。結(jié)果顯示,本文算法分割結(jié)果和專家分割結(jié)果很接近,性能與目前主流算法相比具有優(yōu)越性。 (3)人臉信息處理是計算機視覺中最重要的研究領(lǐng)域之一。由于攝像頭以及視頻監(jiān)控系統(tǒng)的廣泛應(yīng)用,人臉數(shù)據(jù)每時每刻都在急劇增長,刺激了對人臉信息進行自動化處理的需求。經(jīng)過多年研究,人臉信息處理已經(jīng)取得了令人矚目的長足的發(fā)展。盡管如此,卻存在一個看上去很簡單的問題至今沒有回答:給定一個人臉數(shù)據(jù)集,其中到底包含多少個體的人臉數(shù)據(jù)?要解決以上問題,主要存在下面3個主要的困難。首先,如何從人臉圖像中魯棒的提取人臉特征。其次,如何選擇一個緊湊的可區(qū)分不同個體的人臉特征子集。第三,如何設(shè)計一個聚類算法能夠自動確定聚類數(shù)目。本文提出了一種用于人臉聚類分析的計算框架,能夠在不知道具體人數(shù)的情況下給人臉聚類,其中用到的區(qū)別性特征由算法自動選擇。提取了表觀特征與形狀特征一起來表示人臉。首先手工標記一小部分人臉圖像,主要用來訓(xùn)練主動表觀模型,并且確定哪些特征對區(qū)分不同個體有明顯效果。接著,訓(xùn)練好的主動表觀模型用來擬合所有的人臉,每一個人臉都會由一個特征向量來描述。最終,貝葉斯非參數(shù)模型被用來對人臉進行聚類。本文用大量的實驗來評估此計算模型,實驗結(jié)果顯示了它的可行性與有效性。
[Abstract]:......
【學(xué)位授予單位】:寧波大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2014
【分類號】:TP391.41
本文編號:2253496
[Abstract]:......
【學(xué)位授予單位】:寧波大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2014
【分類號】:TP391.41
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前1條
1 彭慧敏;馬明;鄭偉;徐偉;周海鋒;曾興嘉;;在線組合輸電斷面極限集群計算[J];電力系統(tǒng)保護與控制;2012年04期
本文編號:2253496
本文鏈接:http://sikaile.net/guanlilunwen/kehuguanxiguanli/2253496.html
最近更新
教材專著