模型自動(dòng)選擇聚類(lèi)算法的研究與應(yīng)用
發(fā)布時(shí)間:2018-10-05 13:05
【摘要】:聚類(lèi)是模式識(shí)別的一個(gè)重要工具,它在如生物信息學(xué),網(wǎng)絡(luò)數(shù)據(jù)分析,信息檢索,客戶(hù)關(guān)系管理,文本挖掘,以及科學(xué)數(shù)據(jù)探索等領(lǐng)域中有很多應(yīng)用。聚類(lèi)的目的是把一個(gè)有限的、未標(biāo)記的數(shù)據(jù)集,根據(jù)預(yù)定義的相似性度量,劃分成多個(gè)自然的子集(簇),從而使得來(lái)自同一簇內(nèi)的數(shù)據(jù)對(duì)象都彼此接近,不同的簇中的數(shù)據(jù)對(duì)象彼此不同。 對(duì)聚類(lèi)分析來(lái)說(shuō),其中一個(gè)最有挑戰(zhàn)性也是最困難的問(wèn)題是確定數(shù)據(jù)中包含的簇的真實(shí)數(shù)目。簇的數(shù)目在絕大部分已有的聚類(lèi)算法中是一個(gè)輸入?yún)?shù)。盡管對(duì)于一些應(yīng)用來(lái)說(shuō),用戶(hù)能夠利用自己的專(zhuān)業(yè)知識(shí)預(yù)先確定簇的數(shù)目。不過(guò)對(duì)于絕大多數(shù)情況,簇的數(shù)目k是完全未知的,需要從數(shù)據(jù)本身估計(jì)出來(lái)。聚類(lèi)的結(jié)果在很大程度上取決于對(duì)k的估計(jì):如果把數(shù)據(jù)劃分成太多簇的話(huà)會(huì)使結(jié)果變得復(fù)雜,并且難以進(jìn)一步分析與闡釋?zhuān)幌喾,如果把?shù)據(jù)劃分的簇太少的話(huà)會(huì)丟失信息,從而誤導(dǎo)后續(xù)的決策。模型選擇是指,在給定數(shù)據(jù)的情況下,從一組候選模型中選擇一個(gè)統(tǒng)計(jì)模型的過(guò)程。在聚類(lèi)問(wèn)題中,選擇最優(yōu)的k的過(guò)程就是模型選擇。 本文在以下三個(gè)方面研究了具有自動(dòng)模型選擇能力的聚類(lèi)算法以及它們的應(yīng)用: (1)由于k-means算法理論簡(jiǎn)單、容易實(shí)現(xiàn),因此在所有聚類(lèi)算法中,k-means是應(yīng)用最廣泛的。然而這種算法存在兩個(gè)嚴(yán)重的問(wèn)題:需要人工指定聚類(lèi)數(shù)與死單元問(wèn)題。死單元問(wèn)題是指如果某個(gè)初始的中心點(diǎn)離數(shù)據(jù)區(qū)域距離較遠(yuǎn)的話(huà)永遠(yuǎn)都沒(méi)有學(xué)習(xí)的機(jī)會(huì)。為了解決這兩個(gè)問(wèn)題,經(jīng)過(guò)多年研究,出現(xiàn)了競(jìng)爭(zhēng)對(duì)手受懲罰學(xué)習(xí)算法(RivalPenalizationCompetitive Learning,,RPCL),這種方法能夠在聚類(lèi)過(guò)程中自動(dòng)確定聚類(lèi)數(shù)目。又因?yàn)樽詣?dòng)確定聚類(lèi)數(shù)目這個(gè)優(yōu)點(diǎn),可以給一個(gè)比真實(shí)聚類(lèi)數(shù)大一點(diǎn)的初始聚類(lèi)數(shù)目,從而忽略死單元造成的影響。然而這種算法仍然存在以下幾個(gè)缺點(diǎn):首先,一些研究顯示,RPCL對(duì)懲罰率的選擇比較敏感。如果懲罰率設(shè)置不好的話(huà),有可能得到不正確的結(jié)果。第二,因?yàn)镽PCL是一個(gè)在線(xiàn)學(xué)習(xí)算法,需要手工設(shè)定學(xué)習(xí)率。如果學(xué)習(xí)率太大,算法會(huì)很難收斂。相反如果學(xué)習(xí)率太小,算法就會(huì)收斂很慢。第三,實(shí)驗(yàn)顯示,當(dāng)給定的初始類(lèi)別數(shù)k遠(yuǎn)遠(yuǎn)大于真實(shí)類(lèi)別數(shù)k的時(shí)候,RPCL會(huì)比較容易收斂到不正確的類(lèi)別數(shù)。本文在以下三方面改進(jìn)了RPCL算法。首先,引入了狄利克雷過(guò)程先驗(yàn)(Dirichlet Process)到獨(dú)立判斷條件中,利用這個(gè)先驗(yàn),本文的聚類(lèi)算法聚合性更好。第二,引入了一種自動(dòng)確定學(xué)習(xí)率的方法,這種學(xué)習(xí)率的確定方法被證明是符合牛頓下降法的。第三,根據(jù)新的獨(dú)立判斷條件,提出了一種自動(dòng)確定懲罰率的方法。 (2)圖像分割是計(jì)算機(jī)視覺(jué)中一種常用的預(yù)處理過(guò)程,它把圖像中的像素根據(jù)空間上的接近程度和特征的相似性分割成多個(gè)緊湊的圖像塊。由于圖像分割與聚類(lèi)的內(nèi)在一致性,基于聚類(lèi)的方法是常用的無(wú)監(jiān)督圖像分割算法。貝葉斯陰陽(yáng)和諧學(xué)習(xí)(BayesianYing-Yang harmony learning,BYY)把現(xiàn)實(shí)世界X及其表示Y在貝葉斯框架下用陰和陽(yáng)兩種方式來(lái)表示。并提出,盡管這兩種表示方式理論上應(yīng)當(dāng)是相等的,但是實(shí)際上由于受到各方面的限制并不相等。因此他提出貝葉斯陰陽(yáng)和諧學(xué)習(xí)理論,學(xué)習(xí)的目標(biāo)是使陰陽(yáng)兩個(gè)系統(tǒng)和諧一致。為了進(jìn)一步挖掘基于BYY的圖像分割算法的潛能,本文提出了一種新的基于BYY的自然圖像分割算法。本文基于BYY理論以及Dirichlet-Normal-Wishart先驗(yàn)分布提出了一種新的聚類(lèi)算法。采用批量更新參數(shù)的策略,并且在更新過(guò)程中消除了幾處復(fù)雜項(xiàng)的計(jì)算,從而大大加速了聚類(lèi)過(guò)程。在聚類(lèi)過(guò)程中,本算法繼承了基于BYY算法的強(qiáng)大的模型自動(dòng)選擇能力。更進(jìn)一步,開(kāi)發(fā)了一套適用于基于聚類(lèi)的圖像分割算法的后處理過(guò)程。與其它基于聚類(lèi)的圖像分割方法相比,本算法一個(gè)重要的改進(jìn)是把超像素作為整體來(lái)賦標(biāo)簽而不是每個(gè)像素單獨(dú)賦標(biāo)簽。在BSDS500數(shù)據(jù)庫(kù)上做了大量與其它方法以及專(zhuān)家手工分割比較的實(shí)驗(yàn)。結(jié)果顯示,本文算法分割結(jié)果和專(zhuān)家分割結(jié)果很接近,性能與目前主流算法相比具有優(yōu)越性。 (3)人臉信息處理是計(jì)算機(jī)視覺(jué)中最重要的研究領(lǐng)域之一。由于攝像頭以及視頻監(jiān)控系統(tǒng)的廣泛應(yīng)用,人臉數(shù)據(jù)每時(shí)每刻都在急劇增長(zhǎng),刺激了對(duì)人臉信息進(jìn)行自動(dòng)化處理的需求。經(jīng)過(guò)多年研究,人臉信息處理已經(jīng)取得了令人矚目的長(zhǎng)足的發(fā)展。盡管如此,卻存在一個(gè)看上去很簡(jiǎn)單的問(wèn)題至今沒(méi)有回答:給定一個(gè)人臉數(shù)據(jù)集,其中到底包含多少個(gè)體的人臉數(shù)據(jù)?要解決以上問(wèn)題,主要存在下面3個(gè)主要的困難。首先,如何從人臉圖像中魯棒的提取人臉特征。其次,如何選擇一個(gè)緊湊的可區(qū)分不同個(gè)體的人臉特征子集。第三,如何設(shè)計(jì)一個(gè)聚類(lèi)算法能夠自動(dòng)確定聚類(lèi)數(shù)目。本文提出了一種用于人臉聚類(lèi)分析的計(jì)算框架,能夠在不知道具體人數(shù)的情況下給人臉聚類(lèi),其中用到的區(qū)別性特征由算法自動(dòng)選擇。提取了表觀特征與形狀特征一起來(lái)表示人臉。首先手工標(biāo)記一小部分人臉圖像,主要用來(lái)訓(xùn)練主動(dòng)表觀模型,并且確定哪些特征對(duì)區(qū)分不同個(gè)體有明顯效果。接著,訓(xùn)練好的主動(dòng)表觀模型用來(lái)擬合所有的人臉,每一個(gè)人臉都會(huì)由一個(gè)特征向量來(lái)描述。最終,貝葉斯非參數(shù)模型被用來(lái)對(duì)人臉進(jìn)行聚類(lèi)。本文用大量的實(shí)驗(yàn)來(lái)評(píng)估此計(jì)算模型,實(shí)驗(yàn)結(jié)果顯示了它的可行性與有效性。
[Abstract]:......
【學(xué)位授予單位】:寧波大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2014
【分類(lèi)號(hào)】:TP391.41
本文編號(hào):2253496
[Abstract]:......
【學(xué)位授予單位】:寧波大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2014
【分類(lèi)號(hào)】:TP391.41
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前1條
1 彭慧敏;馬明;鄭偉;徐偉;周海鋒;曾興嘉;;在線(xiàn)組合輸電斷面極限集群計(jì)算[J];電力系統(tǒng)保護(hù)與控制;2012年04期
本文編號(hào):2253496
本文鏈接:http://sikaile.net/guanlilunwen/kehuguanxiguanli/2253496.html
最近更新
教材專(zhuān)著