基于譜聚類的混合流形學(xué)習(xí)算法研究
發(fā)布時(shí)間:2017-07-03 22:19
本文關(guān)鍵詞:基于譜聚類的混合流形學(xué)習(xí)算法研究
更多相關(guān)文章: 譜聚類 流行學(xué)習(xí) 混合流形聚類 拉普拉斯矩陣
【摘要】:隨著電子信息技術(shù)進(jìn)步,各種形態(tài)的數(shù)據(jù)不斷指數(shù)級(jí)爆炸增長(zhǎng)。當(dāng)我們面對(duì)這些海量的高維數(shù)據(jù),需要能夠按照我們預(yù)期的目的進(jìn)行有效的處理以及利用。從大量的信息當(dāng)中挖掘出有用的信息是模式識(shí)別以及計(jì)算機(jī)視覺(jué)等很多領(lǐng)域共同關(guān)注的研究難題。流形學(xué)習(xí)是一種極為有效的數(shù)據(jù)處理方式,從原始數(shù)據(jù)當(dāng)中挖掘出我們可以利用的有效信息。本文研究了復(fù)雜分布數(shù)據(jù)的混合流形聚類,包括現(xiàn)實(shí)生活中的真實(shí)物體數(shù)據(jù)集,人造的數(shù)據(jù)集,以及人臉數(shù)據(jù)集等等。對(duì)于混合流形數(shù)據(jù),由于分布的復(fù)雜性,特別是不同流形相互重疊的部分,傳統(tǒng)的算法思想僅僅考慮了數(shù)據(jù)集中點(diǎn)與點(diǎn)之間的聯(lián)系,并沒(méi)有考慮到重疊區(qū)域數(shù)據(jù)點(diǎn)由于歐式距離較近,將會(huì)使得本來(lái)處于兩個(gè)聚類的數(shù)據(jù)點(diǎn)會(huì)被劃分到一個(gè)聚類當(dāng)中,從而導(dǎo)致數(shù)據(jù)聚類錯(cuò)誤率的增加。基于這種情況,我們除了考慮數(shù)據(jù)點(diǎn)本身的特性,還要考慮其他方面的因素。比如:數(shù)據(jù)點(diǎn)的幾何切空間(衡量數(shù)據(jù)分布狀態(tài)的一種方式)等。傳統(tǒng)的K均值聚類,需要數(shù)據(jù)點(diǎn)必須為n維空間向量。使得計(jì)算速度慢,消耗很多內(nèi)存。而譜聚類基于這一問(wèn)題,對(duì)高維數(shù)據(jù)降維,使用一些特征向量來(lái)近似代表高維的原始數(shù)據(jù)。因此,譜聚類具有計(jì)算速度快,并且不容易受到噪聲以及邊界的影響,具有很強(qiáng)的魯棒性。借鑒譜聚類算法的優(yōu)點(diǎn),對(duì)于相似矩陣的選取,在傳統(tǒng)基于歐式距離的基礎(chǔ)上,充分考慮了數(shù)據(jù)內(nèi)含的其他幾何信息,構(gòu)造出更加適合與混合流形聚類的親和矩陣。另外,從最初的近鄰點(diǎn)的選取,到親和矩陣的構(gòu)造,再到拉普拉斯矩陣,從而求得低維嵌入數(shù)據(jù)。因此,基于譜聚類的算法最根本的就是近鄰點(diǎn)的選取?紤]到是混合流形,盡管可能距離很近,要求近鄰點(diǎn)應(yīng)該盡可能地來(lái)自同一個(gè)流形。我們深入研究了除了距離還有局部幾何信息的近鄰點(diǎn)的選取方法。本論文還提出了迭代加權(quán)的子空間聚類。對(duì)于這種算法,核心就是迭代的加權(quán)算法框架,相比于原來(lái)的標(biāo)準(zhǔn)最小化框架,迭代最小框架聚類效果更好。通過(guò)在人造數(shù)據(jù)集以及真實(shí)的數(shù)據(jù)上測(cè)試其算法效率,相比于傳統(tǒng)的算法效率更高。另外,我們不單單對(duì)這些算法進(jìn)行理論的研究,還將這些算法廣泛應(yīng)用到實(shí)際應(yīng)用當(dāng)中,比如:人臉識(shí)別,圖像分割、文本聚類等等。另外一個(gè)方面,文章針對(duì)當(dāng)前基于譜聚類的一些算法進(jìn)行了分析比較研究,但基本都存在一些共同的問(wèn)題還沒(méi)有得到很好的解決。比如:如何選取合適的拉普拉斯矩陣,怎樣依靠計(jì)算機(jī)程序?qū)α餍尉垲悢?shù)據(jù)類數(shù)目實(shí)現(xiàn)自動(dòng)選取,以及如何充分利用特征向量問(wèn)題等等。這些問(wèn)題還需要我們進(jìn)一步的研究探索。
【關(guān)鍵詞】:譜聚類 流行學(xué)習(xí) 混合流形聚類 拉普拉斯矩陣
【學(xué)位授予單位】:安徽理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP181;TP311.13
【目錄】:
- 摘要5-6
- Abstract6-11
- 1 緒論11-15
- 1.1 研究背景11-12
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀12-13
- 1.3 存在的問(wèn)題以及主要研究方向13-15
- 2 傳統(tǒng)的流形學(xué)習(xí)方法15-30
- 2.1 線性流形學(xué)習(xí)方法15-17
- 2.1.1 主成分分析15
- 2.1.2 多維尺度變換15-17
- 2.2 非線性流形學(xué)習(xí)方法17-30
- 2.2.1 等距特征映射17-18
- 2.2.2 局部線性嵌入18-21
- 2.2.3 拉普拉斯特征映射21-23
- 2.2.4 其他代表非線性流形學(xué)習(xí)算法23-30
- 3 譜聚類算法30-39
- 3.1 譜聚類圖論30-33
- 3.1.1 圖分割的兩種方式31-33
- 3.1.2 k-way圖分割33
- 3.2 譜聚類33-35
- 3.2.1 NJW算法34
- 3.2.2 譜聚類算法的變量34-35
- 3.3 參數(shù)的協(xié)調(diào)35-36
- 3.4 聚類數(shù)目的估計(jì)36-37
- 3.5 算法性能評(píng)價(jià)標(biāo)準(zhǔn)37-39
- 3.5.1 聚類錯(cuò)誤率37
- 3.5.2 信息變量37
- 3.5.3 Wallace指數(shù)37-39
- 4 基于譜聚類的混合流形聚類39-48
- 4.1 譜混合流形聚類算法40-43
- 4.1.1 譜混合流形聚類40-41
- 4.1.2 幾何切空間41-43
- 4.2 實(shí)驗(yàn)以及分析43-48
- 4.2.1 數(shù)據(jù)集上的可視化比較44
- 4.2.2 參數(shù)的影響44-46
- 4.2.3 與最新流行聚類算法的性能比較46
- 4.2.4 COIL-20圖像數(shù)據(jù)的聚類46-48
- 5 局部結(jié)構(gòu)一致方法48-52
- 5.1 對(duì)成型規(guī)范化譜聚類48
- 5.2 LSC算法48-49
- 5.3 實(shí)驗(yàn)結(jié)果與分析49-52
- 5.3.1 參數(shù)影響49-51
- 5.3.2 基于人造數(shù)據(jù)集上的分析比較51
- 5.3.3 真實(shí)數(shù)據(jù)集上的分析比較51-52
- 6 迭代加權(quán)框架的子空間聚類52-58
- 6.1 子空間聚類概述52-53
- 6.2 迭代加權(quán)框架53-54
- 6.3 稀疏子空間聚類54-55
- 6.4 加權(quán)稀疏子空間聚類55-56
- 6.5 實(shí)驗(yàn)以及討論56-58
- 7 總結(jié)與展望58-60
- 7.1 本文總結(jié)58-59
- 7.2 展望59-60
- 參考文獻(xiàn)60-66
- 致謝66-68
- 作者簡(jiǎn)介68
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前1條
1 尹峻松;肖健;周宗潭;胡德文;;非線性流形學(xué)習(xí)方法的分析與應(yīng)用[J];自然科學(xué)進(jìn)展;2007年08期
,本文編號(hào):515371
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/515371.html
最近更新
教材專著