面向高維數(shù)據(jù)的特征學(xué)習(xí)理論與應(yīng)用研究
發(fā)布時(shí)間:2018-03-31 23:09
本文選題:特征學(xué)習(xí) 切入點(diǎn):局部一致 出處:《蘇州大學(xué)》2016年博士論文
【摘要】:隨著信息獲取和信息傳輸技術(shù)的飛速發(fā)展,海量圖像、視頻、文本以及音頻等數(shù)據(jù)不斷生成。這些數(shù)據(jù)結(jié)構(gòu)復(fù)雜、表征維度高,通常含有大量無(wú)關(guān)的冗余信息,直接處理和利用這些原始數(shù)據(jù)通常難以獲得理想的效果。特征學(xué)習(xí)就是要從復(fù)雜的高維數(shù)據(jù)中挖掘出反映數(shù)據(jù)本質(zhì)的、更為緊湊的內(nèi)蘊(yùn)結(jié)構(gòu)特征,不僅可以降低數(shù)據(jù)處理的時(shí)空復(fù)雜度,而且可以顯著改善后續(xù)處理任務(wù)如分類、聚類、檢索等的性能。為此,圍繞特征學(xué)習(xí)方法的研究受到了機(jī)器學(xué)習(xí)領(lǐng)域?qū)<业母叨戎匾暋D壳皬V為使用的特征學(xué)習(xí)方法包括線性特征學(xué)習(xí)的主成分分析、線性判別分析、非負(fù)矩陣分解等,以及非線性特征學(xué)習(xí)的等距映射、局部線性嵌入方法、拉普拉斯特征映射、鄰域保持嵌入、等距投影、局部保持投影以及判別鄰域嵌入等,雖然這些方法在分析和處理高維數(shù)據(jù)時(shí)有其各自的優(yōu)勢(shì),但是在某些場(chǎng)合應(yīng)用時(shí)仍然會(huì)出現(xiàn)各種問(wèn)題。本論文正是針對(duì)現(xiàn)有特征學(xué)習(xí)方法中的不足,研究相應(yīng)的應(yīng)對(duì)措施,并提出了若干全新的算法。除此之外,由于張量能夠自然的表征復(fù)雜的數(shù)據(jù)結(jié)構(gòu)近年來(lái)備受關(guān)注,本論文在張量學(xué)習(xí)方法上進(jìn)行了大膽的探索。具體來(lái)說(shuō),本文的主要貢獻(xiàn)集中在以下幾個(gè)方面:(1)概念分解是純粹的無(wú)監(jiān)督學(xué)習(xí)方法,不能利用先驗(yàn)知識(shí)指導(dǎo)學(xué)習(xí)過(guò)程。針對(duì)上述不足,本文提出基于半監(jiān)督概念分解的特征學(xué)習(xí)方法。該方法利用有監(jiān)督信息指導(dǎo)聚類過(guò)程,把對(duì)約束獎(jiǎng)懲項(xiàng)引入概念分解框架中。由于屬于同一類的數(shù)據(jù)點(diǎn)對(duì)在新的表示空間有不同的強(qiáng)度,因此在為每個(gè)對(duì)約束添加懲罰時(shí),依據(jù)其重要性的大小添加相應(yīng)權(quán)重,更好地解釋了類內(nèi)方差,因而得到了更易于聚類的低維特征。通過(guò)精心設(shè)計(jì)目標(biāo)函數(shù)使得那些在源空間屬于同一類的數(shù)據(jù)點(diǎn)在低維轉(zhuǎn)換空間仍然屬于同一類,同時(shí)給出了求解局部最優(yōu)解的迭代更新策略,并證明了該迭代更新策略收斂。和時(shí)下經(jīng)典聚類算法的對(duì)比實(shí)驗(yàn),表明本算法獲得的特征表示更有利于文檔聚類任務(wù)的高效實(shí)現(xiàn)。(2)針對(duì)半監(jiān)督概念分解方法忽略無(wú)標(biāo)記樣本的局部結(jié)構(gòu)信息這一缺陷,提出了基于鄰域保持的半監(jiān)督概念分解特征學(xué)習(xí)方法。該方法把對(duì)約束信息和與不變性相關(guān)的信息引入到概念分解框架中以提高學(xué)習(xí)性能。這里的不變性不僅包括幾何空間上的鄰域保持性質(zhì),也包括由對(duì)約束must-link產(chǎn)生的約束保持性質(zhì)。為此我們使用了捕獲幾何結(jié)構(gòu)信息的p-近鄰圖和保持約束限制的成員鄰接圖編碼信息。此外,構(gòu)造了目標(biāo)函數(shù)的迭代優(yōu)化算法,分析了迭代優(yōu)化算法的收斂性。通過(guò)充分的對(duì)比實(shí)驗(yàn)驗(yàn)證了本算法具有更好的適應(yīng)性,可以獲得區(qū)分度更高的特征表示。(3)局部保持投影是一種經(jīng)典的無(wú)監(jiān)督的流形學(xué)習(xí)方法,但是該方法不能利用有監(jiān)督信息指導(dǎo)學(xué)習(xí)過(guò)程。針對(duì)上述不足,本文提出了基于局部一致判別的特征學(xué)習(xí)方法。該方法在LPP的基礎(chǔ)上,借助有類別標(biāo)記數(shù)據(jù)點(diǎn)構(gòu)建類內(nèi)鄰接圖和類間鄰接圖,通過(guò)優(yōu)化目標(biāo)函數(shù)使得同類的頂點(diǎn)更加緊湊,不同類的頂點(diǎn)更加疏遠(yuǎn),從而完成劃分過(guò)程。由此得到的局部一致判別分析方法不僅保持?jǐn)?shù)據(jù)的局部幾何結(jié)構(gòu)信息,同時(shí)也增強(qiáng)了數(shù)據(jù)的判別性。除此之外,給出了局部一致判別分析的目標(biāo)函數(shù)的優(yōu)化算法。和經(jīng)典的人臉識(shí)別算法在公開(kāi)數(shù)據(jù)集上的對(duì)比試驗(yàn)表明了本算法的有更強(qiáng)的判別能力。(4)給出了張量樹(shù)特征學(xué)習(xí)算法框架,揭示了經(jīng)典張量分解如Tucker分解和CP分解與張量樹(shù)學(xué)習(xí)理論的關(guān)系,并給出了張量樹(shù)特征學(xué)習(xí)算法框架下的鄰域嵌入張量學(xué)習(xí)新算法。數(shù)據(jù)的多樣化、海量化、高階化使研究者們展開(kāi)多方位的研究,張量作為一種有效的表示和分析復(fù)雜數(shù)據(jù)的工具受到了廣泛關(guān)注。我們?cè)谝延泄ぷ鞯幕A(chǔ)上,提出了新的張量樹(shù)學(xué)習(xí)算法并構(gòu)建張量樹(shù)特征學(xué)習(xí)理論框架,豐富和發(fā)展了張量學(xué)習(xí)的研究?jī)?nèi)容。進(jìn)一步地,在判別鄰域嵌入方法的基礎(chǔ)上,提出了張量樹(shù)特征學(xué)習(xí)理論框架下的鄰域嵌入張量學(xué)習(xí)方法,該方法不僅克服了DNE可能導(dǎo)致的“維數(shù)災(zāi)難”和“小樣本問(wèn)題”,而且彌補(bǔ)了DNE方法偏重?cái)?shù)據(jù)的鄰域點(diǎn)而忽略數(shù)據(jù)非鄰域點(diǎn)的影響的不足。通過(guò)精心設(shè)計(jì)目標(biāo)函數(shù),使得投影空間的同類結(jié)點(diǎn)更加緊湊,不同類結(jié)點(diǎn)更加疏遠(yuǎn),保持?jǐn)?shù)據(jù)局部結(jié)構(gòu)一致性同時(shí)提高數(shù)據(jù)判別能力。在ORL、PIE和COIL20等公開(kāi)數(shù)據(jù)庫(kù)上的實(shí)驗(yàn),驗(yàn)證了NTL擁有更高的識(shí)別率和效率。
[Abstract]:......
【學(xué)位授予單位】:蘇州大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP181
【參考文獻(xiàn)】
相關(guān)期刊論文 前3條
1 李樂(lè);章毓晉;;基于線性投影結(jié)構(gòu)的非負(fù)矩陣分解[J];自動(dòng)化學(xué)報(bào);2010年01期
2 甘俊英;李春芝;;基于小波變換的二維獨(dú)立元在人臉識(shí)別中應(yīng)用[J];系統(tǒng)仿真學(xué)報(bào);2007年03期
3 張振躍,查宏遠(yuǎn);Principal Manifolds and Nonlinear Dimensionality Reduction via Tangent Space Alignment[J];Journal of Shanghai University;2004年04期
,本文編號(hào):1692872
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/1692872.html
最近更新
教材專著