基于子空間的特征提取與融合算法研究
發(fā)布時間:2017-12-24 14:08
本文關(guān)鍵詞:基于子空間的特征提取與融合算法研究 出處:《南京理工大學》2016年博士論文 論文類型:學位論文
更多相關(guān)文章: 典型相關(guān)分析 特征提取 子空間學習 線性鑒別分析 半監(jiān)督學習
【摘要】:在模式識別應用中,如人臉識別、手寫體識別、圖像聚類,數(shù)據(jù)的維數(shù)一般比較高。高維數(shù)據(jù)中含有大量的冗余信息以及干擾信息,尋找其向低維空間的特征變換矩陣即特征提取,成為模式識別研究中的一個重要的研究領(lǐng)域。隨著數(shù)據(jù)采集技術(shù)的發(fā)展,形成了大量的不同特性的數(shù)據(jù)。如何從多種特性的數(shù)據(jù)中提取出有用的信息即特征融合吸引了眾多研究者的目光。在眾多特征提取與融合算法中,子空間法是其中最重要的一類方法,因此本文將著重對基于子空間的特征提取和特征融合算法進行研究。本文以含有單一特征的特征提取以及多特征的特征融合任務為研究對象,提出了四種特征提取與融合算法從高維數(shù)據(jù)中提取特征用于分類/聚類任務。論文的主要工作可歸納如下:(1)提出了半監(jiān)督線性鑒別分析算法。眾所周知,線性鑒別分析算法在訓練階段需要訓練樣本的標簽信息。而在實際應用中含有大量的無標記樣本,由于不能利用這些無標簽的訓練樣本進行訓練,因此提取的特征無法獲得存在于無標記樣本中的鑒別信息。針對以上問題,提出了半監(jiān)督線性鑒別分析算法。該算法將計算數(shù)據(jù)的映射向量與計算數(shù)據(jù)的標簽信息融合到一個目標函數(shù)中,同時最小化計算的標簽與真實標簽的差值。為了進一步提高計算的標簽矩陣的準確性,在該算法中引入了標簽矩陣元素的非負限制和標簽矩陣列向量之間相互正交的限制。為了優(yōu)化目標函數(shù),提出了一種迭代優(yōu)化的方式計算映射矩陣和標簽指示矩陣。(2)提出了典型主夾角相關(guān)分析算法。由于傳統(tǒng)的典型相關(guān)分析算法在利用兩個視角的數(shù)據(jù)進行特征融合時需要使用這兩個視角的數(shù)據(jù)一一匹配信息,然而應用中可能存在大量沒有匹配信息的數(shù)據(jù),因此在此種情況下典型相關(guān)分析算法不能夠充分的利用數(shù)據(jù)進行特征融合。此外典型相關(guān)分析算法沒有考慮兩個視角數(shù)據(jù)的非線性結(jié)構(gòu),使用典型相關(guān)分析算法進行特征提取時可能破壞數(shù)據(jù)的非線性結(jié)構(gòu)。為了克服典型相關(guān)分析算法這兩個缺點,本文提出了典型主夾角相關(guān)分析。為了使典型主夾角相關(guān)分析能夠使用沒有匹配信息的數(shù)據(jù),本算法利用兩個視角的數(shù)據(jù)張成的空間的相關(guān)性來度量它們的相關(guān)性。為了使該算法所抽取的特征保持數(shù)據(jù)的非線性結(jié)構(gòu),在算法中引入流形正則來限制映射之后數(shù)據(jù)的分布。最后,通過最大化兩個視角之間的相關(guān)性,同時保持兩個視角的數(shù)據(jù)的非線性結(jié)構(gòu)來計算映射矩陣。(3)提出了基于譜聚類的無監(jiān)督鑒別典型相關(guān)分析算法。典型相關(guān)分析算法僅僅考慮了匹配數(shù)據(jù)之間的相關(guān)性,沒有考慮兩個視角之間同類樣本數(shù)據(jù)之間的相關(guān)性,同時沒有考慮同一視角的同一類別的數(shù)據(jù)之間的相關(guān)性。因此,典型相關(guān)分析算法不能很好的利用多特征的數(shù)據(jù)進行特征融合。為了克服這一缺點,本文提出一種基于譜聚類的無監(jiān)督鑒別典型相關(guān)分析算法。為了能夠使用數(shù)據(jù)的類別信息,該算法在迭代過程中利用譜聚類方法計算樣本的類別信息,進而使基于譜聚類的無監(jiān)督鑒別典型相關(guān)分析算法能夠很好地利用數(shù)據(jù)的標簽信息。在基于譜聚類的無監(jiān)督鑒別典型相關(guān)分析算法中,考慮了三種不同的同類數(shù)據(jù)的相關(guān)性。考慮到三種相關(guān)性的權(quán)重可能不同,在算法中引入了對這三種相關(guān)性進行權(quán)衡的方法。針對該算法不能使用多特征進行聚類的問題,將該算法擴展到多特征的情況,并提出了基于譜聚類的多特征無監(jiān)督鑒別典型相關(guān)分析算法。(4)提出了基于L_1范數(shù)的典型相關(guān)分析算法。眾所周知,最優(yōu)化典型相關(guān)分析的目標函數(shù)可以等價于最小化匹配樣本之間的L_2范數(shù)距離。因此,從本質(zhì)上來講典型相關(guān)分析算法是基于最小化兩個視角的匹配的數(shù)據(jù)對之間的L_2范數(shù)距離的算法。然而,L_2范數(shù)可能會造成給予距離較大的數(shù)據(jù)對較大的權(quán)重,而距離較小的數(shù)據(jù)對較小的權(quán)重。在相關(guān)分析算法中距離較小的匹配數(shù)據(jù)對應該具有更大的權(quán)重,因此這一問題可能會降低典型相關(guān)分析算法的最終的性能。同時在噪聲存在的情況下,L_2范數(shù)也可能會放大噪聲,這一問題會進一步降低典型相關(guān)分析算法的性能。為了解決這一問題,提出一種特征融合方法—基于L_1范數(shù)的典型相關(guān)分析算法。針對不同的問題,并提出了三種該算法的擴展算法。
【學位授予單位】:南京理工大學
【學位級別】:博士
【學位授予年份】:2016
【分類號】:TP391.4
【參考文獻】
相關(guān)期刊論文 前1條
1 張振躍,查宏遠;Principal Manifolds and Nonlinear Dimensionality Reduction via Tangent Space Alignment[J];Journal of Shanghai University;2004年04期
,本文編號:1328660
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/1328660.html
最近更新
教材專著