基于多標簽數(shù)據(jù)的度量學習算法研究
發(fā)布時間:2021-09-01 02:37
近年來,隨著信息技術的發(fā)展,多標簽數(shù)據(jù)廣泛存在于現(xiàn)實世界中,因此多標簽學習成為了當前人工智能的主要研究熱點,在影像分類、多媒體圖像標注以及文本分類中得到廣泛應用。不同于傳統(tǒng)的每個樣本只和一個標簽有關的單標簽學習,多標簽學習每個樣本可能與多個類別信息有關,其中每個實例可以和一組標簽對應。通常多標簽數(shù)據(jù)含有大量的特征,這些特征可能包含冗余和噪聲,導致在學習過程中出現(xiàn)維度災難問題。使得多標簽學習問題相較于單標簽學習問題更加困難。如何從多標簽數(shù)據(jù)中提取有效特征,增強分類性能,具有重要的研究意義。同時,隨著數(shù)據(jù)規(guī)模的增大,獲取數(shù)據(jù)的標簽信息需要很大的代價。如何利用數(shù)據(jù)的幾何結(jié)構以及部分的標簽信息提升分類性能,也是一個需要研究的問題。本文將圍繞以上兩個問題展開深入分析以及研究,并提出一些新的模型和解決方案。本文的研究內(nèi)容主要從以下三個方面展開:(1)傳統(tǒng)的度量學習算法LMNN(Large Margin Nearest Neighbor)只能用于學習單標簽數(shù)據(jù)的度量矩陣。針對此問題,本文提出一種加權LMNN算法,將其應用于多標簽數(shù)據(jù)的度量矩陣學習。此外,作為一種線性度量學習方法,LMNN所學習的度量...
【文章來源】:華僑大學福建省
【文章頁數(shù)】:70 頁
【學位級別】:碩士
【部分圖文】:
單標簽和多標簽對比示例圖
14然后以作為相似度矩陣,應用拉普拉斯特征映射法對原始數(shù)據(jù)進行降維。3.2基于多標簽數(shù)據(jù)的加權大間隔最近鄰算法設,,…,是從低維流形上采樣的n個數(shù)據(jù)點構成的集合,其中。每個數(shù)據(jù)點與c個標簽相關聯(lián),我們用一個二進制向量表示的標簽信息,即如果屬于第j個類別,則1,否則0。不失一般性,假設前m個樣本為訓練樣本,對應的類別標簽分別為,,…,。基于多標簽數(shù)據(jù)的加權大間隔最近鄰算法(WeightedLargeMarginNearestNeighborAlgorithmBasedonMultiLabelData,WLMNN),該算法在保持每個樣本標簽信息的權值不變的情況下,最大化不同類別之間的距離,同時保持降維后的數(shù)據(jù)的幾何結(jié)構。圖3.1給出了WLMNN的流程圖。圖3.1WLMNN算法流程圖3.2.1算法模型本章針對現(xiàn)有算法在訓練集較少情況下性能較差的問題,提出了一種新的特征提取方法。該算法在保持每個樣本標簽信息的權值不變的情況下,最大化不同類別的距離,同時保持降維后的流形結(jié)構,因此當數(shù)據(jù)量很小時,所提算法性能依舊很好。該算法主要從以下三個方面考慮構造損失函數(shù),來學習一個線性映射函數(shù):將數(shù)據(jù)集映射到維空間。(1)保持數(shù)據(jù)的局部幾何結(jié)構。首先通過求解公式(3.3)的稀疏優(yōu)化模型,得到公式(3.6)發(fā)現(xiàn)數(shù)據(jù)的局部結(jié)構,然后定義如下代價函數(shù)來保持低維空間
30法只在RankingLoss上取得了整體最優(yōu)的結(jié)果,在其他的評價指標上,我們算法的結(jié)果都沒有取得整體上的最優(yōu)值。但是相比于基分類器ML-RR,在經(jīng)過我們算法降維后,結(jié)果都有所提升,說明了我們提出算法的有效性,同時也說明所提算法并不適用于ML-RR分類器。圖3.2Yeast不同訓練集個數(shù)下各個指標的結(jié)果圖3.2表示在Yeast數(shù)據(jù)集上,隨著訓練樣本量的增加,每個算法的評價指標的變化趨勢,從圖中可以看出,隨著訓練樣本的數(shù)量增加,所有算法的性能也越來越好。其中所提算法在訓練樣本量很少的時候,在各個指標上的結(jié)果都要比其他算法表現(xiàn)的更好,這是由于我們充分利用了未知標簽數(shù)據(jù)的幾何結(jié)構,使得所提算法WLMNN在樣本量很少的時候,表現(xiàn)的比其他算法更加優(yōu)越的性能,魯棒性也比其他算法要優(yōu)越。3.4本章小結(jié)本章我們提出一種基于多標簽數(shù)據(jù)的加權大間隔最近鄰算法,該算法可以解決多標簽數(shù)據(jù)的降維問題。和現(xiàn)有的多標簽降維算法算法相比,本章算法利用了數(shù)據(jù)的局部幾何信息,在對訓練樣本很少的情況也能達到很好的降維效果。最后,在6個數(shù)據(jù)集上的實驗結(jié)果表明,本文提出的算法WLMNN在以ML-KNN為基分類器上的結(jié)果要比其他的算法整體上性更加優(yōu)越。同時,由于
本文編號:3376113
【文章來源】:華僑大學福建省
【文章頁數(shù)】:70 頁
【學位級別】:碩士
【部分圖文】:
單標簽和多標簽對比示例圖
14然后以作為相似度矩陣,應用拉普拉斯特征映射法對原始數(shù)據(jù)進行降維。3.2基于多標簽數(shù)據(jù)的加權大間隔最近鄰算法設,,…,是從低維流形上采樣的n個數(shù)據(jù)點構成的集合,其中。每個數(shù)據(jù)點與c個標簽相關聯(lián),我們用一個二進制向量表示的標簽信息,即如果屬于第j個類別,則1,否則0。不失一般性,假設前m個樣本為訓練樣本,對應的類別標簽分別為,,…,。基于多標簽數(shù)據(jù)的加權大間隔最近鄰算法(WeightedLargeMarginNearestNeighborAlgorithmBasedonMultiLabelData,WLMNN),該算法在保持每個樣本標簽信息的權值不變的情況下,最大化不同類別之間的距離,同時保持降維后的數(shù)據(jù)的幾何結(jié)構。圖3.1給出了WLMNN的流程圖。圖3.1WLMNN算法流程圖3.2.1算法模型本章針對現(xiàn)有算法在訓練集較少情況下性能較差的問題,提出了一種新的特征提取方法。該算法在保持每個樣本標簽信息的權值不變的情況下,最大化不同類別的距離,同時保持降維后的流形結(jié)構,因此當數(shù)據(jù)量很小時,所提算法性能依舊很好。該算法主要從以下三個方面考慮構造損失函數(shù),來學習一個線性映射函數(shù):將數(shù)據(jù)集映射到維空間。(1)保持數(shù)據(jù)的局部幾何結(jié)構。首先通過求解公式(3.3)的稀疏優(yōu)化模型,得到公式(3.6)發(fā)現(xiàn)數(shù)據(jù)的局部結(jié)構,然后定義如下代價函數(shù)來保持低維空間
30法只在RankingLoss上取得了整體最優(yōu)的結(jié)果,在其他的評價指標上,我們算法的結(jié)果都沒有取得整體上的最優(yōu)值。但是相比于基分類器ML-RR,在經(jīng)過我們算法降維后,結(jié)果都有所提升,說明了我們提出算法的有效性,同時也說明所提算法并不適用于ML-RR分類器。圖3.2Yeast不同訓練集個數(shù)下各個指標的結(jié)果圖3.2表示在Yeast數(shù)據(jù)集上,隨著訓練樣本量的增加,每個算法的評價指標的變化趨勢,從圖中可以看出,隨著訓練樣本的數(shù)量增加,所有算法的性能也越來越好。其中所提算法在訓練樣本量很少的時候,在各個指標上的結(jié)果都要比其他算法表現(xiàn)的更好,這是由于我們充分利用了未知標簽數(shù)據(jù)的幾何結(jié)構,使得所提算法WLMNN在樣本量很少的時候,表現(xiàn)的比其他算法更加優(yōu)越的性能,魯棒性也比其他算法要優(yōu)越。3.4本章小結(jié)本章我們提出一種基于多標簽數(shù)據(jù)的加權大間隔最近鄰算法,該算法可以解決多標簽數(shù)據(jù)的降維問題。和現(xiàn)有的多標簽降維算法算法相比,本章算法利用了數(shù)據(jù)的局部幾何信息,在對訓練樣本很少的情況也能達到很好的降維效果。最后,在6個數(shù)據(jù)集上的實驗結(jié)果表明,本文提出的算法WLMNN在以ML-KNN為基分類器上的結(jié)果要比其他的算法整體上性更加優(yōu)越。同時,由于
本文編號:3376113
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3376113.html
最近更新
教材專著