面向半監(jiān)督流形正則化分類學(xué)習(xí)的改進(jìn)框架研究
發(fā)布時間:2022-01-27 03:22
半監(jiān)督分類學(xué)習(xí)是機器學(xué)習(xí)中一個重要研究領(lǐng)域,同時利用有標(biāo)記和無標(biāo)記樣本進(jìn)行學(xué)習(xí),以緩解樣本類標(biāo)記稀缺的問題。流形正則化(Manifold regularization,MR)是半監(jiān)督分類中一個經(jīng)典有效的學(xué)習(xí)框架,但仍存在以下不足:1)在MR中,已標(biāo)記樣本的位置是隨機的,可能處于邊界區(qū)域甚至相反類中,將這些樣本的標(biāo)記傳播到它們的近鄰樣本,可能會誤導(dǎo)MR分類,盡管學(xué)習(xí)中會同時考慮未標(biāo)記樣本的分布結(jié)構(gòu)。2)MR的平滑約束是基于所有樣本對實現(xiàn)的,即將每個樣本對看作一個單獨對象。然而,光滑性本質(zhì)是逐點的,具體來說,光滑性自然地發(fā)生在“每一點處”,體現(xiàn)每個樣本點與其近鄰點的相關(guān)聯(lián)行為。因此,本文的研究問題主要包括以下的兩個內(nèi)容:首先,為減少已標(biāo)記樣本極其稀缺或位置存在誤導(dǎo)時所產(chǎn)生的影響,對已標(biāo)記樣本集進(jìn)行擴充,提出一種新的標(biāo)記擴充的MR框架(Label-expanded Manifold Regularization for semi-supervised classification,LEMR)。在LEMR中,先利用聚類方法,如KFCM,發(fā)現(xiàn)每類中的高...
【文章來源】:南京郵電大學(xué)江蘇省
【文章頁數(shù)】:62 頁
【學(xué)位級別】:碩士
【部分圖文】:
針對現(xiàn)有的半監(jiān)督分類方法所大致整理的歸類圖
圖 2.1 聚類假設(shè)以及流形假設(shè)2.3 半監(jiān)督學(xué)習(xí)算法分類傳統(tǒng)的機器學(xué)習(xí)包括全監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。在全監(jiān)督學(xué)習(xí)方法中,僅僅利用有標(biāo)記樣本,在無監(jiān)督學(xué)習(xí)方法中,單單利用無標(biāo)記樣本。然而,一方面,全監(jiān)督學(xué)習(xí)只有在擁有大量的有標(biāo)記樣本時才能訓(xùn)練出泛化能力相對較優(yōu)的學(xué)習(xí)器。無監(jiān)督學(xué)習(xí)只利用無標(biāo)記樣本探索出樣本數(shù)據(jù)集中可能包含的結(jié)構(gòu),但是學(xué)習(xí)到的模型可能還不夠精確,最終導(dǎo)致性能低下。另一方面,在實際問題中,獲取無標(biāo)記樣本十分容易,然而收集依賴人工標(biāo)記的有標(biāo)記樣本卻非常艱難。所以,能夠同時利用少量的有標(biāo)記樣本以及大量的無標(biāo)記樣本的半監(jiān)督分類學(xué)習(xí)成為了機器學(xué)習(xí)領(lǐng)域中備受關(guān)注和研究探討的主題,半監(jiān)督學(xué)習(xí)能夠?qū)⒈O(jiān)督學(xué)習(xí)中的來自少量的有標(biāo)記樣本提供的監(jiān)督信息以及無監(jiān)督學(xué)習(xí)中的來自大量的無標(biāo)記樣本蘊含的結(jié)
由全監(jiān)督支持向量機發(fā)展而來的大間隔半監(jiān)督分類方法,它通過最大化已標(biāo)記樣本以及無標(biāo)記樣本的類間間隔,采用聚類假設(shè)將樣本數(shù)據(jù)進(jìn)行劃分為多個聚類,并且引導(dǎo)分類邊界處于數(shù)據(jù)分布的低密度區(qū)域中,最后通過獲得的邊界將樣本子集進(jìn)行劃分[37]。經(jīng)典的大間隔方法包括直推式支持向量機(Transductive Support Vector Machines,TSVM)[39]和半監(jiān)督 SVM(Semi-Supervised Support Vector Machine,S3VM)[41]。在全監(jiān)督SVM 中,訓(xùn)練集僅包含有標(biāo)記樣本,在學(xué)習(xí)的過程中,按照經(jīng)驗風(fēng)險最小化和間隔最大化的原則來尋找分類邊界。而在半監(jiān)督 SVM 中,訓(xùn)練集不僅包含有標(biāo)記樣本還包含大量的無標(biāo)記樣本,首先利用訓(xùn)練集中的已標(biāo)記樣本進(jìn)行學(xué)習(xí)獲得分類邊界,然后再不斷地調(diào)整無標(biāo)記樣本的預(yù)測標(biāo)簽以及懲罰參數(shù),使獲得的分類邊界能夠盡可能地從樣本分布相對稀疏的區(qū)域中穿過,并且使間隔最大化。圖 2.2 所示的,即全監(jiān)督 SVM 的分類超平面以及半監(jiān)督 SVM的分類超平面,其中“+”表示的是正類的已標(biāo)記樣本,“ ”表示的是負(fù)類的已標(biāo)記樣本,“o”表示的是無標(biāo)記樣本,實線表示的是分類超平面。
【參考文獻(xiàn)】:
期刊論文
[1]基于局部流形重構(gòu)的半監(jiān)督多視圖圖像分類[J]. 董西偉. 計算機工程與應(yīng)用. 2016(18)
[2]基于無監(jiān)督學(xué)習(xí)算法的推特文本規(guī)范化[J]. 鄧加原,姬東鴻,費超群,任亞峰. 計算機應(yīng)用. 2016(07)
[3]基于特征映射的半監(jiān)督文本分類算法[J]. 杜芳華,冀俊忠,趙學(xué)武,吳晨生. 北京工業(yè)大學(xué)學(xué)報. 2016(02)
[4]基于自然鄰居流形排序圖像檢索技術(shù)研究[J]. 朱慶生,陳治,張程. 計算機應(yīng)用研究. 2016(04)
[5]基于查詢—文檔異構(gòu)信息網(wǎng)絡(luò)的半監(jiān)督學(xué)習(xí)[J]. 劉鈺峰,李仁發(fā). 通信學(xué)報. 2014(08)
碩士論文
[1]半監(jiān)督支持向量機分類方法研究[D]. 陳永健.陜西師范大學(xué) 2014
本文編號:3611661
【文章來源】:南京郵電大學(xué)江蘇省
【文章頁數(shù)】:62 頁
【學(xué)位級別】:碩士
【部分圖文】:
針對現(xiàn)有的半監(jiān)督分類方法所大致整理的歸類圖
圖 2.1 聚類假設(shè)以及流形假設(shè)2.3 半監(jiān)督學(xué)習(xí)算法分類傳統(tǒng)的機器學(xué)習(xí)包括全監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。在全監(jiān)督學(xué)習(xí)方法中,僅僅利用有標(biāo)記樣本,在無監(jiān)督學(xué)習(xí)方法中,單單利用無標(biāo)記樣本。然而,一方面,全監(jiān)督學(xué)習(xí)只有在擁有大量的有標(biāo)記樣本時才能訓(xùn)練出泛化能力相對較優(yōu)的學(xué)習(xí)器。無監(jiān)督學(xué)習(xí)只利用無標(biāo)記樣本探索出樣本數(shù)據(jù)集中可能包含的結(jié)構(gòu),但是學(xué)習(xí)到的模型可能還不夠精確,最終導(dǎo)致性能低下。另一方面,在實際問題中,獲取無標(biāo)記樣本十分容易,然而收集依賴人工標(biāo)記的有標(biāo)記樣本卻非常艱難。所以,能夠同時利用少量的有標(biāo)記樣本以及大量的無標(biāo)記樣本的半監(jiān)督分類學(xué)習(xí)成為了機器學(xué)習(xí)領(lǐng)域中備受關(guān)注和研究探討的主題,半監(jiān)督學(xué)習(xí)能夠?qū)⒈O(jiān)督學(xué)習(xí)中的來自少量的有標(biāo)記樣本提供的監(jiān)督信息以及無監(jiān)督學(xué)習(xí)中的來自大量的無標(biāo)記樣本蘊含的結(jié)
由全監(jiān)督支持向量機發(fā)展而來的大間隔半監(jiān)督分類方法,它通過最大化已標(biāo)記樣本以及無標(biāo)記樣本的類間間隔,采用聚類假設(shè)將樣本數(shù)據(jù)進(jìn)行劃分為多個聚類,并且引導(dǎo)分類邊界處于數(shù)據(jù)分布的低密度區(qū)域中,最后通過獲得的邊界將樣本子集進(jìn)行劃分[37]。經(jīng)典的大間隔方法包括直推式支持向量機(Transductive Support Vector Machines,TSVM)[39]和半監(jiān)督 SVM(Semi-Supervised Support Vector Machine,S3VM)[41]。在全監(jiān)督SVM 中,訓(xùn)練集僅包含有標(biāo)記樣本,在學(xué)習(xí)的過程中,按照經(jīng)驗風(fēng)險最小化和間隔最大化的原則來尋找分類邊界。而在半監(jiān)督 SVM 中,訓(xùn)練集不僅包含有標(biāo)記樣本還包含大量的無標(biāo)記樣本,首先利用訓(xùn)練集中的已標(biāo)記樣本進(jìn)行學(xué)習(xí)獲得分類邊界,然后再不斷地調(diào)整無標(biāo)記樣本的預(yù)測標(biāo)簽以及懲罰參數(shù),使獲得的分類邊界能夠盡可能地從樣本分布相對稀疏的區(qū)域中穿過,并且使間隔最大化。圖 2.2 所示的,即全監(jiān)督 SVM 的分類超平面以及半監(jiān)督 SVM的分類超平面,其中“+”表示的是正類的已標(biāo)記樣本,“ ”表示的是負(fù)類的已標(biāo)記樣本,“o”表示的是無標(biāo)記樣本,實線表示的是分類超平面。
【參考文獻(xiàn)】:
期刊論文
[1]基于局部流形重構(gòu)的半監(jiān)督多視圖圖像分類[J]. 董西偉. 計算機工程與應(yīng)用. 2016(18)
[2]基于無監(jiān)督學(xué)習(xí)算法的推特文本規(guī)范化[J]. 鄧加原,姬東鴻,費超群,任亞峰. 計算機應(yīng)用. 2016(07)
[3]基于特征映射的半監(jiān)督文本分類算法[J]. 杜芳華,冀俊忠,趙學(xué)武,吳晨生. 北京工業(yè)大學(xué)學(xué)報. 2016(02)
[4]基于自然鄰居流形排序圖像檢索技術(shù)研究[J]. 朱慶生,陳治,張程. 計算機應(yīng)用研究. 2016(04)
[5]基于查詢—文檔異構(gòu)信息網(wǎng)絡(luò)的半監(jiān)督學(xué)習(xí)[J]. 劉鈺峰,李仁發(fā). 通信學(xué)報. 2014(08)
碩士論文
[1]半監(jiān)督支持向量機分類方法研究[D]. 陳永健.陜西師范大學(xué) 2014
本文編號:3611661
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3611661.html
最近更新
教材專著