半監(jiān)督排序的若干關(guān)鍵問題研究
發(fā)布時間:2019-09-18 02:48
【摘要】:排序是信息檢索領(lǐng)域的核心問題,在眾多應(yīng)用問題如搜索引擎、協(xié)同過濾、藥物發(fā)現(xiàn)與生物信息學(xué)中發(fā)揮著越來越重要的作用。排序旨在根據(jù)給定的訓(xùn)練樣本,返回一個反映樣本序關(guān)系的列表。由于當(dāng)前機(jī)器學(xué)習(xí)領(lǐng)域中支持向量機(jī)算法獲得的巨大成功,學(xué)習(xí)已經(jīng)成為解決排序問題的最重要的方法,排序?qū)W習(xí)成為了機(jī)器學(xué)習(xí)領(lǐng)域中繼分類與回歸之后涌現(xiàn)出來的學(xué)習(xí)問題與研究熱點(diǎn)。 然而,目前對排序?qū)W習(xí)的研究主要集中在監(jiān)督情形。而在現(xiàn)實(shí)應(yīng)用問題中,未標(biāo)記樣本的獲取比標(biāo)記樣本更廉價也更容易,我們往往面對的是少量標(biāo)記樣本和大量未標(biāo)記樣本共存的情形—即半監(jiān)督排序?qū)W習(xí)問題。因此本論文圍繞半監(jiān)督排序中的特征提取與模型設(shè)計分析兩個環(huán)節(jié)展開研究,主要貢獻(xiàn)如下: 1.針對當(dāng)前半監(jiān)督排序模型沒有考慮樣本標(biāo)記的值或樣本標(biāo)記的差分模度這一問題,提出了兩個半監(jiān)督排序模型:(a)基于圖的直推排序模型。我們基于圖相似性矩陣建立了半監(jiān)督排序模型,導(dǎo)出了閉式解,用其可得到未標(biāo)記樣本的評分。(b)基于圖的保留模度半監(jiān)督排序模型。利用最小二乘排序損失,我們證明了表示定理并推導(dǎo)出了該模型的閉式解,給出了推廣誤差的上界,證明了其推廣性能與圖的相似性矩陣之間有密切的關(guān)系。在推薦任務(wù)與量化構(gòu)效關(guān)系分析中的實(shí)驗(yàn)結(jié)果表明,該算法比許多主流的排序?qū)W習(xí)算法具有更好的性能。 2.針對當(dāng)前半監(jiān)督排序中可使用的核函數(shù)類型較少并且沒有考慮非線性特征的正交性這一問題,構(gòu)建了兩種不同的用于向量型輸入的Legendre核函數(shù):(a)基于正交Legendre多項式的正交Legendre核函數(shù)。(b)基于廣義Legendre多項式的廣義Legendre核函數(shù)。這些核函數(shù)確定的非線性映射的各個分量之間是彼此正交的,因此可以去除數(shù)據(jù)中的冗余。在一些公共數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,與已有的Chebyshev正交多項式核函數(shù)相比,使用了廣義Legendre核函數(shù)的支持向量機(jī)算法往往具有較少的支持向量、較高的穩(wěn)定性與更好的推廣性能。 3.針對可應(yīng)用于半監(jiān)督排序的常用特征提取方法—線性判別分析在現(xiàn)實(shí)應(yīng)用中碰到的小樣本容量問題,提出了兩種線性判別分析準(zhǔn)則:(a)加權(quán)和判別分析準(zhǔn)則。該準(zhǔn)則中同時考慮了兩種不同度量—類內(nèi)散度與類間相似性,其優(yōu)化模型的解最終歸結(jié)為一個特征分解問題。因此加權(quán)和判別分析準(zhǔn)則可以克服小樣本容量問題、提取出任意數(shù)量的特征,并在一些標(biāo)準(zhǔn)人臉數(shù)據(jù)集上獲得了較高的識別精度。(b)值域空間線性判別分析。它是一種兩階段判別準(zhǔn)則,在第一階段中將所有樣本投影到類間散度矩陣的值域空間中,然后再實(shí)施傳統(tǒng)的線性判別分析。與一些主流判別分析準(zhǔn)則相比,該準(zhǔn)則的識別精度具有可比性且計算效率較高。
【圖文】:
x115階正交Legendre核SVM在雙螺旋線數(shù)據(jù)集上的分們使用的數(shù)據(jù)集可在加州大學(xué)歐文分校的機(jī)epository) [135]中下載。此處的圖像分割數(shù)據(jù)集(I構(gòu)成:磚墻(brickface)、天空(sky)、枝葉(folia
?RL數(shù)據(jù)集由40個人每人10幅不同圖像一共400幅正面人臉圖像構(gòu)成,圖像包含了姿態(tài)、光照和面部表情(掙眼/閉眼,微笑/不笑)等各方面的變化以及面部細(xì)節(jié)(戴眼鏡/不戴眼鏡)。所有的圖像都是灰度圖像并被緊貼人臉剪切到了92x112像素。為減小計算量,所有圖像被進(jìn)一步縮放到46x56像素。對每個人,我們隨機(jī)選擇6幅圖像用于訓(xùn)練,,而剩下的4幅圖像則被用于測試。
【學(xué)位授予單位】:華中科技大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2014
【分類號】:O223
本文編號:2537252
【圖文】:
x115階正交Legendre核SVM在雙螺旋線數(shù)據(jù)集上的分們使用的數(shù)據(jù)集可在加州大學(xué)歐文分校的機(jī)epository) [135]中下載。此處的圖像分割數(shù)據(jù)集(I構(gòu)成:磚墻(brickface)、天空(sky)、枝葉(folia
?RL數(shù)據(jù)集由40個人每人10幅不同圖像一共400幅正面人臉圖像構(gòu)成,圖像包含了姿態(tài)、光照和面部表情(掙眼/閉眼,微笑/不笑)等各方面的變化以及面部細(xì)節(jié)(戴眼鏡/不戴眼鏡)。所有的圖像都是灰度圖像并被緊貼人臉剪切到了92x112像素。為減小計算量,所有圖像被進(jìn)一步縮放到46x56像素。對每個人,我們隨機(jī)選擇6幅圖像用于訓(xùn)練,,而剩下的4幅圖像則被用于測試。
【學(xué)位授予單位】:華中科技大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2014
【分類號】:O223
【參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 劉青山,盧漢清,馬頌德;綜述人臉識別中的子空間方法[J];自動化學(xué)報;2003年06期
本文編號:2537252
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2537252.html
最近更新
教材專著