無監(jiān)督與半監(jiān)督降維相關(guān)問題研究
本文選題:降維 切入點(diǎn):特征提取 出處:《南京航空航天大學(xué)》2016年博士論文 論文類型:學(xué)位論文
【摘要】:隨著科學(xué)技術(shù)的發(fā)展,模式識(shí)別在越來越多的社會(huì)活動(dòng)中扮演重要角色,常見的有文本數(shù)據(jù)識(shí)別、人臉圖像識(shí)別、遙感圖像識(shí)別、生物信息識(shí)別等。與此同時(shí),高維數(shù)據(jù)的出現(xiàn)也給模式識(shí)別帶來巨大的挑戰(zhàn),主要體現(xiàn)在計(jì)算復(fù)雜度高并且識(shí)別結(jié)果不令人滿意。降維作為高維數(shù)據(jù)處理的關(guān)鍵研究問題之一,將原始高維數(shù)據(jù)由高維空間以某種方式映射到低維空間上的過程,能夠抽取得到對(duì)數(shù)據(jù)識(shí)別有意義的重要特征,移除特征集中不相關(guān)和冗余的特征。盡管降維的研究已取得豐富的成果,但是當(dāng)前許多實(shí)際問題中的數(shù)據(jù)呈現(xiàn)高維度、大數(shù)據(jù)量、類別標(biāo)記缺失等特點(diǎn),降維技術(shù)仍需通過對(duì)現(xiàn)有方法進(jìn)行完善或探索新的理論方法以獲得進(jìn)一步的發(fā)展。本文主要貢獻(xiàn)和研究?jī)?nèi)容包括如下四個(gè)方面:(1)針對(duì)類別標(biāo)記不完整的數(shù)據(jù)集上的特征提取問題,如類別標(biāo)記信息的利用、多模態(tài)分布的相似數(shù)據(jù)距離度量,提出重構(gòu)概率類的半監(jiān)督局部線性判別分析。該方法中的重構(gòu)概率類賦予每一個(gè)無類別標(biāo)記數(shù)據(jù)所屬類別的概率,這一類別由該數(shù)據(jù)的最鄰近有類別標(biāo)記數(shù)據(jù)確定,進(jìn)而實(shí)現(xiàn)降維過程中有標(biāo)記數(shù)據(jù)和無標(biāo)記數(shù)據(jù)的充分融合。類間散度矩陣和類內(nèi)散度矩陣計(jì)算中引入差異化的數(shù)據(jù)對(duì)象距離的權(quán)重,使得多模態(tài)分布的數(shù)據(jù)由高維空間映射到低維空間時(shí),類間數(shù)據(jù)對(duì)象盡可能地分離且類內(nèi)鄰近數(shù)據(jù)對(duì)象盡可能地緊湊。(2)針對(duì)無類別標(biāo)記數(shù)據(jù)上的特征之間相關(guān)性研究,提出基于信息理論的無監(jiān)督相關(guān)度增益度量,能夠有效地度量無類別標(biāo)記數(shù)據(jù)的特征重要性和特征之間相關(guān)性,避免無類別標(biāo)記數(shù)據(jù)特征選擇過程中多次迭代地執(zhí)行學(xué)習(xí)算法以評(píng)估特征子集的重要性。無類別標(biāo)記數(shù)據(jù)的特征重要性定義為對(duì)應(yīng)特征與所有特征的平均互信息,并由推論得出在樸素貝葉斯條件下對(duì)應(yīng)特征的重要性可以最大化地逼近真實(shí)數(shù)據(jù)特征與潛在類別之間的相關(guān)性。(3)為了解決目前無監(jiān)督特征選擇方法中缺少有效的無監(jiān)督特征相關(guān)性度量、執(zhí)行效率偏低和易陷入局部最優(yōu)解等問題,提出兩種無監(jiān)督特征選擇方法,包括基于相關(guān)度增益和Markov blanket聚類的特征選擇和基于相關(guān)度增益和粒子群優(yōu)化的特征選擇。前者以特征為節(jié)點(diǎn)、相關(guān)度增益為權(quán)重邊構(gòu)建有向無環(huán)圖,由Markov blanket劃分有向無環(huán)圖實(shí)現(xiàn)冗余特征的聚類,從每個(gè)特征簇中選擇一個(gè)代表特征組成所選的特征子集。后者是在前者基礎(chǔ)上提出的一種粒子群優(yōu)化的啟發(fā)式特征選擇方法,粒子的隨機(jī)運(yùn)動(dòng)和多粒子的相互作用能夠避免特征選擇過早地陷入局部最優(yōu)解,進(jìn)而以更大概率獲得全局最優(yōu)解。(4)實(shí)際應(yīng)用中有類別標(biāo)記數(shù)據(jù)的獲取難度遠(yuǎn)大于無類別標(biāo)記數(shù)據(jù),在許多數(shù)據(jù)集中,只有少量的數(shù)據(jù)對(duì)象具有類別標(biāo)記信息。采用有監(jiān)督或無監(jiān)督特征選擇所取得的特征子集僅利用了數(shù)據(jù)集的部分信息,而舍去剩余的無類別標(biāo)記數(shù)據(jù)或已有類別標(biāo)記信息。針對(duì)這一問題,提出基于信息理論和相關(guān)度增益的半監(jiān)督代表特征選擇,通過一個(gè)平衡因子將有類別標(biāo)記數(shù)據(jù)特征的互信息和無類別標(biāo)記數(shù)據(jù)特征的相關(guān)度增益緊密地結(jié)合在一起,充分利用了整個(gè)數(shù)據(jù)集的信息來度量特征重要性和特征之間相關(guān)性。
[Abstract]:......
【學(xué)位授予單位】:南京航空航天大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.4
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 何一鳴;;無監(jiān)督的互聯(lián)網(wǎng)事件抽取框架[J];計(jì)算機(jī)工程與設(shè)計(jì);2011年03期
2 曹麗;陳才扣;;核無監(jiān)督鑒別投影及人臉識(shí)別[J];計(jì)算機(jī)工程與設(shè)計(jì);2009年15期
3 殷柏濤;一種改進(jìn)的無監(jiān)督競(jìng)爭(zhēng)學(xué)習(xí)算法[J];聲學(xué)與電子工程;1995年02期
4 郭小衛(wèi);官小平;;一種多尺度無監(jiān)督遙感圖像分割方法[J];遙感信息;2006年06期
5 楊斌;劉衛(wèi)國(guó);;一種基于聚類的無監(jiān)督異常檢測(cè)方法[J];計(jì)算機(jī)工程與應(yīng)用;2008年01期
6 孫懌;歐智堅(jiān);胡煒;;利用無監(jiān)督自適應(yīng)的興奮解說檢測(cè)和體育比賽精彩片斷提取[J];計(jì)算機(jī)應(yīng)用與軟件;2008年11期
7 曹蘇群;王駿;王士同;;正交約束的無監(jiān)督統(tǒng)計(jì)不相關(guān)最佳鑒別平面[J];計(jì)算機(jī)工程與科學(xué);2010年05期
8 黃璞;陳才扣;;增強(qiáng)的無監(jiān)督人臉鑒別技術(shù)[J];計(jì)算機(jī)工程與應(yīng)用;2010年18期
9 吳姍;倪志偉;羅賀;鄭盈盈;;一種基于密度的無監(jiān)督聯(lián)系發(fā)現(xiàn)方法[J];中國(guó)管理科學(xué);2008年S1期
10 朱琳;王宇杰;;信息瓶頸方法在無監(jiān)督圖像聚類中的研究[J];微計(jì)算機(jī)信息;2008年24期
相關(guān)會(huì)議論文 前10條
1 吳姍;倪志偉;羅賀;鄭盈盈;;一種基于密度的無監(jiān)督聯(lián)系發(fā)現(xiàn)方法[A];第十屆中國(guó)管理科學(xué)學(xué)術(shù)年會(huì)論文集[C];2008年
2 郭瑛媚;史曉東;陳毅東;高燕;;基于詞的話題分布相似度的無監(jiān)督日文旅游意見詞翻譯[A];機(jī)器翻譯研究進(jìn)展——第七屆全國(guó)機(jī)器翻譯研討會(huì)論文集[C];2011年
3 徐嘉明;張衛(wèi)強(qiáng);劉加;夏善紅;;基于無監(jiān)督遷移分量分析的語種識(shí)別[A];第十二屆全國(guó)人機(jī)語音通訊學(xué)術(shù)會(huì)議(NCMMSC'2013)論文集[C];2013年
4 洪宇;張劍峰;楊躍輝;姚建民;朱巧明;;基于文法特征的無監(jiān)督能愿詞挖掘方法研究[A];第六屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年
5 楊睿;山本博史;菊井玄一郎;S坂芳典;;針對(duì)統(tǒng)計(jì)機(jī)器翻譯的無監(jiān)督中文文本切分[A];第二屆全國(guó)學(xué)生計(jì)算語言學(xué)研討會(huì)論文集[C];2004年
6 張愛華;荊繼武;向繼;秦鈺;;基于規(guī)則化詞分布特征的無監(jiān)督特征選取算法[A];全國(guó)網(wǎng)絡(luò)與信息安全技術(shù)研討會(huì)論文集(上冊(cè))[C];2007年
7 王章輝;趙宇海;王國(guó)仁;李源;;一種基于投影聚類的無監(jiān)督表型區(qū)分算法[A];NDBC2010第27屆中國(guó)數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(B輯)[C];2010年
8 黃金虎;大衛(wèi);;無監(jiān)督下的詞切分和詞分類的試驗(yàn)(英文)[A];第一屆學(xué)生計(jì)算語言學(xué)研討會(huì)論文集[C];2002年
9 馬韜;陳杰;陳文頡;張博;;光纖陀螺信號(hào)降噪的無監(jiān)督自適應(yīng)濾波方法[A];第二十九屆中國(guó)控制會(huì)議論文集[C];2010年
10 潘霖;張雪英;吉根林;;一種基于Bootstrapping的中文領(lǐng)域術(shù)語獲取算法[A];中國(guó)通信學(xué)會(huì)第六屆學(xué)術(shù)年會(huì)論文集(上)[C];2009年
相關(guān)重要報(bào)紙文章 前3條
1 記者 雷輝 通訊員 張其明;督促推動(dòng)立法轉(zhuǎn)變政府職能[N];南方日?qǐng)?bào);2013年
2 王石川;蒙塵的象牙塔,,權(quán)力無監(jiān)督就會(huì)有腐敗[N];法制日?qǐng)?bào);2013年
3 山東 教師 王傳濤;無人查與不敢查 皆因權(quán)力無監(jiān)督[N];法制日?qǐng)?bào);2013年
相關(guān)博士學(xué)位論文 前3條
1 王寅同;無監(jiān)督與半監(jiān)督降維相關(guān)問題研究[D];南京航空航天大學(xué);2016年
2 楊波;圖驅(qū)動(dòng)的無監(jiān)督降維和判別子空間學(xué)習(xí)研究及其應(yīng)用[D];南京航空航天大學(xué);2010年
3 魏松;人機(jī)對(duì)話系統(tǒng)中若干關(guān)鍵問題研究[D];北京郵電大學(xué);2007年
相關(guān)碩士學(xué)位論文 前10條
1 王濤;基于領(lǐng)域知識(shí)監(jiān)督的商品方面提取[D];華南理工大學(xué);2015年
2 馬陳;基于無監(jiān)督摳圖模型的顯著性區(qū)域提取算法研究[D];合肥工業(yè)大學(xué);2014年
3 林樂平;基于無監(jiān)督的入侵檢測(cè)[D];西安電子科技大學(xué);2005年
4 孫勇亮;開放領(lǐng)域的中文實(shí)體無監(jiān)督關(guān)系抽取[D];華東師范大學(xué);2014年
5 谷平;基于關(guān)聯(lián)修正的無監(jiān)督入侵檢測(cè)算法研究[D];天津理工大學(xué);2014年
6 孫全力;一種無監(jiān)督的模式識(shí)別方法及其在油氣識(shí)別中的應(yīng)用[D];成都理工大學(xué);2003年
7 叢萬玉;基于無監(jiān)督的無線傳感器網(wǎng)絡(luò)入侵檢測(cè)技術(shù)研究[D];吉林大學(xué);2009年
8 王晶;無監(jiān)督的中文實(shí)體關(guān)系抽取研究[D];華東師范大學(xué);2012年
9 黃少群;基于譜回歸的無監(jiān)督特征選擇算法研究[D];廈門大學(xué);2014年
10 張志良;面向服務(wù)聚類的無監(jiān)督異常檢測(cè)技術(shù)研究[D];中南大學(xué);2009年
本文編號(hào):1595520
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/1595520.html