基于稀疏重構(gòu)權(quán)的錯(cuò)誤標(biāo)注數(shù)據(jù)檢測(cè)方法
【圖文】:
10]提出的基于稀疏流形聚類嵌入模型和L1范數(shù)正則化的標(biāo)注錯(cuò)誤檢測(cè)SMCE_LED(SparseManifoldClusteringandEm-beddingforLabelingErrorsDetecting)。該方法有效地利用了數(shù)據(jù)集自身的數(shù)據(jù)結(jié)構(gòu),又結(jié)合數(shù)據(jù)集當(dāng)中部分已知的正確數(shù)據(jù)標(biāo)注,從而有效地檢測(cè)出數(shù)據(jù)集當(dāng)中的錯(cuò)誤標(biāo)注。然而實(shí)際獲取的訓(xùn)練數(shù)據(jù),往往無(wú)法或很難事先已知部分正確標(biāo)注數(shù)據(jù)。Figure1Basicflowchartofthealgorithm圖1本文算法的基本流程圖對(duì)此,本文提出一種新的錯(cuò)誤標(biāo)注數(shù)據(jù)檢測(cè)方法,在無(wú)法獲取已知部分正確標(biāo)注數(shù)據(jù)的情況下,實(shí)現(xiàn)對(duì)錯(cuò)誤標(biāo)注數(shù)據(jù)的自動(dòng)檢測(cè)。該方法通過(guò)求解帶L1-范數(shù)的最小二乘模型計(jì)算每個(gè)標(biāo)注數(shù)據(jù)的局部稀疏重構(gòu)權(quán),并利用稀疏重構(gòu)權(quán)計(jì)算每個(gè)標(biāo)注數(shù)據(jù)的置信度。通過(guò)尋找置信度曲線中最大曲率的位置,自適應(yīng)地劃分含錯(cuò)標(biāo)注數(shù)據(jù)集,實(shí)現(xiàn)對(duì)含錯(cuò)標(biāo)注數(shù)據(jù)集中錯(cuò)誤標(biāo)注的檢測(cè)。2基于稀疏重構(gòu)權(quán)的錯(cuò)誤標(biāo)注數(shù)據(jù)檢測(cè)2.1算法原理假設(shè)含錯(cuò)標(biāo)注數(shù)據(jù)集{x1,…,xN}可以分成c類,數(shù)據(jù)xi的標(biāo)注為ci∈{1,2,…,c},本文算法的目的是自適應(yīng)地檢測(cè)出數(shù)據(jù)集當(dāng)中錯(cuò)誤標(biāo)注的數(shù)據(jù)。在實(shí)際應(yīng)用當(dāng)中,數(shù)據(jù)通常分布或近似分布于一個(gè)低維流形;诹餍螌W(xué)習(xí)思想的假設(shè)[13],可以認(rèn)為每個(gè)數(shù)據(jù)點(diǎn)的局部鄰域具有線性結(jié)構(gòu);跀(shù)據(jù)點(diǎn)的局部鄰域,可以構(gòu)造其局部稀疏重構(gòu)權(quán)。當(dāng)數(shù)據(jù)點(diǎn)的鄰域包含異類標(biāo)注數(shù)據(jù)時(shí),異類標(biāo)注數(shù)據(jù)對(duì)數(shù)據(jù)點(diǎn)的重構(gòu)權(quán)值通常會(huì)很;诖爽F(xiàn)象,可以利用局部稀疏重構(gòu)權(quán)計(jì)算每個(gè)數(shù)據(jù)點(diǎn)的置信度。由于錯(cuò)誤標(biāo)注和正確標(biāo)注
Figure2Handwrittennumber1anditslocalneighborhoodimages圖2手寫數(shù)字1和其局部鄰域圖通過(guò)求解最小二乘問(wèn)題(2)可以計(jì)算重構(gòu)權(quán)值向量為{0.7385,0.4611,-0.12,-0.0976,0.018}。顯然,手寫數(shù)字7的權(quán)值明顯小于其它鄰域點(diǎn)的權(quán)值。為了進(jìn)一步降低異類標(biāo)注數(shù)據(jù)的權(quán)值,本文借鑒稀疏流形聚類嵌入SMCE(SparseManifoldClusteringandEmbedding)算法中的策略[15]。在最小二乘問(wèn)題(2)中引入wi的L1-范數(shù)正則項(xiàng),即:minwi‖Giwi‖22+λ‖Qiwi‖1s.t.eTkwi=1(3)其中,Qi∈Rk×k為一個(gè)對(duì)角正定矩陣,其對(duì)角元素為:qjj=‖xij-xi‖2∑xt∈Ni‖xt-xi‖2∈(0,1)(4)其中,xij為樣本點(diǎn)xi的第j個(gè)鄰域點(diǎn)。模型(3)的求解包含兩個(gè)步驟:(1)通過(guò)Lasso優(yōu)化算法求解mi=argminwi‖Giwi‖22+λ‖Qiwi‖1;(2)對(duì)mi進(jìn)行正則化,即w*i=mieTkmi。顯然,對(duì)mi的正則化處理不會(huì)改變它分量間的大小關(guān)系,但是對(duì)不同數(shù)據(jù)點(diǎn)的mi,正則化處理可能會(huì)改變權(quán)向量之間的大小關(guān)系。因此,,本文將基于mi而不是w*i設(shè)計(jì)流形離群點(diǎn)的檢測(cè)方法,對(duì)于mi,本文仍稱其為xi的稀疏重構(gòu)權(quán)向量。通常
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 盧漢清;劉靜;;基于圖學(xué)習(xí)的自動(dòng)圖像標(biāo)注[J];計(jì)算機(jī)學(xué)報(bào);2008年09期
2 劉崢;馬軍;;一種基于圖劃分和圖像搜索引擎的圖像標(biāo)注改善算法[J];計(jì)算機(jī)研究與發(fā)展;2011年07期
3 盧英;劉金義;高輝;路宏;;地圖中點(diǎn)狀要素標(biāo)注算法設(shè)計(jì)[J];計(jì)算機(jī)與數(shù)字工程;2006年05期
4 朱松豪;梁志偉;;基于半監(jiān)督學(xué)習(xí)模型的自動(dòng)圖片標(biāo)注研究[J];南京郵電大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年06期
5 李勁;張華;吳浩雄;向軍;辜希武;;基于社會(huì)標(biāo)注質(zhì)量的文本分類模型框架[J];計(jì)算機(jī)應(yīng)用;2012年05期
6 袁瑩;邵健;吳飛;莊越挺;;結(jié)合組稀疏效應(yīng)和多核學(xué)習(xí)的圖像標(biāo)注[J];軟件學(xué)報(bào);2012年09期
7 褚穎娜;廖敏;宋繼華;;一種基于統(tǒng)計(jì)的分詞標(biāo)注一體化方法[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2009年12期
8 虎曉紅;李炳軍;蘇曉珂;;基于敘詞查詢的圖像標(biāo)注方法[J];鄭州大學(xué)學(xué)報(bào)(理學(xué)版);2011年02期
9 舒燕;呂學(xué)強(qiáng);;搜索引擎日志短語(yǔ)標(biāo)注規(guī)范[J];中文信息學(xué)報(bào);2013年02期
10 邱澤宇;方全;;w;徐常勝;;基于區(qū)域上下文感知的圖像標(biāo)注[J];計(jì)算機(jī)學(xué)報(bào);2014年06期
相關(guān)會(huì)議論文 前5條
1 朱松豪;劉允才;;基于語(yǔ)義相似性的自動(dòng)圖片標(biāo)注研究[A];第四屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2008年
2 鄒煜;;新聞播音語(yǔ)言韻律標(biāo)注初探[A];第二屆全國(guó)學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2004年
3 姜文斌;王志洋;劉群;呂雅娟;;基于馬爾可夫間隔標(biāo)注的中文分詞算法[A];中國(guó)計(jì)算機(jī)語(yǔ)言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
4 滿正行;高璐;;藏語(yǔ)單語(yǔ)料庫(kù)分析及標(biāo)注探討[A];民族語(yǔ)言文字信息技術(shù)研究——第十一屆全國(guó)民族語(yǔ)言文字信息學(xué)術(shù)研討會(huì)論文集[C];2007年
5 徐琳宏;林鴻飛;;文本情感語(yǔ)料庫(kù)的構(gòu)建和分析[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
相關(guān)博士學(xué)位論文 前6條
1 芮曉光;真實(shí)世界環(huán)境下的自動(dòng)圖像標(biāo)注方法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2010年
2 劉凱鵬;社會(huì)性標(biāo)注關(guān)鍵技術(shù)及其在信息檢索中的應(yīng)用研究[D];哈爾濱工業(yè)大學(xué);2010年
3 汪萌;基于機(jī)器學(xué)習(xí)方法的視頻標(biāo)注研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2008年
4 鐘岑岑;基于上下文的音視頻標(biāo)注研究[D];北京交通大學(xué);2014年
5 燕楊;基于條件隨機(jī)場(chǎng)的醫(yī)學(xué)文本與圖像標(biāo)注模型構(gòu)建及應(yīng)用研究[D];吉林大學(xué);2015年
6 包勝華;基于Web的實(shí)體信息搜索與挖掘研究[D];上海交通大學(xué);2008年
相關(guān)碩士學(xué)位論文 前10條
1 李智;CAPP系統(tǒng)中智能動(dòng)態(tài)標(biāo)注方法的設(shè)計(jì)與實(shí)現(xiàn)[D];北京理工大學(xué);2016年
2 曾明明;基于圖像特征及上下文的圖像標(biāo)注算法研究與實(shí)現(xiàn)[D];電子科技大學(xué);2016年
3 何斯瓊;基于稀疏回歸模型的圖像標(biāo)注研究[D];浙江大學(xué);2010年
4 王上;地理信息系統(tǒng)中地圖標(biāo)注問(wèn)題的研究與實(shí)現(xiàn)[D];吉林大學(xué);2004年
5 周寧;融合標(biāo)注詞相關(guān)性信息的圖像語(yǔ)義標(biāo)注研究[D];復(fù)旦大學(xué);2009年
6 夏靜;基于社會(huì)標(biāo)注的主題分類及排序優(yōu)化方法研究[D];華中科技大學(xué);2011年
7 賈貝貝;基于文本的未標(biāo)注圖像檢索算法研究[D];南京大學(xué);2012年
8 趙勇;基于社會(huì)標(biāo)注的主題爬蟲研究[D];華中科技大學(xué);2009年
9 曹月;融合視覺與語(yǔ)義雙模態(tài)信息的自動(dòng)圖像標(biāo)注[D];北京理工大學(xué);2010年
10 王前程;自動(dòng)圖像標(biāo)注中基于局部泛化誤差模型的特征權(quán)重研究[D];華南理工大學(xué);2011年
本文編號(hào):2558300
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2558300.html