天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

基于蒙特卡羅數(shù)據(jù)集均衡與魯棒性增量極限學習機的圖像自動標注

發(fā)布時間:2019-07-17 15:23
【摘要】:針對傳統(tǒng)圖像標注模型存在著訓練時間長、對低頻詞匯敏感等問題,該文提出了基于蒙特卡羅數(shù)據(jù)集均衡和魯棒性增量極限學習機的圖像自動標注模型.該模型首先對公共圖像庫的訓練集數(shù)據(jù)進行圖像自動分割,選擇分割后相應(yīng)的種子標注詞,并通過提出的基于綜合距離的圖像特征匹配算法進行自動匹配以形成不同類別的訓練集.針對公共數(shù)據(jù)庫中不同標注詞的數(shù)據(jù)規(guī)模相差較大,提出了蒙特卡羅數(shù)據(jù)集均衡算法使得各個標注詞間的數(shù)據(jù)規(guī)模大體一致.然后針對單一特征描述存在的不足,提出了多尺度特征融合算法對不同標注詞圖像進行有效的特征提取.最后針對傳統(tǒng)極限學習機存在的隱層節(jié)點隨機性和輸入向量權(quán)重一致性的問題,提出了魯棒性增量極限學習,提高了判別模型的準確性.通過在公共數(shù)據(jù)集上的實驗結(jié)果表明:該模型可以在很短時間內(nèi)實現(xiàn)圖像的自動標注,對低頻詞匯具有較強的魯棒性,并且在平均召回率、平均準確率、綜合值等多項指標上均高于現(xiàn)流行的大多數(shù)圖像自動標注模型.
文內(nèi)圖片:Core15k數(shù)據(jù)集均衡數(shù)與準確率.召回率的關(guān)系
圖片說明: 電子學報2017年從圖中可以看出,圖像庫中不同類別的標注詞之間所關(guān)聯(lián)的圖像集,其數(shù)據(jù)規(guī)模具有較大的差別,例如water標注詞與其關(guān)聯(lián)的圖像有1000多張,lake,crab等標注詞與其關(guān)聯(lián)的圖像只有10來張.相互之間的數(shù)據(jù)集規(guī)模相差從幾倍到上百倍不等,這樣想要構(gòu)建出一個合理的分類模型是相當困難的.例如在訓練集中出現(xiàn)詞頻較高的關(guān)鍵詞sky,water,people,tree往往能夠獲得較好的標注準確率和召回率,而在訓練集中詞頻出現(xiàn)較少的關(guān)鍵詞,,例如butterfly,crab甚至一次標注正確的都沒有.本文提出蒙特卡羅數(shù)據(jù)集均衡算法(MC-BDS),使得均衡之后的各個不同類別之間的數(shù)據(jù)集規(guī)模大致平衡或者之間差別較。疚牟捎眉訖(quán)復(fù)合特征距離作為圖像擴充的準則,以下為部分標注詞其加權(quán)復(fù)合特征距離的分布情況.表1不同標注詞的加權(quán)復(fù)合特征距離標注詞名稱加權(quán)復(fù)合特征距離下限加權(quán)復(fù)合特征距離上限city5.67826.9325bear11.635612.7411mountain6.82177.6452cat12.364113.2829sun9.241810.6722butterfly14.202516.7318lake10.632511.7187crab17.215018.6336hats13.370214.1923由表1可知:不同標注詞之間的加權(quán)復(fù)合特征距離具有一定差異性.有部分不同類別的標注詞之間的加權(quán)復(fù)合特征距離上限和下限可能會存在少部分的重疊,但是并不會影響到數(shù)據(jù)集的均衡擴充.其原因主要有以下兩點:(1)本文中提出的數(shù)據(jù)均衡擴充算法(MC-BDS),其擴充的數(shù)據(jù)的加權(quán)復(fù)合特征距離是均勻分布在其類別的下限和上限之間,不會集中在下限領(lǐng)域或者上限領(lǐng)域,因此能保證擴充之后的數(shù)據(jù)的特征距離,能夠較大程度上遠離重疊區(qū)域.(2)假設(shè)標注詞A的特征為XA={x1,x2…….xm},新樣本的特征的產(chǎn)生是基于原始樣本,也就是說新產(chǎn)生
文內(nèi)圖片:CorelSk教據(jù)集均衡數(shù)與召回數(shù)的關(guān)系
圖片說明: 電子學報2017年從圖中可以看出,圖像庫中不同類別的標注詞之間所關(guān)聯(lián)的圖像集,其數(shù)據(jù)規(guī)模具有較大的差別,例如water標注詞與其關(guān)聯(lián)的圖像有1000多張,lake,crab等標注詞與其關(guān)聯(lián)的圖像只有10來張.相互之間的數(shù)據(jù)集規(guī)模相差從幾倍到上百倍不等,這樣想要構(gòu)建出一個合理的分類模型是相當困難的.例如在訓練集中出現(xiàn)詞頻較高的關(guān)鍵詞sky,water,people,tree往往能夠獲得較好的標注準確率和召回率,而在訓練集中詞頻出現(xiàn)較少的關(guān)鍵詞,例如butterfly,crab甚至一次標注正確的都沒有.本文提出蒙特卡羅數(shù)據(jù)集均衡算法(MC-BDS),使得均衡之后的各個不同類別之間的數(shù)據(jù)集規(guī)模大致平衡或者之間差別較。疚牟捎眉訖(quán)復(fù)合特征距離作為圖像擴充的準則,以下為部分標注詞其加權(quán)復(fù)合特征距離的分布情況.表1不同標注詞的加權(quán)復(fù)合特征距離標注詞名稱加權(quán)復(fù)合特征距離下限加權(quán)復(fù)合特征距離上限city5.67826.9325bear11.635612.7411mountain6.82177.6452cat12.364113.2829sun9.241810.6722butterfly14.202516.7318lake10.632511.7187crab17.215018.6336hats13.370214.1923由表1可知:不同標注詞之間的加權(quán)復(fù)合特征距離具有一定差異性.有部分不同類別的標注詞之間的加權(quán)復(fù)合特征距離上限和下限可能會存在少部分的重疊,但是并不會影響到數(shù)據(jù)集的均衡擴充.其原因主要有以下兩點:(1)本文中提出的數(shù)據(jù)均衡擴充算法(MC-BDS),其擴充的數(shù)據(jù)的加權(quán)復(fù)合特征距離是均勻分布在其類別的下限和上限之間,不會集中在下限領(lǐng)域或者上限領(lǐng)域,因此能保證擴充之后的數(shù)據(jù)的特征距離,能夠較大程度上遠離重疊區(qū)域.(2)假設(shè)標注詞A的特征為XA={x1,x2…….xm},新樣本的特征的產(chǎn)生是基于原始樣本,也就是說新產(chǎn)生
【作者單位】: 福州大學數(shù)學與計算機科學學院;福建省網(wǎng)絡(luò)計算與智能信息處理重點實驗室(福州大學);
【基金】:國家自然科學基金(No.61502105) 福建省科技引導性項目(No.2017H0015) 福建省中青年教師教育科研項目(No.JA15075)
【分類號】:TP18;TP391.41

【相似文獻】

相關(guān)期刊論文 前10條

1 張學軍;郭建;;圖像紋理分析的方法與應(yīng)用[J];黑龍江科技信息;2009年16期

2 孟勇,洪丹輝,毛丹;測度熵在圖像紋理分析中的應(yīng)用[J];計算機應(yīng)用與軟件;2000年08期

3 吳濤;秦昆;;圖像紋理特征數(shù)據(jù)挖掘的理論與方法探討[J];計算機時代;2006年08期

4 方玲玲;王相海;;圖像挖掘研究[J];計算機科學;2009年08期

5 劉勇,施萬昌,徐玉蘭;圖像差異的分析與識別[J];復(fù)旦學報(自然科學版);2000年05期

6 羅l

本文編號:2515513


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2515513.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶3cb98***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com