天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于注意力與上下文關(guān)聯(lián)的多標(biāo)簽圖像分類研究

發(fā)布時(shí)間:2021-10-10 09:43
  隨著互聯(lián)網(wǎng)的發(fā)展,多媒體數(shù)據(jù)不斷增長(zhǎng)。對(duì)大規(guī)模多媒體數(shù)據(jù)進(jìn)行分類是一項(xiàng)極具挑戰(zhàn)性的任務(wù),重要原因之一是多媒體數(shù)據(jù)可以同時(shí)屬于多個(gè)類別。在多媒體數(shù)據(jù)中,圖像占有很大的比重,因此,多標(biāo)簽圖像分類受到越來(lái)越多的重視。在多標(biāo)簽圖像分類中,圖像可以有多個(gè)類別標(biāo)簽。現(xiàn)有的多標(biāo)簽圖像分類方法主要存在兩個(gè)問(wèn)題:第一個(gè)問(wèn)題是沒(méi)有考慮圖像中上下文關(guān)聯(lián)關(guān)系,而利用類別標(biāo)簽之間的關(guān)系可以提升分類性能;第二個(gè)問(wèn)題是忽略了圖像中的空間信息,導(dǎo)致類別標(biāo)簽與圖像區(qū)域產(chǎn)生錯(cuò)誤關(guān)聯(lián)的問(wèn)題。為了解決這些問(wèn)題,本文提出了三種多標(biāo)簽圖像分類方法。本文的主要研究?jī)?nèi)容如下:首先,針對(duì)忽略圖像中的空間信息問(wèn)題,本文提出一種基于注意力機(jī)制的多標(biāo)簽圖像分類模型。該模型使用Res Net提取特征,并使用CNN為每一個(gè)類別標(biāo)簽生成對(duì)應(yīng)的注意力圖,然后使用注意力圖對(duì)特征圖進(jìn)行加權(quán),最后使用加權(quán)特征圖進(jìn)行分類。實(shí)驗(yàn)結(jié)果表明,模型能主動(dòng)關(guān)注類別標(biāo)簽對(duì)應(yīng)圖像區(qū)域,進(jìn)而增強(qiáng)分類效果。其次,為了更好的利用標(biāo)簽之間的關(guān)系,本文提出一種基于STN和LSTM的多標(biāo)簽圖像分類模型。所提出的模型使用VGG提取特征,然后使用STN實(shí)現(xiàn)注意力機(jī)制,最后使用LSTM獲... 

【文章來(lái)源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校

【文章頁(yè)數(shù)】:68 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于注意力與上下文關(guān)聯(lián)的多標(biāo)簽圖像分類研究


殘差結(jié)構(gòu)[14]

示意圖,示意圖,特征圖,轉(zhuǎn)換矩陣


哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文-25-然后,網(wǎng)格生成器根據(jù)輸入圖像的大小以及進(jìn)行仿射變換的變換參數(shù)生成目標(biāo)位置在輸入圖像U中對(duì)應(yīng)的位置,如式(3-7)所示。111213111213212223212223,=1tsiitsiixxyy=M(3-7)其中,(,)ssiixy是原圖像的坐標(biāo)位置,(,)ttiixy是目標(biāo)圖像的坐標(biāo)位置,M是變換矩陣;最后,采樣器根據(jù)目標(biāo)在輸入圖像中的對(duì)應(yīng)位置利用雙線性插值得到最終的圖像。圖3-5STN示意圖[38]模型采用空間變換網(wǎng)絡(luò)直接從特征圖上提取候選區(qū)域,STN可以根據(jù)給定的大小對(duì)原始圖像實(shí)現(xiàn)裁剪、平移、縮放和旋轉(zhuǎn)操作。在本文的網(wǎng)絡(luò)模型中,轉(zhuǎn)換矩陣M是由后面設(shè)計(jì)的定位網(wǎng)絡(luò)計(jì)算產(chǎn)生,其中11和22控制大小,13和23控制位置。由于在分類過(guò)程中只需要裁剪操作,所以將其他參數(shù)硬性限制為0,如式(3-8)所示。111322230(,),=0tttattttst=ffMM(3-8)其中,st()表示空間轉(zhuǎn)換,tM是由第t-1次的迭代過(guò)程計(jì)算得到的變換矩陣。具體實(shí)施時(shí),本文并沒(méi)有選擇在定位網(wǎng)絡(luò)產(chǎn)生變換矩陣tM之后將11,13,22和23之外的參數(shù)置為0,而是直接讓定位網(wǎng)絡(luò)學(xué)習(xí)這4個(gè)參數(shù),這樣能避免不必要的計(jì)算并充分利用計(jì)算得到的信息。在第t次迭代時(shí),STN能夠根據(jù)當(dāng)前的轉(zhuǎn)換矩陣tM在特征圖af上提取部分區(qū)域以尋找特定目標(biāo),并利用雙線性插值后生成指定大小的特征圖tf。在第一次迭代時(shí),由于沒(méi)有可用信息,因此將整個(gè)特征圖af作為候選區(qū)域tf以尋找特征圖中目標(biāo)明顯的部分,此時(shí)的轉(zhuǎn)換矩陣如式(3-9)所示。

界面圖,圖像,界面,標(biāo)簽


哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文-48-5.2.1圖像標(biāo)注圖像標(biāo)注功能的實(shí)現(xiàn)關(guān)鍵是依賴訓(xùn)練好的網(wǎng)絡(luò)模型對(duì)圖像進(jìn)行分類,相比VOCPASCAL2007數(shù)據(jù)集,MSCOCO2014數(shù)據(jù)集中有更多的類別標(biāo)簽,這些類別標(biāo)簽含有常見(jiàn)的目標(biāo),因此系統(tǒng)使用在MSCOCO數(shù)據(jù)集上訓(xùn)練的模型實(shí)現(xiàn)圖像標(biāo)注功能。MSCOCO2014數(shù)據(jù)集中有80個(gè)常見(jiàn)的類別標(biāo)簽,模型輸出結(jié)果可以是這80個(gè)類別標(biāo)簽的任意組合。程序功能界面如圖5-2所示,用戶首先上傳圖像,再點(diǎn)擊預(yù)測(cè)按鈕便可以對(duì)圖像進(jìn)行標(biāo)注,標(biāo)注結(jié)果在圖像上方顯示。需要說(shuō)明的是,本文選取置信度中排名前10并且大于0.5的類別標(biāo)簽作為最終結(jié)果。圖5-2圖像標(biāo)注功能界面5.2.2圖像搜索圖像搜索功能不依賴訓(xùn)練好的網(wǎng)絡(luò)模型,主要根據(jù)用戶輸入的信息從數(shù)據(jù)庫(kù)檢索圖像。數(shù)據(jù)庫(kù)中存儲(chǔ)了MSCOCO2014數(shù)據(jù)集中所有的訓(xùn)練圖像,共82081幅圖像。用戶能從80個(gè)類別標(biāo)簽中任意組合作為搜索條件進(jìn)行搜索。程序功能界面如圖5-3所示,用戶首先輸入多個(gè)類別標(biāo)簽(也可以是一個(gè)類別標(biāo)簽),然后點(diǎn)擊搜索按鈕進(jìn)行搜索,搜索到的圖像在下方顯示。其中需要說(shuō)明的是,搜索得到的圖像關(guān)聯(lián)的類別標(biāo)簽可能多于用戶輸入的類別標(biāo)簽(包含用戶輸入的類別標(biāo)簽)。


本文編號(hào):3428134

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3428134.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶44e95***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com