天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于視覺注意的圖像描述生成研究

發(fā)布時(shí)間:2021-01-04 23:31
  圖像描述生成是最近幾年來十分熱門的研究方向,是一個(gè)多模態(tài)的問題,包含了計(jì)算機(jī)視覺和自然語言處理兩大領(lǐng)域。本文通過模擬人類的注意力機(jī)制,研究提取視覺顯著特征的方法,最后借助編解碼框架生成圖像句子描述。本文首先研究多解碼器融合的注意力圖像描述生成模型,然后以此為基礎(chǔ),利用策略梯度對模型進(jìn)行優(yōu)化、利用區(qū)分性引導(dǎo)在優(yōu)化后的模型上研究相似圖像內(nèi)容的不同句子描述。在MSCOCO圖像描述數(shù)據(jù)集上的實(shí)驗(yàn)證明了論文研究的圖像描述方法的性能。本文主要研究內(nèi)容如下:1)針對現(xiàn)有圖像描述方法大多難以充分利用空間和目標(biāo)特征,導(dǎo)致圖像描述不足以反映圖像豐富內(nèi)容的問題,論文研究空間注意力和目標(biāo)注意力提取顯著特征,并將其分別引入到多層解碼器融合架構(gòu),提出基于多解碼器融合的注意力圖像描述生成方法。多層解碼器由全局解碼層、目標(biāo)解碼層和空間解碼層三層組成,并形成層層遞進(jìn)的解碼結(jié)構(gòu)。對于目標(biāo)注意力顯著特征是將空間整體特征、目標(biāo)特征以及全局解碼器隱藏狀態(tài)信息輸入到目標(biāo)注意力層生成的,然后將其輸入到目標(biāo)解碼器獲得局部目標(biāo)特征解碼;對于空間注意力顯著特征是將目標(biāo)整體特征、空間特征、目標(biāo)注意力特征以及目標(biāo)解碼器隱藏狀態(tài)信息輸入到空間... 

【文章來源】:蘇州大學(xué)江蘇省

【文章頁數(shù)】:59 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于視覺注意的圖像描述生成研究


圖2-1基于多解碼器融合的注意力圖書描述生成框架??

殘差圖,特征提取,殘差,圖像


基于視覺注意的圖像描述生成研宄?第二章基于多解碼器融合的注意力圖像描述生成方法??有16層,如圖2-2所示,它所提出的特征更加的魯棒,具有更強(qiáng)的表達(dá)能力。??微軟研宄所的何凱明等人[41]接著提出了?ResNet網(wǎng)絡(luò),訓(xùn)練了?152層的神經(jīng)網(wǎng)絡(luò),??取得了?2015年ImageNet分類任務(wù)的冠軍,同時(shí)參數(shù)比VGG網(wǎng)絡(luò)更低。ResNet創(chuàng)造??性的在網(wǎng)絡(luò)中加入了直連通層,如圖2-3所示,可以直接將輸入信息跳過一層或幾層??往下傳輸,從而解決信息傳遞的信息丟失以及由于模型太深帶來的梯度消失問題。論??文采用在ImageNet上預(yù)訓(xùn)練的ResNetlOl網(wǎng)絡(luò)結(jié)構(gòu)提取圖像空間特征,提取的是??ResNet網(wǎng)絡(luò)最后一層卷積層的特征,這一層特征既有一定語義信息,又能夠包含很多??的圖像空間特征。??■?■■■■■??〇?〇?^?n?〇?^?〇?〇?〇?^?〇?〇?〇?>*?o?n?o?^?t? ̄?c/5??I一?華華v?琴琴!卜>華學(xué)拳v?學(xué)華1?1一?華I華。?31??圖2-2?VGG?16結(jié)構(gòu)圖??X????Weight?layer??relu??Weight?layer??^4———??relu??圖2-3殘差塊結(jié)構(gòu)??2.2.2圖像目標(biāo)特征提取??圖像中有著豐富的目標(biāo)特征信息,這些特征信息對圖像描述中的目標(biāo)類的詞生成??具有不可或缺的幫助,而目標(biāo)檢測的發(fā)展使得目標(biāo)特征信息提取成為可能。目標(biāo)檢測??的任務(wù)是找出圖像中感興趣的目標(biāo),確定他們的位置,并將它們分類,但是由于各類??物體各有其特點(diǎn),并且對于計(jì)算機(jī)而言,很難確定圖像中目標(biāo)的高層語義信息和他們??11??

結(jié)構(gòu)圖,注意力,解碼器,結(jié)構(gòu)圖


基于視覺注意的圖像描述生成研究?第二章基于多解碼器融合的注意力圖像描述生成方法??卷積層??特征圖??Region?Proposal??Rol池化??邊框回歸?分類??圖2-4?Faster?R-CNN總體結(jié)構(gòu)圖??2.3多解碼器融合的注意力網(wǎng)絡(luò)??圖像描述生成是一個(gè)序列任務(wù),對于t時(shí)刻,要生成單詞vvt可以通過條件概率??,1^4,1)來表示,其中I為圖像特征。它的輸入為圖像以及當(dāng)前時(shí)刻的詞向??量,如何能夠從復(fù)雜的圖像特征中抽取有用的信息成為關(guān)鍵因素之一。注意力機(jī)制的??本質(zhì)為計(jì)算特征的概率分布,并對特征進(jìn)行加權(quán)求和,獲得注意力特征圖,對于所需??要的顯著特征賦予更大的權(quán)值。本章使用了兩種注意力機(jī)制來過濾圖像中的噪聲,一??種稱之為空間注意力機(jī)制,一種稱之為目標(biāo)注意力機(jī)制,并且通過這兩種注意力機(jī)制??得到顯著特征輸入多層解碼器融合架構(gòu)中解碼。本章使用三層LSTM解碼器進(jìn)行解??碼,第-層LSTM解碼器為全局解碼器(Global?LSTM),獲取關(guān)聯(lián)之前單詞的整體??上的一個(gè)特征表達(dá),這一層LSTM獲得特征比較粗糙。第二層LSTM稱之為目標(biāo)解??碼器(Object?LSTM),主要解碼的是目標(biāo)注意力特征。第三層LSTM稱之為空間解碼??器(Spatial?LSTM),主要解碼的是空間注意力特征,最終將三層LSTM的隱藏狀態(tài)??輸入到一個(gè)全連接層進(jìn)行融合,輸入到softmax中進(jìn)行分類。本小節(jié)將首先介紹主流??的編解碼結(jié)構(gòu),然后介紹使用的空間注意力層和目標(biāo)注意力層提取顯著特征過程,然??后詳細(xì)講述多層解碼器融合架構(gòu)的解碼過程。??13??

【參考文獻(xiàn)】:
期刊論文
[1]深度強(qiáng)化學(xué)習(xí)綜述[J]. 劉全,翟建偉,章宗長,鐘珊,周倩,章鵬,徐進(jìn).  計(jì)算機(jī)學(xué)報(bào). 2018(01)



本文編號:2957560

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/2957560.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶1dcc5***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com