天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于雙注意力機(jī)制的圖像描述生成方法研究

發(fā)布時(shí)間:2021-04-09 18:34
  作為計(jì)算機(jī)視覺和自然語言處理的交叉領(lǐng)域,圖像描述生成近年來一直是一個(gè)活躍的研究課題,它的研究有助于多模態(tài)社交媒體從非結(jié)構(gòu)化圖像數(shù)據(jù)向結(jié)構(gòu)化文本數(shù)據(jù)的翻譯。傳統(tǒng)的研究工作提出了基于模板、基于檢索、基于編碼-解碼的圖像描述方法。在這些方法中,基于編碼-解碼框架的方法廣泛應(yīng)用于圖像描述生成,其中,編碼器采用深度卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)提取圖像特征,解碼器采用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)生成圖像描述。神經(jīng)圖像描述(Neural Image Caption,NIC)模型在生成圖像描述方面取得了良好的效果,但仍存在一些有待解決的問題。為了解決生成的句子描述中圖像信息缺乏和偏離圖像核心內(nèi)容的問題,本文提出的模型使用視覺注意力機(jī)制加強(qiáng)對(duì)圖像細(xì)節(jié)內(nèi)容的理解,采取文本注意力機(jī)制增強(qiáng)信息的完整性,并提出視覺注意力和文本注意力相結(jié)合的雙注意力機(jī)制指導(dǎo)圖像描述生成。為了解決生成的句子偏離圖像核心內(nèi)容的問題,本文在NIC模型基礎(chǔ)上,編碼端使用Inception_v4網(wǎng)絡(luò)提取圖像特征,解碼端引入視覺注意力機(jī)制添加到長... 

【文章來源】:武漢科技大學(xué)湖北省

【文章頁數(shù)】:54 頁

【學(xué)位級(jí)別】:碩士

【文章目錄】:
摘要
ABSTRACT
第1章 緒論
    1.1 研究背景及意義
    1.2 國內(nèi)外研究現(xiàn)狀
    1.3 本文主要內(nèi)容與創(chuàng)新點(diǎn)
    1.4 論文組織
第2章 數(shù)據(jù)預(yù)處理及相關(guān)知識(shí)
    2.1 圖像特征處理
        2.1.1 CNN
        2.1.2 圖像特征
    2.2 文本特征處理
        2.2.1 RNN
        2.2.2 基于FCN方法提取圖像標(biāo)簽
        2.2.3 基于主題模型提取圖像標(biāo)簽
        2.2.4 中文分詞及詞向量
    2.3 本章小結(jié)
第3章 基于雙注意力機(jī)制的圖像描述生成模型
    3.1 基于NICN模型的圖像描述生成框架
        3.1.1 NICN模型
        3.1.2 基于NICN模型的圖像描述生成
    3.2 基于視覺注意力機(jī)制的圖像描述生成框架
        3.2.1 視覺注意力機(jī)制
        3.2.2 基于視覺注意力機(jī)制的圖像描述生成
    3.3 基于文本注意力機(jī)制的圖像描述生成框架
        3.3.1 文本注意力機(jī)制
        3.3.2 基于文本注意力機(jī)制的圖像描述生成
    3.4 基于雙注意力機(jī)制的圖像描述生成框架
        3.4.1 NICNDA模型
        3.4.2 形式化
        3.4.3 基于雙注意力機(jī)制的LSTM
        3.4.4 基于FCN和雙注意力機(jī)制的圖像描述生成
    3.5 實(shí)驗(yàn)結(jié)果與分析
        3.5.1 AIC-ICC數(shù)據(jù)集
        3.5.2 實(shí)驗(yàn)評(píng)測指標(biāo)
        3.5.3 模型參數(shù)
        3.5.4 實(shí)驗(yàn)結(jié)果分析
    3.6 本章小結(jié)
第4章 基于雙注意力機(jī)制結(jié)合方式的圖像描述生成模型
    4.1 基于雙層LSTM和雙注意力機(jī)制的結(jié)合方式
    4.2 基于FCN、雙層LSTM和雙注意力機(jī)制的圖像描述生成框架
        4.2.1 NICNVA2TA2 模型
        4.2.2 基于NICNVA2TA2 模型的圖像描述生成
    4.3 基于NMF主題模型、雙層LSTM和雙注意力機(jī)制的圖像描述生成框架
        4.3.1 NICNVATP模型
        4.3.2 基于NICNVATP模型的圖像描述生成
    4.4 實(shí)驗(yàn)結(jié)果與分析
        4.4.1 基于FCN和雙注意力機(jī)制的模型實(shí)驗(yàn)分析
        4.4.2 基于NMF主題模型和雙注意力機(jī)制的模型實(shí)驗(yàn)分析
    4.5 本章小結(jié)
第5章 結(jié)論與展望
    5.1 結(jié)論
    5.2 展望
致謝
參考文獻(xiàn)
附錄1 攻讀學(xué)位期間的研究成果


【參考文獻(xiàn)】:
期刊論文
[1]基于樞軸語言的圖像描述生成研究[J]. 張凱,李軍輝,周國棟.  中文信息學(xué)報(bào). 2019(03)
[2]基于深度學(xué)習(xí)的圖像語義分割方法綜述[J]. 田萱,王亮,丁琪.  軟件學(xué)報(bào). 2019(02)
[3]圖像的文本描述方法研究綜述[J]. 馬龍龍,韓先培,孫樂.  中文信息學(xué)報(bào). 2018(04)
[4]圖像語義相似性網(wǎng)絡(luò)的文本描述方法[J]. 劉暢,周向東,施伯樂.  計(jì)算機(jī)應(yīng)用與軟件. 2018(01)
[5]LSTM逐層多目標(biāo)優(yōu)化及多層概率融合的圖像描述[J]. 湯鵬杰,王瀚漓,許愷晟.  自動(dòng)化學(xué)報(bào). 2018(07)
[6]基于多模態(tài)神經(jīng)網(wǎng)絡(luò)的圖像中文摘要生成方法[J]. 劉澤宇,馬龍龍,吳健,孫樂.  中文信息學(xué)報(bào). 2017(06)
[7]融合注意力和動(dòng)態(tài)語義指導(dǎo)的圖像描述模型[J]. 張威,周治平.  計(jì)算機(jī)科學(xué)與探索. 2017(12)



本文編號(hào):3128115

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3128115.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d1152***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com