基于增強視覺特征的視覺問答研究

發(fā)布時間：2023-05-08 00:24

　　視覺問答是一個典型的多模態(tài)任務(wù),也是一個重要的研究課題,結(jié)合了計算機視覺和自然語言處理兩大領(lǐng)域,引起了人們的廣泛關(guān)注。這個任務(wù)需要同時對圖像和文本進行處理并將兩種數(shù)據(jù)融合,因此多模態(tài)特征的信息表示與融合在視覺問答任務(wù)中起著關(guān)鍵作用,基于此提出了許多解決方案。通過對已有模型的回顧與分析,這些模型在理解句子語義和關(guān)注圖像相關(guān)重點區(qū)域的能力上仍然存在一些不足,這影響了視覺問答模型的性能。有鑒于此,本文提出了增強的視覺特征,通過對圖像特征的改進使模型的整體性能得到提高。具體研究內(nèi)容如下:(1)提出了基于聯(lián)合注意力機制和增強視覺特征的多模態(tài)融合模型,實現(xiàn)了對于特征信息的細粒度表示。通過結(jié)合空間特征和對象特征的方式得到增強的視覺特征。此外,使用雙向長短期記憶網(wǎng)絡(luò)實現(xiàn)對問題本身的自注意力機制,并根據(jù)問題中的關(guān)鍵字來關(guān)注視覺特征中的重要區(qū)域。最后,以多模態(tài)可分解雙線性池化融合模型作為圖像和文本特征的融合模型。本文通過實現(xiàn)視覺問答任務(wù)驗證了所提出模型的有效性,并進行了大量的對比實驗與分析。實驗結(jié)果表明,通過與現(xiàn)有的多個基線模型和先進模型進行比較,該模型在GQA數(shù)據(jù)集上表現(xiàn)出了較為先進的性能,進而也證明了...

【文章頁數(shù)】：68 頁

【學位級別】：碩士

【文章目錄】：
摘要
abstract
1 緒論
    1.1 研究背景與意義
    1.2 研究現(xiàn)狀
    1.3 本文研究內(nèi)容
    1.4 本文結(jié)構(gòu)
2 多模態(tài)融合相關(guān)概念與算法描述
    2.1 多模態(tài)任務(wù)
        2.1.1 相關(guān)問答任務(wù)
        2.1.2 視覺問答
    2.2 循環(huán)神經(jīng)網(wǎng)絡(luò)及其變體
        2.2.1 循環(huán)神經(jīng)網(wǎng)絡(luò)
        2.2.2 長短期記憶網(wǎng)絡(luò)
        2.2.3 雙向長短期記憶網(wǎng)絡(luò)
    2.3 注意力機制
        2.3.1 Encoder-Decoder框架
        2.3.2 硬注意力機制
        2.3.3 軟注意力機制
        2.3.4 自注意力機制
    2.4 雙線性池化模型
    2.5 多模態(tài)融合模型
        2.5.1 聯(lián)合嵌入融合模型
        2.5.2 基于注意力機制的細粒度聯(lián)合嵌入融合模型
        2.5.3 基于聯(lián)合注意力機制的融合模型
    2.6 本章小結(jié)
3 融合圖像特征的增強視覺特征
    3.1 符號描述
    3.2 模型結(jié)構(gòu)
        3.2.1 增強的視覺特征
        3.2.2 模型中的自注意力機制
        3.2.3 模型中的融合方法
    3.3 目標函數(shù)
    3.4 實驗與分析
        3.4.1 實現(xiàn)細節(jié)
        3.4.2 實驗數(shù)據(jù)與評價指標
        3.4.3 實驗設(shè)置
        3.4.4 實驗對比與結(jié)果
        3.4.5 實驗分析
    3.5 本章小結(jié)
4 加入對象位置坐標信息的增強視覺特征
    4.1 符號描述
    4.2 模型結(jié)構(gòu)
        4.2.1 加入對象坐標位置信息
        4.2.2 深層堆疊模型
    4.3 目標函數(shù)
    4.4 實驗與分析
        4.4.1 實驗數(shù)據(jù)與評價指標
        4.4.2 實驗設(shè)置
        4.4.3 實驗對比與結(jié)果
    4.5 本章小結(jié)
5 總結(jié)與展望
    5.1 研究成果總結(jié)
    5.2 展望
參考文獻
附錄:攻讀學位期間發(fā)表的學術(shù)論文及參與項目
致謝

本文編號：3811620

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/shoufeilunwen/xixikjs/3811620.html

上一篇：水下無線傳感器網(wǎng)絡(luò)的數(shù)據(jù)匯聚MAC協(xié)議研究
下一篇：基于機器學習的安卓惡意應(yīng)用檢測系統(tǒng)的設(shè)計與實現(xiàn)

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于增強視覺特征的視覺問答研究