基于增強視覺特征的視覺問答研究
發(fā)布時間:2023-05-08 00:24
視覺問答是一個典型的多模態(tài)任務(wù),也是一個重要的研究課題,結(jié)合了計算機視覺和自然語言處理兩大領(lǐng)域,引起了人們的廣泛關(guān)注。這個任務(wù)需要同時對圖像和文本進行處理并將兩種數(shù)據(jù)融合,因此多模態(tài)特征的信息表示與融合在視覺問答任務(wù)中起著關(guān)鍵作用,基于此提出了許多解決方案。通過對已有模型的回顧與分析,這些模型在理解句子語義和關(guān)注圖像相關(guān)重點區(qū)域的能力上仍然存在一些不足,這影響了視覺問答模型的性能。有鑒于此,本文提出了增強的視覺特征,通過對圖像特征的改進使模型的整體性能得到提高。具體研究內(nèi)容如下:(1)提出了基于聯(lián)合注意力機制和增強視覺特征的多模態(tài)融合模型,實現(xiàn)了對于特征信息的細粒度表示。通過結(jié)合空間特征和對象特征的方式得到增強的視覺特征。此外,使用雙向長短期記憶網(wǎng)絡(luò)實現(xiàn)對問題本身的自注意力機制,并根據(jù)問題中的關(guān)鍵字來關(guān)注視覺特征中的重要區(qū)域。最后,以多模態(tài)可分解雙線性池化融合模型作為圖像和文本特征的融合模型。本文通過實現(xiàn)視覺問答任務(wù)驗證了所提出模型的有效性,并進行了大量的對比實驗與分析。實驗結(jié)果表明,通過與現(xiàn)有的多個基線模型和先進模型進行比較,該模型在GQA數(shù)據(jù)集上表現(xiàn)出了較為先進的性能,進而也證明了...
【文章頁數(shù)】:68 頁
【學位級別】:碩士
【文章目錄】:
摘要
abstract
1 緒論
1.1 研究背景與意義
1.2 研究現(xiàn)狀
1.3 本文研究內(nèi)容
1.4 本文結(jié)構(gòu)
2 多模態(tài)融合相關(guān)概念與算法描述
2.1 多模態(tài)任務(wù)
2.1.1 相關(guān)問答任務(wù)
2.1.2 視覺問答
2.2 循環(huán)神經(jīng)網(wǎng)絡(luò)及其變體
2.2.1 循環(huán)神經(jīng)網(wǎng)絡(luò)
2.2.2 長短期記憶網(wǎng)絡(luò)
2.2.3 雙向長短期記憶網(wǎng)絡(luò)
2.3 注意力機制
2.3.1 Encoder-Decoder框架
2.3.2 硬注意力機制
2.3.3 軟注意力機制
2.3.4 自注意力機制
2.4 雙線性池化模型
2.5 多模態(tài)融合模型
2.5.1 聯(lián)合嵌入融合模型
2.5.2 基于注意力機制的細粒度聯(lián)合嵌入融合模型
2.5.3 基于聯(lián)合注意力機制的融合模型
2.6 本章小結(jié)
3 融合圖像特征的增強視覺特征
3.1 符號描述
3.2 模型結(jié)構(gòu)
3.2.1 增強的視覺特征
3.2.2 模型中的自注意力機制
3.2.3 模型中的融合方法
3.3 目標函數(shù)
3.4 實驗與分析
3.4.1 實現(xiàn)細節(jié)
3.4.2 實驗數(shù)據(jù)與評價指標
3.4.3 實驗設(shè)置
3.4.4 實驗對比與結(jié)果
3.4.5 實驗分析
3.5 本章小結(jié)
4 加入對象位置坐標信息的增強視覺特征
4.1 符號描述
4.2 模型結(jié)構(gòu)
4.2.1 加入對象坐標位置信息
4.2.2 深層堆疊模型
4.3 目標函數(shù)
4.4 實驗與分析
4.4.1 實驗數(shù)據(jù)與評價指標
4.4.2 實驗設(shè)置
4.4.3 實驗對比與結(jié)果
4.5 本章小結(jié)
5 總結(jié)與展望
5.1 研究成果總結(jié)
5.2 展望
參考文獻
附錄:攻讀學位期間發(fā)表的學術(shù)論文及參與項目
致謝
本文編號:3811620
【文章頁數(shù)】:68 頁
【學位級別】:碩士
【文章目錄】:
摘要
abstract
1 緒論
1.1 研究背景與意義
1.2 研究現(xiàn)狀
1.3 本文研究內(nèi)容
1.4 本文結(jié)構(gòu)
2 多模態(tài)融合相關(guān)概念與算法描述
2.1 多模態(tài)任務(wù)
2.1.1 相關(guān)問答任務(wù)
2.1.2 視覺問答
2.2 循環(huán)神經(jīng)網(wǎng)絡(luò)及其變體
2.2.1 循環(huán)神經(jīng)網(wǎng)絡(luò)
2.2.2 長短期記憶網(wǎng)絡(luò)
2.2.3 雙向長短期記憶網(wǎng)絡(luò)
2.3 注意力機制
2.3.1 Encoder-Decoder框架
2.3.2 硬注意力機制
2.3.3 軟注意力機制
2.3.4 自注意力機制
2.4 雙線性池化模型
2.5 多模態(tài)融合模型
2.5.1 聯(lián)合嵌入融合模型
2.5.2 基于注意力機制的細粒度聯(lián)合嵌入融合模型
2.5.3 基于聯(lián)合注意力機制的融合模型
2.6 本章小結(jié)
3 融合圖像特征的增強視覺特征
3.1 符號描述
3.2 模型結(jié)構(gòu)
3.2.1 增強的視覺特征
3.2.2 模型中的自注意力機制
3.2.3 模型中的融合方法
3.3 目標函數(shù)
3.4 實驗與分析
3.4.1 實現(xiàn)細節(jié)
3.4.2 實驗數(shù)據(jù)與評價指標
3.4.3 實驗設(shè)置
3.4.4 實驗對比與結(jié)果
3.4.5 實驗分析
3.5 本章小結(jié)
4 加入對象位置坐標信息的增強視覺特征
4.1 符號描述
4.2 模型結(jié)構(gòu)
4.2.1 加入對象坐標位置信息
4.2.2 深層堆疊模型
4.3 目標函數(shù)
4.4 實驗與分析
4.4.1 實驗數(shù)據(jù)與評價指標
4.4.2 實驗設(shè)置
4.4.3 實驗對比與結(jié)果
4.5 本章小結(jié)
5 總結(jié)與展望
5.1 研究成果總結(jié)
5.2 展望
參考文獻
附錄:攻讀學位期間發(fā)表的學術(shù)論文及參與項目
致謝
本文編號:3811620
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3811620.html
最近更新
教材專著