基于增強(qiáng)視覺特征的視覺問答研究
發(fā)布時(shí)間:2023-05-08 00:24
視覺問答是一個(gè)典型的多模態(tài)任務(wù),也是一個(gè)重要的研究課題,結(jié)合了計(jì)算機(jī)視覺和自然語(yǔ)言處理兩大領(lǐng)域,引起了人們的廣泛關(guān)注。這個(gè)任務(wù)需要同時(shí)對(duì)圖像和文本進(jìn)行處理并將兩種數(shù)據(jù)融合,因此多模態(tài)特征的信息表示與融合在視覺問答任務(wù)中起著關(guān)鍵作用,基于此提出了許多解決方案。通過對(duì)已有模型的回顧與分析,這些模型在理解句子語(yǔ)義和關(guān)注圖像相關(guān)重點(diǎn)區(qū)域的能力上仍然存在一些不足,這影響了視覺問答模型的性能。有鑒于此,本文提出了增強(qiáng)的視覺特征,通過對(duì)圖像特征的改進(jìn)使模型的整體性能得到提高。具體研究?jī)?nèi)容如下:(1)提出了基于聯(lián)合注意力機(jī)制和增強(qiáng)視覺特征的多模態(tài)融合模型,實(shí)現(xiàn)了對(duì)于特征信息的細(xì)粒度表示。通過結(jié)合空間特征和對(duì)象特征的方式得到增強(qiáng)的視覺特征。此外,使用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)問題本身的自注意力機(jī)制,并根據(jù)問題中的關(guān)鍵字來關(guān)注視覺特征中的重要區(qū)域。最后,以多模態(tài)可分解雙線性池化融合模型作為圖像和文本特征的融合模型。本文通過實(shí)現(xiàn)視覺問答任務(wù)驗(yàn)證了所提出模型的有效性,并進(jìn)行了大量的對(duì)比實(shí)驗(yàn)與分析。實(shí)驗(yàn)結(jié)果表明,通過與現(xiàn)有的多個(gè)基線模型和先進(jìn)模型進(jìn)行比較,該模型在GQA數(shù)據(jù)集上表現(xiàn)出了較為先進(jìn)的性能,進(jìn)而也證明了...
【文章頁(yè)數(shù)】:68 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
1 緒論
1.1 研究背景與意義
1.2 研究現(xiàn)狀
1.3 本文研究?jī)?nèi)容
1.4 本文結(jié)構(gòu)
2 多模態(tài)融合相關(guān)概念與算法描述
2.1 多模態(tài)任務(wù)
2.1.1 相關(guān)問答任務(wù)
2.1.2 視覺問答
2.2 循環(huán)神經(jīng)網(wǎng)絡(luò)及其變體
2.2.1 循環(huán)神經(jīng)網(wǎng)絡(luò)
2.2.2 長(zhǎng)短期記憶網(wǎng)絡(luò)
2.2.3 雙向長(zhǎng)短期記憶網(wǎng)絡(luò)
2.3 注意力機(jī)制
2.3.1 Encoder-Decoder框架
2.3.2 硬注意力機(jī)制
2.3.3 軟注意力機(jī)制
2.3.4 自注意力機(jī)制
2.4 雙線性池化模型
2.5 多模態(tài)融合模型
2.5.1 聯(lián)合嵌入融合模型
2.5.2 基于注意力機(jī)制的細(xì)粒度聯(lián)合嵌入融合模型
2.5.3 基于聯(lián)合注意力機(jī)制的融合模型
2.6 本章小結(jié)
3 融合圖像特征的增強(qiáng)視覺特征
3.1 符號(hào)描述
3.2 模型結(jié)構(gòu)
3.2.1 增強(qiáng)的視覺特征
3.2.2 模型中的自注意力機(jī)制
3.2.3 模型中的融合方法
3.3 目標(biāo)函數(shù)
3.4 實(shí)驗(yàn)與分析
3.4.1 實(shí)現(xiàn)細(xì)節(jié)
3.4.2 實(shí)驗(yàn)數(shù)據(jù)與評(píng)價(jià)指標(biāo)
3.4.3 實(shí)驗(yàn)設(shè)置
3.4.4 實(shí)驗(yàn)對(duì)比與結(jié)果
3.4.5 實(shí)驗(yàn)分析
3.5 本章小結(jié)
4 加入對(duì)象位置坐標(biāo)信息的增強(qiáng)視覺特征
4.1 符號(hào)描述
4.2 模型結(jié)構(gòu)
4.2.1 加入對(duì)象坐標(biāo)位置信息
4.2.2 深層堆疊模型
4.3 目標(biāo)函數(shù)
4.4 實(shí)驗(yàn)與分析
4.4.1 實(shí)驗(yàn)數(shù)據(jù)與評(píng)價(jià)指標(biāo)
4.4.2 實(shí)驗(yàn)設(shè)置
4.4.3 實(shí)驗(yàn)對(duì)比與結(jié)果
4.5 本章小結(jié)
5 總結(jié)與展望
5.1 研究成果總結(jié)
5.2 展望
參考文獻(xiàn)
附錄:攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文及參與項(xiàng)目
致謝
本文編號(hào):3811620
【文章頁(yè)數(shù)】:68 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
1 緒論
1.1 研究背景與意義
1.2 研究現(xiàn)狀
1.3 本文研究?jī)?nèi)容
1.4 本文結(jié)構(gòu)
2 多模態(tài)融合相關(guān)概念與算法描述
2.1 多模態(tài)任務(wù)
2.1.1 相關(guān)問答任務(wù)
2.1.2 視覺問答
2.2 循環(huán)神經(jīng)網(wǎng)絡(luò)及其變體
2.2.1 循環(huán)神經(jīng)網(wǎng)絡(luò)
2.2.2 長(zhǎng)短期記憶網(wǎng)絡(luò)
2.2.3 雙向長(zhǎng)短期記憶網(wǎng)絡(luò)
2.3 注意力機(jī)制
2.3.1 Encoder-Decoder框架
2.3.2 硬注意力機(jī)制
2.3.3 軟注意力機(jī)制
2.3.4 自注意力機(jī)制
2.4 雙線性池化模型
2.5 多模態(tài)融合模型
2.5.1 聯(lián)合嵌入融合模型
2.5.2 基于注意力機(jī)制的細(xì)粒度聯(lián)合嵌入融合模型
2.5.3 基于聯(lián)合注意力機(jī)制的融合模型
2.6 本章小結(jié)
3 融合圖像特征的增強(qiáng)視覺特征
3.1 符號(hào)描述
3.2 模型結(jié)構(gòu)
3.2.1 增強(qiáng)的視覺特征
3.2.2 模型中的自注意力機(jī)制
3.2.3 模型中的融合方法
3.3 目標(biāo)函數(shù)
3.4 實(shí)驗(yàn)與分析
3.4.1 實(shí)現(xiàn)細(xì)節(jié)
3.4.2 實(shí)驗(yàn)數(shù)據(jù)與評(píng)價(jià)指標(biāo)
3.4.3 實(shí)驗(yàn)設(shè)置
3.4.4 實(shí)驗(yàn)對(duì)比與結(jié)果
3.4.5 實(shí)驗(yàn)分析
3.5 本章小結(jié)
4 加入對(duì)象位置坐標(biāo)信息的增強(qiáng)視覺特征
4.1 符號(hào)描述
4.2 模型結(jié)構(gòu)
4.2.1 加入對(duì)象坐標(biāo)位置信息
4.2.2 深層堆疊模型
4.3 目標(biāo)函數(shù)
4.4 實(shí)驗(yàn)與分析
4.4.1 實(shí)驗(yàn)數(shù)據(jù)與評(píng)價(jià)指標(biāo)
4.4.2 實(shí)驗(yàn)設(shè)置
4.4.3 實(shí)驗(yàn)對(duì)比與結(jié)果
4.5 本章小結(jié)
5 總結(jié)與展望
5.1 研究成果總結(jié)
5.2 展望
參考文獻(xiàn)
附錄:攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文及參與項(xiàng)目
致謝
本文編號(hào):3811620
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3811620.html
最近更新
教材專著