基于自上而下注意力機制的視覺問答模型研究
發(fā)布時間:2023-05-07 07:07
視覺問答是近年來人工智能領(lǐng)域興起的熱門研究方向之一,VQA的核心問題是如何構(gòu)建圖像與問題之間的關(guān)聯(lián)關(guān)系。圖像與問題之間存在著語義鴻溝,阻礙了圖像與問題中語義信息的有機融合。解決語義鴻溝問題的一個基本思路,是同時對圖像和問題進行處理,以找出兩者之間的強關(guān)聯(lián)部位。為此,本文針對圖像和問題之間的有機融合與關(guān)聯(lián)問題開展研究,并據(jù)此設(shè)計高性能的視覺問答模型。本文的主要工作如下:(1)視覺問答模型廣泛采用了注意力機制來突出關(guān)鍵信息的作用,抑制無關(guān)信息的影響,但是現(xiàn)有模型多傾向于使用問題信息去關(guān)注和處理圖像,而很少使用圖像信息來關(guān)注和處理問題,使得對問題中關(guān)鍵信息的提煉失去根據(jù),影響了視覺問答模型的整體性能。為此,本文提出了一個基于級聯(lián)的自上而下注意力機制模型。該模型利用問題來引導圖像注意力,以突出圖像中的重要區(qū)域,同時也利用圖像來引導問題注意力,以突出問題中的重點單詞,這樣既能有效地突出與問題相關(guān)的圖像區(qū)域,也能有效地突出與圖像相關(guān)的問題單詞,使得圖像和問題之間的關(guān)聯(lián)更加緊密。該模型在兩個公開的視覺問答數(shù)據(jù)集上進行了實驗,實驗結(jié)果表明,該模型可以有效提高視覺問答的整體性能。(2)目前視覺問答模型采...
【文章頁數(shù)】:59 頁
【學位級別】:碩士
【文章目錄】:
致謝
摘要
abstract
第一章 緒論
1.1 課題研究背景與意義
1.2 視覺問答模型的國內(nèi)外研究現(xiàn)狀
1.2.1 聯(lián)合嵌入模型
1.2.2 注意力機制模型
1.2.3 模塊化組合模型
1.2.4 知識庫增強模型
1.3 本文主要研究內(nèi)容
1.4 本文組織結(jié)構(gòu)
第二章 視覺問答與基于深度學習的解決方案
2.1 視覺問答任務(wù)描述
2.2 視覺問答模型架構(gòu)
2.2.1 圖像編碼
2.2.2 問題編碼
2.2.3 注意力機制
2.2.4 特征融合
2.3 卷積神經(jīng)網(wǎng)絡(luò)
2.3.1 卷積神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)
2.3.2 卷積神經(jīng)網(wǎng)絡(luò)經(jīng)典模型
2.4 循環(huán)神經(jīng)網(wǎng)絡(luò)
2.4.1 長短期記憶網(wǎng)絡(luò)
2.4.2 門控循環(huán)單元
2.5 本章小結(jié)
第三章 基于級聯(lián)自上而下注意力機制模型
3.1 簡介與相關(guān)工作
3.2 模型介紹
3.2.1 模型概述
3.2.2 圖像特征提取
3.2.3 文本問題編碼
3.2.4 問題自上而下注意力機制
3.2.5 圖像自上而下注意力機制
3.2.6 答案預(yù)測
3.3 實驗
3.3.1 實驗設(shè)置
3.3.2 結(jié)果與分析
3.3.3 對比實驗
3.4 本章小結(jié)
第四章 基于多層圖像特征融合注意力機制模型
4.1 簡介與相關(guān)工作
4.2 模型介紹
4.2.1 模型概述
4.2.2 輸入編碼
4.2.3 自上而下注意力機制
4.2.4 融合注意力機制
4.2.5 輸出分類
4.3 實驗
4.3.1 實驗設(shè)置
4.3.2 結(jié)果與分析
4.3.3 對比實驗
4.4 本章小結(jié)
第五章 總結(jié)與展望
5.1 全文總結(jié)
5.2 后續(xù)工作展望
參考文獻
攻讀碩士期間參與科研項目和公開發(fā)表的論文
本文編號:3810522
【文章頁數(shù)】:59 頁
【學位級別】:碩士
【文章目錄】:
致謝
摘要
abstract
第一章 緒論
1.1 課題研究背景與意義
1.2 視覺問答模型的國內(nèi)外研究現(xiàn)狀
1.2.1 聯(lián)合嵌入模型
1.2.2 注意力機制模型
1.2.3 模塊化組合模型
1.2.4 知識庫增強模型
1.3 本文主要研究內(nèi)容
1.4 本文組織結(jié)構(gòu)
第二章 視覺問答與基于深度學習的解決方案
2.1 視覺問答任務(wù)描述
2.2 視覺問答模型架構(gòu)
2.2.1 圖像編碼
2.2.2 問題編碼
2.2.3 注意力機制
2.2.4 特征融合
2.3 卷積神經(jīng)網(wǎng)絡(luò)
2.3.1 卷積神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)
2.3.2 卷積神經(jīng)網(wǎng)絡(luò)經(jīng)典模型
2.4 循環(huán)神經(jīng)網(wǎng)絡(luò)
2.4.1 長短期記憶網(wǎng)絡(luò)
2.4.2 門控循環(huán)單元
2.5 本章小結(jié)
第三章 基于級聯(lián)自上而下注意力機制模型
3.1 簡介與相關(guān)工作
3.2 模型介紹
3.2.1 模型概述
3.2.2 圖像特征提取
3.2.3 文本問題編碼
3.2.4 問題自上而下注意力機制
3.2.5 圖像自上而下注意力機制
3.2.6 答案預(yù)測
3.3 實驗
3.3.1 實驗設(shè)置
3.3.2 結(jié)果與分析
3.3.3 對比實驗
3.4 本章小結(jié)
第四章 基于多層圖像特征融合注意力機制模型
4.1 簡介與相關(guān)工作
4.2 模型介紹
4.2.1 模型概述
4.2.2 輸入編碼
4.2.3 自上而下注意力機制
4.2.4 融合注意力機制
4.2.5 輸出分類
4.3 實驗
4.3.1 實驗設(shè)置
4.3.2 結(jié)果與分析
4.3.3 對比實驗
4.4 本章小結(jié)
第五章 總結(jié)與展望
5.1 全文總結(jié)
5.2 后續(xù)工作展望
參考文獻
攻讀碩士期間參與科研項目和公開發(fā)表的論文
本文編號:3810522
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3810522.html
最近更新
教材專著