基于協(xié)同注意力機(jī)制的視覺問答系統(tǒng)研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2024-05-10 03:07
視覺問答(VQA)系統(tǒng)是將圖片和問題作為輸入,計(jì)算機(jī)結(jié)合輸入的圖像和文字信息,產(chǎn)生一條人類語言作為輸出的任務(wù),它運(yùn)用了計(jì)算機(jī)視覺和自然語言處理兩個(gè)領(lǐng)域方面的知識(shí)。在視覺問答中,計(jì)算機(jī)視覺(CV)技術(shù)用來理解輸入圖像,自然語言處理(NLP)技術(shù)用來理解輸入的問題以及生成答案。VQA的關(guān)鍵解決方案主要在于如何融合從輸入圖像和問題中提取的視覺和語言特征。近年來,許多基于CNN+LSTM的網(wǎng)絡(luò)能夠表現(xiàn)出很好的效果,最近許多網(wǎng)絡(luò)將attention應(yīng)用到VQA中。盡管如此,VQA回答問題的準(zhǔn)確率仍然并不理想,特別是在關(guān)系推理以及計(jì)數(shù)方面。為了解決這個(gè)問題,本研究中選擇采用協(xié)同注意機(jī)制的訓(xùn)練方法來訓(xùn)練網(wǎng)絡(luò),其中協(xié)同注意力機(jī)制的作用是生成圖像-問題對(duì)的雙相關(guān)特征,并使用推理模塊來推理圖片中對(duì)象的關(guān)系以及圖片中對(duì)象與問題的關(guān)系,幫助模型預(yù)測(cè)答案。本文重點(diǎn)研究了基于協(xié)同注意力機(jī)制的視覺問答系統(tǒng),其主要研究?jī)?nèi)容包括:1)深入研究了協(xié)同注意力機(jī)制,構(gòu)建一個(gè)有效的協(xié)同注意力機(jī)制,通過co-attention協(xié)同注意力生成圖像-問題對(duì)的雙相關(guān)特征,讓網(wǎng)絡(luò)可以自主學(xué)習(xí)雙相關(guān)特征,通過實(shí)驗(yàn)驗(yàn)證,使得視覺問答的準(zhǔn)確率...
【文章頁數(shù)】:60 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 研究背景及意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 本文研究?jī)?nèi)容
1.4 本文組織及結(jié)構(gòu)
第二章 相關(guān)算法及分析
2.1 LSTM網(wǎng)絡(luò)
2.2 殘差網(wǎng)絡(luò)Res Net
2.2.1 殘差模塊
2.2.2 殘差網(wǎng)絡(luò)
2.3 視覺問答系統(tǒng)
2.3.1 傳統(tǒng)分類方法
2.3.2 聯(lián)合嵌入
2.3.3 單注意機(jī)制
2.3.4 聯(lián)合注意力機(jī)制
2.3.5 視覺問答系統(tǒng)訓(xùn)練流程
2.4 推理網(wǎng)絡(luò)RN
2.4.1 RN網(wǎng)絡(luò)
2.4.2 RN網(wǎng)絡(luò)算法
2.4.3 RN網(wǎng)絡(luò)訓(xùn)練
2.5 本章小結(jié)
第三章 基于協(xié)同注意力機(jī)制的視覺問答系統(tǒng)
3.1 基于協(xié)同注意力機(jī)制的視覺問答系統(tǒng)框架
3.2 特征提取
3.2.1 問題和答案表示
3.2.2 圖像表示
3.3 改進(jìn)的推理網(wǎng)絡(luò)RN
3.4 協(xié)同注意力層
3.4.1 架構(gòu)概述
3.4.2 注意力創(chuàng)造的基本方法
3.4.3 融合圖像和問題表示
3.4.4 答案預(yù)測(cè)
3.5 本章小結(jié)
第四章 實(shí)驗(yàn)與結(jié)果分析
4.1 實(shí)驗(yàn)工具及數(shù)據(jù)集概述
4.1.1 使用工具
4.1.2 實(shí)驗(yàn)數(shù)據(jù)集
4.2 實(shí)驗(yàn)設(shè)置及實(shí)驗(yàn)方法
4.3 基于協(xié)同注意力機(jī)制的視覺問答系統(tǒng)結(jié)果分析
4.3.1 協(xié)同注意力機(jī)制結(jié)果分析
4.3.2 數(shù)據(jù)對(duì)比分析
4.3.3 改進(jìn)的RN網(wǎng)絡(luò)結(jié)果分析
4.4 本章小結(jié)
第五章 總結(jié)與展望
5.1 總結(jié)
5.2 展望
參考文獻(xiàn)
發(fā)表論文和參加科研情況說明
致謝
本文編號(hào):3968650
【文章頁數(shù)】:60 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 研究背景及意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 本文研究?jī)?nèi)容
1.4 本文組織及結(jié)構(gòu)
第二章 相關(guān)算法及分析
2.1 LSTM網(wǎng)絡(luò)
2.2 殘差網(wǎng)絡(luò)Res Net
2.2.1 殘差模塊
2.2.2 殘差網(wǎng)絡(luò)
2.3 視覺問答系統(tǒng)
2.3.1 傳統(tǒng)分類方法
2.3.2 聯(lián)合嵌入
2.3.3 單注意機(jī)制
2.3.4 聯(lián)合注意力機(jī)制
2.3.5 視覺問答系統(tǒng)訓(xùn)練流程
2.4 推理網(wǎng)絡(luò)RN
2.4.1 RN網(wǎng)絡(luò)
2.4.2 RN網(wǎng)絡(luò)算法
2.4.3 RN網(wǎng)絡(luò)訓(xùn)練
2.5 本章小結(jié)
第三章 基于協(xié)同注意力機(jī)制的視覺問答系統(tǒng)
3.1 基于協(xié)同注意力機(jī)制的視覺問答系統(tǒng)框架
3.2 特征提取
3.2.1 問題和答案表示
3.2.2 圖像表示
3.3 改進(jìn)的推理網(wǎng)絡(luò)RN
3.4 協(xié)同注意力層
3.4.1 架構(gòu)概述
3.4.2 注意力創(chuàng)造的基本方法
3.4.3 融合圖像和問題表示
3.4.4 答案預(yù)測(cè)
3.5 本章小結(jié)
第四章 實(shí)驗(yàn)與結(jié)果分析
4.1 實(shí)驗(yàn)工具及數(shù)據(jù)集概述
4.1.1 使用工具
4.1.2 實(shí)驗(yàn)數(shù)據(jù)集
4.2 實(shí)驗(yàn)設(shè)置及實(shí)驗(yàn)方法
4.3 基于協(xié)同注意力機(jī)制的視覺問答系統(tǒng)結(jié)果分析
4.3.1 協(xié)同注意力機(jī)制結(jié)果分析
4.3.2 數(shù)據(jù)對(duì)比分析
4.3.3 改進(jìn)的RN網(wǎng)絡(luò)結(jié)果分析
4.4 本章小結(jié)
第五章 總結(jié)與展望
5.1 總結(jié)
5.2 展望
參考文獻(xiàn)
發(fā)表論文和參加科研情況說明
致謝
本文編號(hào):3968650
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3968650.html
最近更新
教材專著