基于深度卷積網(wǎng)絡(luò)與區(qū)域關(guān)注機(jī)制的視覺問答系統(tǒng)
發(fā)布時間:2021-07-12 22:22
視覺和語言是人類智慧理解現(xiàn)實(shí)世界的兩個核心部分,也是實(shí)現(xiàn)人工智能的基本組成部分,并且在各自的領(lǐng)域中已經(jīng)開展了大量的研究。最近,深度學(xué)習(xí)的巨大進(jìn)步打破了視覺和語言之間的界限,跨模態(tài)的研究引起了研究人員廣泛的關(guān)注,例如視覺問答、圖片描述、圖片-文字匹配等。視覺問答的基本任務(wù)是給定一張圖片或者一段視頻,以及相對應(yīng)的自然語言問題,系統(tǒng)能夠根據(jù)問題分析圖片或者視頻的內(nèi)容推理出正確的答案。視覺問答能夠被用來提升人機(jī)交互的能力來檢索視覺內(nèi)容,有很多潛在的應(yīng)用。最主要的應(yīng)用是幫助視覺障礙者能通過該系統(tǒng)來獲得網(wǎng)絡(luò)或者現(xiàn)實(shí)圖片中的信息。并且,視覺問答也是一個重要的基本研究問題。因為一個好的視覺問答系統(tǒng)能夠解決很多計算機(jī)視覺問題,可以被認(rèn)為是對于圖片理解中圖靈測試的重要組成部分。視覺問答不僅需要對圖片有很強(qiáng)地理解能力,而且需要復(fù)雜的自然語言處理技術(shù)用于處理問題。作為一個新興的研究方向,視覺問答系統(tǒng)所面臨的挑戰(zhàn)是巨大的,需要我們?nèi)W(xué)習(xí)與挖掘。視覺問答系統(tǒng)有很多種分類的方法。按照答案類型分,可分為開放式(openended)的視覺問答和多項選擇(Multiple-choice)的視覺問答。按輸入的視覺類型分,可...
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:75 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 研究工作的背景與意義
1.2 視覺問答方法的國內(nèi)外研究歷史與現(xiàn)狀
1.3 本文的主要貢獻(xiàn)與創(chuàng)新
1.4 本論文的結(jié)構(gòu)安排
第二章 基于立體視覺注意的圖片問答
2.1 深度學(xué)習(xí)基礎(chǔ)知識
2.1.1 卷積神經(jīng)網(wǎng)絡(luò)
2.1.2 循環(huán)神經(jīng)網(wǎng)絡(luò)
2.1.3 物體檢測網(wǎng)絡(luò)
2.2 立體視覺注意力機(jī)制
2.2.1 輸入特征表示
2.2.2 通道注意
2.2.3 基于對象區(qū)域的空間注意
2.2.4 答案預(yù)測
2.2.5 立體視覺注意的另一種形式
2.3 實(shí)驗
2.3.1 數(shù)據(jù)集
2.3.2 評價標(biāo)準(zhǔn)
2.3.3 實(shí)現(xiàn)細(xì)節(jié)
2.3.4 框架探索和比較
2.3.5 在VQA數(shù)據(jù)集上和目前最好的方法比較
2.3.6 在COCO-QA數(shù)據(jù)集上和目前最好的方法比較
2.3.7 在Visual7W數(shù)據(jù)集上和目前最好的方法比較
2.4 本章小結(jié)
第三章 基于多任務(wù)學(xué)習(xí)與自適應(yīng)注意的多選圖片問答
3.1 特征提取
3.1.1 提取圖像對象區(qū)域特征
3.1.2 編碼問題或者選項特征
3.2 自適應(yīng)注意機(jī)制
3.2.1 自適應(yīng)QO注意-內(nèi)容感知文本特征C
3.2.2 自適應(yīng)QOI注意-內(nèi)容和視覺感知特征T
3.2.3 自適應(yīng)QI注意-問題感知視覺特征B
3.2.4 用于MC問題的答案生成模塊
3.3 多任務(wù)學(xué)習(xí)
3.4 實(shí)驗
3.4.1 數(shù)據(jù)集
3.4.2 評價標(biāo)準(zhǔn)
3.4.3 實(shí)驗設(shè)置
3.4.4 框架探索和比較
3.4.5 在VQA數(shù)據(jù)集上和目前最好的方法進(jìn)行比較
3.4.6 在Visual7W數(shù)據(jù)集上和目前最好的方法進(jìn)行比較
3.5 本章小結(jié)
第四章 基于結(jié)構(gòu)化雙流注意力的視頻問答
4.1 結(jié)構(gòu)化分割模塊
4.1.1 視頻特征提取
4.1.2 結(jié)構(gòu)化分割
4.2 文本編碼
4.2.1 問題編碼
4.2.2 多項選擇編碼
4.3 結(jié)構(gòu)化的雙流注意模塊
4.3.1 第一流:視覺注意
4.3.2 第二流:文本注意
4.3.3 結(jié)構(gòu)化雙流融合
4.4 答案編碼模塊
4.4.1 多項選擇
4.4.2 開放式計數(shù)
4.4.3 開放式詞
4.5 實(shí)驗
4.5.1 數(shù)據(jù)集和評價設(shè)置
4.5.2 實(shí)驗細(xì)節(jié)
4.5.3 框架探索和比較
4.5.4 定性結(jié)果分析
4.5.5 在TGIF-QA數(shù)據(jù)集上和目前最好的方法進(jìn)行比較
4.6 本章小結(jié)
第五章 全文總結(jié)與展望
5.1 全文總結(jié)
5.2 后續(xù)工作展望
致謝
參考文獻(xiàn)
攻碩期間取得的研究成果
本文編號:3280769
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:75 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 研究工作的背景與意義
1.2 視覺問答方法的國內(nèi)外研究歷史與現(xiàn)狀
1.3 本文的主要貢獻(xiàn)與創(chuàng)新
1.4 本論文的結(jié)構(gòu)安排
第二章 基于立體視覺注意的圖片問答
2.1 深度學(xué)習(xí)基礎(chǔ)知識
2.1.1 卷積神經(jīng)網(wǎng)絡(luò)
2.1.2 循環(huán)神經(jīng)網(wǎng)絡(luò)
2.1.3 物體檢測網(wǎng)絡(luò)
2.2 立體視覺注意力機(jī)制
2.2.1 輸入特征表示
2.2.2 通道注意
2.2.3 基于對象區(qū)域的空間注意
2.2.4 答案預(yù)測
2.2.5 立體視覺注意的另一種形式
2.3 實(shí)驗
2.3.1 數(shù)據(jù)集
2.3.2 評價標(biāo)準(zhǔn)
2.3.3 實(shí)現(xiàn)細(xì)節(jié)
2.3.4 框架探索和比較
2.3.5 在VQA數(shù)據(jù)集上和目前最好的方法比較
2.3.6 在COCO-QA數(shù)據(jù)集上和目前最好的方法比較
2.3.7 在Visual7W數(shù)據(jù)集上和目前最好的方法比較
2.4 本章小結(jié)
第三章 基于多任務(wù)學(xué)習(xí)與自適應(yīng)注意的多選圖片問答
3.1 特征提取
3.1.1 提取圖像對象區(qū)域特征
3.1.2 編碼問題或者選項特征
3.2 自適應(yīng)注意機(jī)制
3.2.1 自適應(yīng)QO注意-內(nèi)容感知文本特征C
3.2.2 自適應(yīng)QOI注意-內(nèi)容和視覺感知特征T
3.2.3 自適應(yīng)QI注意-問題感知視覺特征B
3.2.4 用于MC問題的答案生成模塊
3.3 多任務(wù)學(xué)習(xí)
3.4 實(shí)驗
3.4.1 數(shù)據(jù)集
3.4.2 評價標(biāo)準(zhǔn)
3.4.3 實(shí)驗設(shè)置
3.4.4 框架探索和比較
3.4.5 在VQA數(shù)據(jù)集上和目前最好的方法進(jìn)行比較
3.4.6 在Visual7W數(shù)據(jù)集上和目前最好的方法進(jìn)行比較
3.5 本章小結(jié)
第四章 基于結(jié)構(gòu)化雙流注意力的視頻問答
4.1 結(jié)構(gòu)化分割模塊
4.1.1 視頻特征提取
4.1.2 結(jié)構(gòu)化分割
4.2 文本編碼
4.2.1 問題編碼
4.2.2 多項選擇編碼
4.3 結(jié)構(gòu)化的雙流注意模塊
4.3.1 第一流:視覺注意
4.3.2 第二流:文本注意
4.3.3 結(jié)構(gòu)化雙流融合
4.4 答案編碼模塊
4.4.1 多項選擇
4.4.2 開放式計數(shù)
4.4.3 開放式詞
4.5 實(shí)驗
4.5.1 數(shù)據(jù)集和評價設(shè)置
4.5.2 實(shí)驗細(xì)節(jié)
4.5.3 框架探索和比較
4.5.4 定性結(jié)果分析
4.5.5 在TGIF-QA數(shù)據(jù)集上和目前最好的方法進(jìn)行比較
4.6 本章小結(jié)
第五章 全文總結(jié)與展望
5.1 全文總結(jié)
5.2 后續(xù)工作展望
致謝
參考文獻(xiàn)
攻碩期間取得的研究成果
本文編號:3280769
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3280769.html
最近更新
教材專著