基于注意力機制的可視化自動問答算法研究
發(fā)布時間:2023-02-19 20:23
教會計算機學會邏輯推理是人工智能的終極目標,可視化自動問答(Visual Question Answering,VQA)是其中一個重要研究領域,它綜合了計算機視覺(Computer Vision,CV)和自然語言處理(Natural Language Processing,NLP)兩大研究方向,旨在解決不同模態(tài)信息之間的語義鴻溝。其任務被描述為:對于輸入任意圖像I和圍繞圖像I提出的自然語言問題Q,通過訓練好的深度學習模型之后,計算機能夠輸出正確的自然語言答案A。典型的可視化自動問答算法可劃分為三個部分:即圖像編解碼模塊、問題編解碼模塊和多模態(tài)特征聚合的答案輸出模塊。本文經(jīng)過對相關理論和技術的探索研究,提出一種基于注意力機制的可視化自動問答算法。該算法基于Pytorch框架,根據(jù)模塊化的思想,一方面在利用VGG16提取圖像空間向量的基礎上,疊化軟注意力機制從而更高效、準確地獲取圖像空間特征向量;另一方面利用LSTM編碼文字空間向量,最大程度保留語義信息;最后通過基于塊的聚合方法進行多模態(tài)空間向量融合,將答案輸出化歸為分類問題。為驗證算法有效性和通用性,本文從不同模型、不同數(shù)據(jù)集、不同場景...
【文章頁數(shù)】:78 頁
【學位級別】:碩士
【文章目錄】:
致謝
摘要
Abstract
第一章 緒論
1.1 課題背景及意義
1.2 課題研究現(xiàn)狀
1.2.1 面向單模態(tài)信息的自動問答算法研究
1.2.2 面向多模態(tài)信息的自動問答算法研究
1.3 課題研究內容與目標
1.4 論文結構
第二章 可視化自動問答相關技術
2.1 圖像特征提取方法
2.2 問題編碼方法
2.3 注意力機制原理
2.4 多模態(tài)特征聚合方法
2.5 本章小結
第三章 基于注意力機制的可視化自動問答算法
3.1 深度學習框架
3.2 數(shù)據(jù)預處理
3.2.1 圖像預處理
3.2.2 問題預處理
3.3 模型設計
3.2.1 基于軟性注意力機制的疊化
3.2.2 基于BLOCK的多模態(tài)模態(tài)聚合
3.4 模型優(yōu)化
3.5 本章小結
第四章 實驗結果
4.1 VQA數(shù)據(jù)集
4.2 實驗評價指標
4.3 實驗環(huán)境參數(shù)
4.4 實驗結果分析
4.4.1 不同模型的結果分析
4.4.2 不同問題的結果分析
4.4.3 不同語言的結果分析
4.4.4 不同場景的結果分析
4.4.5 不同數(shù)據(jù)集的結果分析
4.5 實驗結果可視化
4.6 本章小結
第五章 總結展望
5.1 總結
5.2 技術展望
5.3 應用展望
參考文獻
攻讀碩士學位期間研究成果
本文編號:3746897
【文章頁數(shù)】:78 頁
【學位級別】:碩士
【文章目錄】:
致謝
摘要
Abstract
第一章 緒論
1.1 課題背景及意義
1.2 課題研究現(xiàn)狀
1.2.1 面向單模態(tài)信息的自動問答算法研究
1.2.2 面向多模態(tài)信息的自動問答算法研究
1.3 課題研究內容與目標
1.4 論文結構
第二章 可視化自動問答相關技術
2.1 圖像特征提取方法
2.2 問題編碼方法
2.3 注意力機制原理
2.4 多模態(tài)特征聚合方法
2.5 本章小結
第三章 基于注意力機制的可視化自動問答算法
3.1 深度學習框架
3.2 數(shù)據(jù)預處理
3.2.1 圖像預處理
3.2.2 問題預處理
3.3 模型設計
3.2.1 基于軟性注意力機制的疊化
3.2.2 基于BLOCK的多模態(tài)模態(tài)聚合
3.4 模型優(yōu)化
3.5 本章小結
第四章 實驗結果
4.1 VQA數(shù)據(jù)集
4.2 實驗評價指標
4.3 實驗環(huán)境參數(shù)
4.4 實驗結果分析
4.4.1 不同模型的結果分析
4.4.2 不同問題的結果分析
4.4.3 不同語言的結果分析
4.4.4 不同場景的結果分析
4.4.5 不同數(shù)據(jù)集的結果分析
4.5 實驗結果可視化
4.6 本章小結
第五章 總結展望
5.1 總結
5.2 技術展望
5.3 應用展望
參考文獻
攻讀碩士學位期間研究成果
本文編號:3746897
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3746897.html
最近更新
教材專著