視覺語義表示模型在視頻問答中的研究與應用
發(fā)布時間:2021-02-18 16:04
在人工智能領域,建立視覺理解和人機交互之間的聯(lián)系是一項具有挑戰(zhàn)的任務。目前深度學習技術廣泛應用在計算機視覺和自然語言處理等領域,雖然基于深度學習的視頻自動描述生成任務在建立視覺內(nèi)容與自然語言連接上取得一定進展,但它通常描述視覺內(nèi)容的粗略語義信息,缺少對不同視覺線索之間的建模以及推理的能力。而視頻問答需要模型能夠全面理解出現(xiàn)的視覺場景,這就要求模型能夠?qū)Σ煌瑢哟蔚囊曈X、文本內(nèi)容甚至是外部知識進行理解并找到正確的答案。人腦在應對和視覺問答類似的認知任務時,不僅需要對當前接收到的信息進行處理,還需要根據(jù)接收到的信息對大腦中存儲的知識進行檢索和推理。因此記憶和外部知識在認知理解的過程中有很重要的作用;谟洃浐屯獠恐R對認知理解的影響,本文提出兩方面的探索,首先層疊記憶網(wǎng)絡(LMN)通過分級的表示過程使視頻特征中包含更多的語義信息,其次引入了一個名為PlotGraphs的新數(shù)據(jù)集作為外部知識,同時提出的圖表示網(wǎng)絡(PGRN)能夠結(jié)合LMN處理視頻問答任務。具體來說,LMN通過靜態(tài)單詞記憶和動態(tài)字幕記憶分別存儲單詞和視頻字幕信息,然后通過分級地表示過程使幀級和片段級的視頻表示中包含更多的語義信息...
【文章來源】:天津大學天津市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:48 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 視頻問答的研究背景和意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 主要研究方法
1.2.2 主要面臨的挑戰(zhàn)
1.3 本文的研究內(nèi)容
1.4 本文的組織結(jié)構(gòu)
第2章 本文相關的研究工作
2.1 視覺問答數(shù)據(jù)集
2.2 基于圖像的問答任務研究
2.2.1 基于聯(lián)合嵌入的方法
2.2.2 基于注意力機制的方法
2.2.3 基于外部知識庫的方法
2.2.4 基于圖的方法
2.3 基于視頻的問答任務研究
2.4 其他類型的問答任務研究
第3章 基于層疊記憶網(wǎng)絡的視頻問答方法研究
3.1 算法框架描述
3.2 算法具體實現(xiàn)
3.2.1 靜態(tài)單詞記憶模塊
3.2.2 動態(tài)字幕記憶模塊
3.3 擴展框架
3.3.1 靜態(tài)單詞記憶中的多跳
3.3.2 動態(tài)字幕記憶的更新機制
3.3.3 問題引導模型
3.4 實驗結(jié)果分析
3.4.1 實驗數(shù)據(jù)及設置
3.4.2 實驗結(jié)果分析
3.4.3 實驗結(jié)果示例
3.4.4 本章小結(jié)
第4章 基于圖表示網(wǎng)絡的視頻問答方法研究
4.1 PlotGraphs數(shù)據(jù)集的構(gòu)建
4.1.1 數(shù)據(jù)采集步驟
4.1.2 圖的結(jié)構(gòu)
4.1.3 數(shù)據(jù)集統(tǒng)計信息
4.2 算法框架描述
4.3 算法具體實現(xiàn)
4.3.1 結(jié)點的語義表示
4.3.2 結(jié)點之間關系的表示
4.4 實驗結(jié)果分析
4.4.1 實驗數(shù)據(jù)及設置
4.4.2 實驗結(jié)果分析
4.4.3 實驗結(jié)果示例
4.4.4 本章小結(jié)
第5章 總結(jié)與展望
5.1 總結(jié)
5.2 展望
參考文獻
發(fā)表論文和參加科研情況說明
致謝
本文編號:3039780
【文章來源】:天津大學天津市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:48 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 視頻問答的研究背景和意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 主要研究方法
1.2.2 主要面臨的挑戰(zhàn)
1.3 本文的研究內(nèi)容
1.4 本文的組織結(jié)構(gòu)
第2章 本文相關的研究工作
2.1 視覺問答數(shù)據(jù)集
2.2 基于圖像的問答任務研究
2.2.1 基于聯(lián)合嵌入的方法
2.2.2 基于注意力機制的方法
2.2.3 基于外部知識庫的方法
2.2.4 基于圖的方法
2.3 基于視頻的問答任務研究
2.4 其他類型的問答任務研究
第3章 基于層疊記憶網(wǎng)絡的視頻問答方法研究
3.1 算法框架描述
3.2 算法具體實現(xiàn)
3.2.1 靜態(tài)單詞記憶模塊
3.2.2 動態(tài)字幕記憶模塊
3.3 擴展框架
3.3.1 靜態(tài)單詞記憶中的多跳
3.3.2 動態(tài)字幕記憶的更新機制
3.3.3 問題引導模型
3.4 實驗結(jié)果分析
3.4.1 實驗數(shù)據(jù)及設置
3.4.2 實驗結(jié)果分析
3.4.3 實驗結(jié)果示例
3.4.4 本章小結(jié)
第4章 基于圖表示網(wǎng)絡的視頻問答方法研究
4.1 PlotGraphs數(shù)據(jù)集的構(gòu)建
4.1.1 數(shù)據(jù)采集步驟
4.1.2 圖的結(jié)構(gòu)
4.1.3 數(shù)據(jù)集統(tǒng)計信息
4.2 算法框架描述
4.3 算法具體實現(xiàn)
4.3.1 結(jié)點的語義表示
4.3.2 結(jié)點之間關系的表示
4.4 實驗結(jié)果分析
4.4.1 實驗數(shù)據(jù)及設置
4.4.2 實驗結(jié)果分析
4.4.3 實驗結(jié)果示例
4.4.4 本章小結(jié)
第5章 總結(jié)與展望
5.1 總結(jié)
5.2 展望
參考文獻
發(fā)表論文和參加科研情況說明
致謝
本文編號:3039780
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3039780.html
最近更新
教材專著