語義指導(dǎo)結(jié)合注意力機(jī)制與記憶網(wǎng)絡(luò)的視頻描述方法研究
發(fā)布時間:2021-12-02 20:07
用自然語言描述視頻的任務(wù)被稱為視頻描述,其研究結(jié)合了自然語言處理與計算機(jī)視覺領(lǐng)域的關(guān)鍵技術(shù),研究成果推動了跨模態(tài)分析技術(shù)的發(fā)展。近年來,越來越多的研究者從事視頻描述方向的研究。但是視頻描述是一個復(fù)雜的任務(wù),它不僅要識別視頻中的不同目標(biāo)以及它們之間的交互,還要用自然語言描述視頻內(nèi)容。當(dāng)前研究的熱點是基于序列學(xué)習(xí)的視頻描述方法,這類方法首先利用卷積神經(jīng)網(wǎng)絡(luò)提取視頻的特征,然后再用循環(huán)神經(jīng)網(wǎng)絡(luò)從視覺特征生成句子描述。本文在基于序列學(xué)習(xí)的視頻描述方法的基礎(chǔ)上,進(jìn)行了以下研究:(1)提出了基于深度視覺特征與語義屬性指導(dǎo)的視頻描述方法。大多數(shù)已有的視頻描述方法只使用了視頻的視覺信息,而忽視了對于視頻描述非常重要的語義信息,因此,該方法在進(jìn)行視頻描述時不僅利用了視頻的視覺信息,還利用了視頻的語義信息作為指導(dǎo)。首先,該方法使用兩種卷積網(wǎng)絡(luò)分別提取視頻單幀和連續(xù)幀的特征,并將這些特征求平均得到視頻的視覺目標(biāo)特征和動作特征。然后,從訓(xùn)練集的句子描述中獲得三種類型的語義屬性,并對每種類型的語義屬性分別訓(xùn)練各自單獨的語義屬性預(yù)測器。最后,提出基于語義屬性指導(dǎo)的長短時記憶網(wǎng)絡(luò),用語義屬性指導(dǎo)視頻描述生成。本文在...
【文章來源】:西安電子科技大學(xué)陜西省 211工程院校 教育部直屬院校
【文章頁數(shù)】:75 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
符號對照表
縮略語對照表
第一章 緒論
1.1 研究背景與意義
1.2 視頻描述方法的研究現(xiàn)狀
1.3 論文內(nèi)容及章節(jié)安排
第二章 基于深度視覺特征與語義屬性指導(dǎo)的視頻描述
2.1 引言
2.2 基于深度學(xué)習(xí)的視頻視覺特征表示
2.2.1 卷積神經(jīng)網(wǎng)絡(luò)簡介
2.2.2 基于殘差網(wǎng)絡(luò)的視覺目標(biāo)特征提取
2.2.3 基于三維殘差卷積神經(jīng)網(wǎng)絡(luò)的視覺動作特征提取
2.3 視頻語義屬性表示
2.3.1 視頻語義屬性提取
2.3.2 視頻語義屬性預(yù)測
2.4 基于深度視覺特征與語義屬性指導(dǎo)的視頻描述
2.4.1 循環(huán)神經(jīng)網(wǎng)絡(luò)簡介
2.4.2 基于語義屬性指導(dǎo)的長短時記憶網(wǎng)絡(luò)的視頻描述生成
2.5 實驗結(jié)果與分析
2.5.1 實驗數(shù)據(jù)集的介紹
2.5.2 實驗設(shè)置
2.5.3 視頻描述的評價指標(biāo)
2.5.4 結(jié)果與分析
2.6 本章小結(jié)
第三章 結(jié)合注意力機(jī)制與記憶網(wǎng)絡(luò)的視頻描述
3.1 引言
3.2 基于注意力機(jī)制的視頻顯著特征表示
3.3 基于記憶網(wǎng)絡(luò)的網(wǎng)絡(luò)記憶增強(qiáng)
3.4 結(jié)合注意力機(jī)制與記憶網(wǎng)絡(luò)的視頻描述
3.5 實驗結(jié)果與分析
3.6 本章小結(jié)
第四章 總結(jié)與展望
4.1 總結(jié)
4.2 展望
參考文獻(xiàn)
致謝
作者簡介
本文編號:3529117
【文章來源】:西安電子科技大學(xué)陜西省 211工程院校 教育部直屬院校
【文章頁數(shù)】:75 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
符號對照表
縮略語對照表
第一章 緒論
1.1 研究背景與意義
1.2 視頻描述方法的研究現(xiàn)狀
1.3 論文內(nèi)容及章節(jié)安排
第二章 基于深度視覺特征與語義屬性指導(dǎo)的視頻描述
2.1 引言
2.2 基于深度學(xué)習(xí)的視頻視覺特征表示
2.2.1 卷積神經(jīng)網(wǎng)絡(luò)簡介
2.2.2 基于殘差網(wǎng)絡(luò)的視覺目標(biāo)特征提取
2.2.3 基于三維殘差卷積神經(jīng)網(wǎng)絡(luò)的視覺動作特征提取
2.3 視頻語義屬性表示
2.3.1 視頻語義屬性提取
2.3.2 視頻語義屬性預(yù)測
2.4 基于深度視覺特征與語義屬性指導(dǎo)的視頻描述
2.4.1 循環(huán)神經(jīng)網(wǎng)絡(luò)簡介
2.4.2 基于語義屬性指導(dǎo)的長短時記憶網(wǎng)絡(luò)的視頻描述生成
2.5 實驗結(jié)果與分析
2.5.1 實驗數(shù)據(jù)集的介紹
2.5.2 實驗設(shè)置
2.5.3 視頻描述的評價指標(biāo)
2.5.4 結(jié)果與分析
2.6 本章小結(jié)
第三章 結(jié)合注意力機(jī)制與記憶網(wǎng)絡(luò)的視頻描述
3.1 引言
3.2 基于注意力機(jī)制的視頻顯著特征表示
3.3 基于記憶網(wǎng)絡(luò)的網(wǎng)絡(luò)記憶增強(qiáng)
3.4 結(jié)合注意力機(jī)制與記憶網(wǎng)絡(luò)的視頻描述
3.5 實驗結(jié)果與分析
3.6 本章小結(jié)
第四章 總結(jié)與展望
4.1 總結(jié)
4.2 展望
參考文獻(xiàn)
致謝
作者簡介
本文編號:3529117
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3529117.html
最近更新
教材專著