面向短視頻的自然語言生成描述方法
發(fā)布時(shí)間:2021-02-28 12:37
隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展伴隨著的是多媒體數(shù)據(jù)的大量的累積,其中最為復(fù)雜也是最重要的要數(shù)大量的視頻信息。在二十一世紀(jì)的時(shí)代,人們的生活水平得到了大量的提升,生活節(jié)奏的步伐也是持續(xù)的提速,人們的時(shí)間顯得尤為重要,人們需要花費(fèi)大量的時(shí)間去觀看短視頻以獲取信息已顯得尤為累贅。如果能夠?qū)⒁曨l轉(zhuǎn)化為文字,讓用戶能夠直接快速的閱讀簡(jiǎn)短文字便能獲取到相關(guān)的信息便顯得尤為重要。基于這個(gè)前提下,如何能夠有效并且快速的將短視頻轉(zhuǎn)化為與之相關(guān)聯(lián)的文字信息已經(jīng)成為目前迫切需要解決的問題。短視頻生成文字主要研究的是如何將富含豐富信息的視頻數(shù)據(jù)轉(zhuǎn)化成文字信息,我們也稱之為“看圖說話”。本質(zhì)上視覺與語言之間的融會(huì)貫通是人類經(jīng)過漫長的進(jìn)化與不斷的學(xué)習(xí)而形成的能力。而對(duì)于機(jī)器而言,這意味著視覺處理與語言處理兩個(gè)領(lǐng)域之間的銜接。深度學(xué)習(xí)雖然賦予了機(jī)器對(duì)一維圖片數(shù)據(jù)、以及二維視頻數(shù)據(jù)比較強(qiáng)的識(shí)別理解能力,然而仍面臨著在真實(shí)應(yīng)用場(chǎng)景中魯棒性不足的問題。其中如何有效提取出視頻數(shù)據(jù)豐富的語義信息以及場(chǎng)景信息并且能夠有效判斷生成的文本信息是否合理、自然顯得更為重要;谏疃葘W(xué)習(xí)的短視頻自然語言生成方法作為一個(gè)新興的研究方向,值得挖掘...
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:70 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 研究工作的背景與意義
1.2 視頻生成文本的國內(nèi)外研究歷史與現(xiàn)狀
1.3 本文的主要貢獻(xiàn)和創(chuàng)新
1.4 本論文的結(jié)構(gòu)安排
第二章 深度學(xué)習(xí)方法的理論基礎(chǔ)介紹及其應(yīng)用
2.1 深度學(xué)習(xí)簡(jiǎn)介及相關(guān)概念
2.2 神經(jīng)網(wǎng)絡(luò)
2.3 反向傳播算法
2.4 激活函數(shù)
2.5 前向結(jié)構(gòu)
2.6 過擬合和欠擬合
2.7 卷積神經(jīng)網(wǎng)絡(luò)
2.8 循環(huán)神經(jīng)網(wǎng)絡(luò)
2.9 本章小結(jié)
第三章 基于對(duì)抗長短記憶網(wǎng)絡(luò)的短視頻生成自然語言的方法
3.1 簡(jiǎn)介與相關(guān)工作
3.2 自然語言處理相關(guān)的生成判別網(wǎng)絡(luò)介紹
3.3 方法介紹
3.3.1 問題定義
3.3.2 問題解決方案
3.3.3 注意力機(jī)制
3.4 實(shí)驗(yàn)設(shè)計(jì)
3.4.1 數(shù)據(jù)集介紹
3.4.2 評(píng)價(jià)標(biāo)準(zhǔn)
3.4.3 實(shí)驗(yàn)設(shè)置
3.4.4 結(jié)果與分析
3.5 本章小結(jié)
第四章 基于交叉和條件長短記憶網(wǎng)絡(luò)的短視頻生成自然語言的方法
4.1 簡(jiǎn)介與相關(guān)介紹
4.2 方法介紹
4.2.1 問題定義
4.2.2 模型設(shè)計(jì)
4.3 實(shí)驗(yàn)設(shè)計(jì)
4.3.1 數(shù)據(jù)集介紹
4.3.2 實(shí)驗(yàn)設(shè)計(jì)細(xì)節(jié)
4.3.3 基于UCF-101上的實(shí)驗(yàn)分析
4.3.4 基于MSVD數(shù)據(jù)集的實(shí)驗(yàn)分析
4.3.5 基于MSR-VTT數(shù)據(jù)集的實(shí)驗(yàn)分析
4.4 本章小結(jié)
第五章 全文總結(jié)與展望
5.1 全文總結(jié)
5.2 后續(xù)工作與展望
致謝
參考文獻(xiàn)
攻碩期間取得的研究成果
本文編號(hào):3055862
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:70 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 研究工作的背景與意義
1.2 視頻生成文本的國內(nèi)外研究歷史與現(xiàn)狀
1.3 本文的主要貢獻(xiàn)和創(chuàng)新
1.4 本論文的結(jié)構(gòu)安排
第二章 深度學(xué)習(xí)方法的理論基礎(chǔ)介紹及其應(yīng)用
2.1 深度學(xué)習(xí)簡(jiǎn)介及相關(guān)概念
2.2 神經(jīng)網(wǎng)絡(luò)
2.3 反向傳播算法
2.4 激活函數(shù)
2.5 前向結(jié)構(gòu)
2.6 過擬合和欠擬合
2.7 卷積神經(jīng)網(wǎng)絡(luò)
2.8 循環(huán)神經(jīng)網(wǎng)絡(luò)
2.9 本章小結(jié)
第三章 基于對(duì)抗長短記憶網(wǎng)絡(luò)的短視頻生成自然語言的方法
3.1 簡(jiǎn)介與相關(guān)工作
3.2 自然語言處理相關(guān)的生成判別網(wǎng)絡(luò)介紹
3.3 方法介紹
3.3.1 問題定義
3.3.2 問題解決方案
3.3.3 注意力機(jī)制
3.4 實(shí)驗(yàn)設(shè)計(jì)
3.4.1 數(shù)據(jù)集介紹
3.4.2 評(píng)價(jià)標(biāo)準(zhǔn)
3.4.3 實(shí)驗(yàn)設(shè)置
3.4.4 結(jié)果與分析
3.5 本章小結(jié)
第四章 基于交叉和條件長短記憶網(wǎng)絡(luò)的短視頻生成自然語言的方法
4.1 簡(jiǎn)介與相關(guān)介紹
4.2 方法介紹
4.2.1 問題定義
4.2.2 模型設(shè)計(jì)
4.3 實(shí)驗(yàn)設(shè)計(jì)
4.3.1 數(shù)據(jù)集介紹
4.3.2 實(shí)驗(yàn)設(shè)計(jì)細(xì)節(jié)
4.3.3 基于UCF-101上的實(shí)驗(yàn)分析
4.3.4 基于MSVD數(shù)據(jù)集的實(shí)驗(yàn)分析
4.3.5 基于MSR-VTT數(shù)據(jù)集的實(shí)驗(yàn)分析
4.4 本章小結(jié)
第五章 全文總結(jié)與展望
5.1 全文總結(jié)
5.2 后續(xù)工作與展望
致謝
參考文獻(xiàn)
攻碩期間取得的研究成果
本文編號(hào):3055862
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3055862.html
最近更新
教材專著