基于遞歸神經(jīng)網(wǎng)絡(luò)的視頻行為建模和識(shí)別方法研究
發(fā)布時(shí)間:2023-01-29 17:56
近年來,對(duì)視頻中的行為建模和識(shí)別一直是計(jì)算機(jī)視覺研究中的熱點(diǎn)和難點(diǎn)。由于遞歸神經(jīng)網(wǎng)絡(luò),特別是長(zhǎng)短時(shí)記憶網(wǎng)絡(luò),在機(jī)器翻譯等領(lǐng)域的突出表現(xiàn),利用遞歸神經(jīng)網(wǎng)絡(luò)對(duì)視頻進(jìn)行序列建模成為主流方法之一。但在較早的研究中,直接利用遞歸神經(jīng)網(wǎng)絡(luò)對(duì)視頻幀的高層特征序列建模,并沒有取得預(yù)想中的卓越效果。這主要是由于與一般的序列數(shù)據(jù)不同,視頻數(shù)據(jù)具有自己的特點(diǎn):一,視頻數(shù)據(jù)本身具有維度高、語意結(jié)構(gòu)復(fù)雜等諸多特點(diǎn)。具體到行為識(shí)別,視頻中部分行為的判別存在歧義性,對(duì)上下文信息存在依賴性。二,視頻數(shù)據(jù)序列中的單幀信息結(jié)構(gòu)性弱、相鄰幀信息冗余大。這兩個(gè)方面的特點(diǎn)都極大得增加了利用遞歸神經(jīng)網(wǎng)絡(luò)進(jìn)行建模的難度。針對(duì)視頻數(shù)據(jù)的特點(diǎn),結(jié)合遞歸神經(jīng)網(wǎng)絡(luò)的特性,我們對(duì)視頻中的行為識(shí)別任務(wù),分別設(shè)計(jì)了遞歸時(shí)空注意力網(wǎng)絡(luò)和遞歸姿態(tài)注意力網(wǎng)絡(luò),來提高遞歸神經(jīng)網(wǎng)絡(luò)對(duì)視頻行為的建模能力。并在公開數(shù)據(jù)集上對(duì)方法進(jìn)行了測(cè)評(píng),驗(yàn)證了方法的有效性。在本論文的第一部分,針對(duì)視頻數(shù)據(jù)的特點(diǎn)一,我們提出了遞歸時(shí)空注意力網(wǎng)絡(luò)結(jié)構(gòu)。從而支持遞歸神經(jīng)網(wǎng)絡(luò)對(duì)每個(gè)時(shí)刻進(jìn)行預(yù)測(cè)時(shí),除了利用高層序列特征之外,可以從整個(gè)幀序列中,自適應(yīng)得找到與當(dāng)前特征具有強(qiáng)互補(bǔ)作用的...
【文章頁數(shù)】:96 頁
【學(xué)位級(jí)別】:博士
【文章目錄】:
摘要
Abstract
符號(hào)列表
第1章 引言
1.1 視頻建模與識(shí)別
1.1.1 遞歸神經(jīng)網(wǎng)絡(luò)對(duì)視頻建模的難點(diǎn)
1.2 論文貢獻(xiàn)
1.2.1 時(shí)空注意力機(jī)制
1.2.2 姿態(tài)注意力機(jī)制
1.3 論文大綱
第2章 背景
2.1 基于手工特征的視頻識(shí)別方法
2.2 基于深度學(xué)習(xí)的視頻識(shí)別方法
2.3 遞歸神經(jīng)網(wǎng)絡(luò)與行為識(shí)別
第3章 遞歸時(shí)空注意力網(wǎng)絡(luò)對(duì)視頻的行為建模和識(shí)別
3.1 引言
3.2 相關(guān)工作
3.3 網(wǎng)絡(luò)設(shè)計(jì)
3.3.1 雙流網(wǎng)絡(luò)中的特征提取
3.3.2 LSTM中的時(shí)空注意力機(jī)制
3.3.3 注意力引導(dǎo)的表觀流和運(yùn)動(dòng)流融合
3.3.4 行為人-注意力正則項(xiàng)
3.4 實(shí)驗(yàn)
3.4.1 數(shù)據(jù)集介紹
3.4.2 模型實(shí)現(xiàn)細(xì)節(jié)
3.4.3 遞歸時(shí)空注意力網(wǎng)絡(luò)的特性
3.4.4 與其他實(shí)驗(yàn)結(jié)果的比較
3.5 可視化
3.6 總結(jié)
第4章 遞歸姿態(tài)注意力網(wǎng)絡(luò)對(duì)視頻的行為建模和識(shí)別
4.1 引言
4.2 相關(guān)工作
4.2.1 基于姿態(tài)的行為識(shí)別
4.3 網(wǎng)絡(luò)設(shè)計(jì)
4.3.1 卷積層特征提取
4.3.2 姿態(tài)注意力機(jī)制
4.3.3 LSTM時(shí)序建模
4.3.4 損失函數(shù)
4.4 實(shí)驗(yàn)
4.4.1 實(shí)驗(yàn)細(xì)節(jié)
4.4.2 實(shí)驗(yàn)結(jié)果
4.4.3 遞歸姿態(tài)注意力機(jī)制的特性
4.4.4 模型拓展與探索實(shí)驗(yàn)
4.4.5 視頻中的姿態(tài)估計(jì)
4.5 可視化
4.6 總結(jié)
第5章 總結(jié)與展望
5.1 未來工作
參考文獻(xiàn)
作者簡(jiǎn)歷及攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文與研究成果
致謝
本文編號(hào):3732739
【文章頁數(shù)】:96 頁
【學(xué)位級(jí)別】:博士
【文章目錄】:
摘要
Abstract
符號(hào)列表
第1章 引言
1.1 視頻建模與識(shí)別
1.1.1 遞歸神經(jīng)網(wǎng)絡(luò)對(duì)視頻建模的難點(diǎn)
1.2 論文貢獻(xiàn)
1.2.1 時(shí)空注意力機(jī)制
1.2.2 姿態(tài)注意力機(jī)制
1.3 論文大綱
第2章 背景
2.1 基于手工特征的視頻識(shí)別方法
2.2 基于深度學(xué)習(xí)的視頻識(shí)別方法
2.3 遞歸神經(jīng)網(wǎng)絡(luò)與行為識(shí)別
第3章 遞歸時(shí)空注意力網(wǎng)絡(luò)對(duì)視頻的行為建模和識(shí)別
3.1 引言
3.2 相關(guān)工作
3.3 網(wǎng)絡(luò)設(shè)計(jì)
3.3.1 雙流網(wǎng)絡(luò)中的特征提取
3.3.2 LSTM中的時(shí)空注意力機(jī)制
3.3.3 注意力引導(dǎo)的表觀流和運(yùn)動(dòng)流融合
3.3.4 行為人-注意力正則項(xiàng)
3.4 實(shí)驗(yàn)
3.4.1 數(shù)據(jù)集介紹
3.4.2 模型實(shí)現(xiàn)細(xì)節(jié)
3.4.3 遞歸時(shí)空注意力網(wǎng)絡(luò)的特性
3.4.4 與其他實(shí)驗(yàn)結(jié)果的比較
3.5 可視化
3.6 總結(jié)
第4章 遞歸姿態(tài)注意力網(wǎng)絡(luò)對(duì)視頻的行為建模和識(shí)別
4.1 引言
4.2 相關(guān)工作
4.2.1 基于姿態(tài)的行為識(shí)別
4.3 網(wǎng)絡(luò)設(shè)計(jì)
4.3.1 卷積層特征提取
4.3.2 姿態(tài)注意力機(jī)制
4.3.3 LSTM時(shí)序建模
4.3.4 損失函數(shù)
4.4 實(shí)驗(yàn)
4.4.1 實(shí)驗(yàn)細(xì)節(jié)
4.4.2 實(shí)驗(yàn)結(jié)果
4.4.3 遞歸姿態(tài)注意力機(jī)制的特性
4.4.4 模型拓展與探索實(shí)驗(yàn)
4.4.5 視頻中的姿態(tài)估計(jì)
4.5 可視化
4.6 總結(jié)
第5章 總結(jié)與展望
5.1 未來工作
參考文獻(xiàn)
作者簡(jiǎn)歷及攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文與研究成果
致謝
本文編號(hào):3732739
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3732739.html
最近更新
教材專著