基于空時特征融合和深度學(xué)習(xí)的視頻行為識別方法研究
發(fā)布時間:2021-02-09 12:45
視頻數(shù)據(jù)的爆炸式增長以及人工智能的發(fā)展,對建立完善的智能視頻分析系統(tǒng)產(chǎn)生了迫切的需求,而作為其核心技術(shù)之一的行為識別技術(shù)自然成為研究的熱點。人體行為識別技術(shù)在智能視頻分析、智能交通系統(tǒng)以及醫(yī)療監(jiān)護(hù)等領(lǐng)域具有重要的應(yīng)用價值,研究前景廣闊。深度學(xué)習(xí)方法憑借其出色的特征提取能力逐漸取代了表現(xiàn)乏力的基于人工特征的方法,在圖像處理領(lǐng)域取得了極大的成功。行為識別基于視頻,得益于在圖像領(lǐng)域的成功應(yīng)用,深度學(xué)習(xí)方法成為當(dāng)前行為識別研究的主流方法。但是,視頻不同于靜態(tài)圖像,除了包含有靜態(tài)的空域信息外,還存在時序上的動作信息,因此如何能夠有效融合空時域特征則是行為識別研究的難點。本文主要對基于深度學(xué)習(xí)和空時特征融合的視頻行為識別方法進(jìn)行研究,做出的主要工作包括:(1)提出一種基于3D殘差網(wǎng)絡(luò)與空時特征融合的行為識別算法。使用3D卷積可以同時在視頻空間維度和時間維度操作,能夠提取視頻圖像空域和時域上的特征。此外使用殘差網(wǎng)絡(luò)結(jié)構(gòu),利用其良好的網(wǎng)絡(luò)特性,降低了網(wǎng)絡(luò)訓(xùn)練的難度?紤]到2D殘差網(wǎng)絡(luò)對單幀圖像提取到的空域信息對區(qū)分不同的行為有一定的作用,提出將3D殘差網(wǎng)絡(luò)提取的空時域特征與2D殘差網(wǎng)絡(luò)提取的純空域特征...
【文章來源】:西安電子科技大學(xué)陜西省 211工程院校 教育部直屬院校
【文章頁數(shù)】:76 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2.4雙通道卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)
數(shù)融合輸入視頻 視頻段 時域分割網(wǎng)絡(luò)圖5.1 時域分割網(wǎng)絡(luò)結(jié)構(gòu)[27]如圖 5.1 中所示,時域分割網(wǎng)絡(luò)對輸入視頻樣本的處理過程為:對于一個視頻樣本V ,將其分為長度相同的K 個片段{ }1 2, , ,KS S S,時域分割網(wǎng)絡(luò)對這一系列分割的片段作如下處理:( ) ( ( ( ) ( ) ( )))1 2 1 2, , , ; , ; , ;K KTSN T T T =H G F T W F T W F T W(5-1)其中,( )1 2, , ,KT T T是一系列視頻局部片段,每一個視頻局部片段KT 都是從相應(yīng)的分割片段KS 中隨機采樣而來。 ( ;)KF T W 是作用在視頻局部片段KT 上參數(shù)為W 的表示卷積網(wǎng)絡(luò)的函數(shù),并且對所有類別會得到相應(yīng)的類別分?jǐn)?shù)。片段一致性函數(shù)G 結(jié)合不同視頻局部片段的輸出結(jié)果得到一個一致性的類別假設(shè)。根據(jù)該假設(shè),函數(shù)H 將會給出整個視頻樣本V 是屬于哪一種行為類別。該算法中函數(shù)H 使用的是 softmax 函數(shù)
訓(xùn)練過程中每訓(xùn)練一個 epoch,對模型在測試集上的準(zhǔn)確率進(jìn)行記錄。訓(xùn)練完成后用這些記錄的數(shù)據(jù)繪制準(zhǔn)確率圖,如圖 5.5 所示。圖5.5 不同采樣幀數(shù)時準(zhǔn)確率隨迭代次數(shù)變化曲線從表 5.3 中可以看出,隨著采樣幀數(shù)也就是 N 的增加,算法在測試集上的識別準(zhǔn)確率不斷提升,但是測試所需時間也相應(yīng)增加。(2)本章算法與現(xiàn)有算法的性能對比為了驗證本章提出的基于時域分割與(2+1)D 卷積神經(jīng)網(wǎng)絡(luò)(TS(2+1)DN)的行為識別算法的有效性,同樣的選擇具有代表性的一些算法在 UCF101 數(shù)據(jù)集上進(jìn)行訓(xùn)練和和測試,表 5.4 列出了各對比算法在 UCF101 數(shù)據(jù)集上的識別準(zhǔn)確率。具體包括C3D[24]、TSN[27]、Res3D[62]、I3D[52]、T3D[63]、ECO[64]、TwoStream[26]。從表 5.4 中可以看出,本章所提算法 TS(2+1)DN 在 UCF101 數(shù)據(jù)集上的識別準(zhǔn)確率達(dá)到了 93.2%,優(yōu)于現(xiàn)有一些算法,但是略低于第四章的算法,分析其原因主要在于該算法利用稀疏采樣策略在一定程度上會損失掉一些信息。表 5.5 中列出了本文提出的三種算法的計算效率
【參考文獻(xiàn)】:
期刊論文
[1]基于時間維度局部特征的人體行為識別[J]. 張九龍,張鎮(zhèn)東,楊夙,高陽,肖照林. 西安理工大學(xué)學(xué)報. 2017(02)
[2]視頻序列中的行為識別研究進(jìn)展[J]. 徐勤軍,吳鎮(zhèn)揚. 電子測量與儀器學(xué)報. 2014(04)
[3]人體動作的超興趣點特征表述及識別[J]. 王揚揚,李一波,姬曉飛. 中國圖象圖形學(xué)報. 2013(07)
本文編號:3025650
【文章來源】:西安電子科技大學(xué)陜西省 211工程院校 教育部直屬院校
【文章頁數(shù)】:76 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2.4雙通道卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)
數(shù)融合輸入視頻 視頻段 時域分割網(wǎng)絡(luò)圖5.1 時域分割網(wǎng)絡(luò)結(jié)構(gòu)[27]如圖 5.1 中所示,時域分割網(wǎng)絡(luò)對輸入視頻樣本的處理過程為:對于一個視頻樣本V ,將其分為長度相同的K 個片段{ }1 2, , ,KS S S,時域分割網(wǎng)絡(luò)對這一系列分割的片段作如下處理:( ) ( ( ( ) ( ) ( )))1 2 1 2, , , ; , ; , ;K KTSN T T T =H G F T W F T W F T W(5-1)其中,( )1 2, , ,KT T T是一系列視頻局部片段,每一個視頻局部片段KT 都是從相應(yīng)的分割片段KS 中隨機采樣而來。 ( ;)KF T W 是作用在視頻局部片段KT 上參數(shù)為W 的表示卷積網(wǎng)絡(luò)的函數(shù),并且對所有類別會得到相應(yīng)的類別分?jǐn)?shù)。片段一致性函數(shù)G 結(jié)合不同視頻局部片段的輸出結(jié)果得到一個一致性的類別假設(shè)。根據(jù)該假設(shè),函數(shù)H 將會給出整個視頻樣本V 是屬于哪一種行為類別。該算法中函數(shù)H 使用的是 softmax 函數(shù)
訓(xùn)練過程中每訓(xùn)練一個 epoch,對模型在測試集上的準(zhǔn)確率進(jìn)行記錄。訓(xùn)練完成后用這些記錄的數(shù)據(jù)繪制準(zhǔn)確率圖,如圖 5.5 所示。圖5.5 不同采樣幀數(shù)時準(zhǔn)確率隨迭代次數(shù)變化曲線從表 5.3 中可以看出,隨著采樣幀數(shù)也就是 N 的增加,算法在測試集上的識別準(zhǔn)確率不斷提升,但是測試所需時間也相應(yīng)增加。(2)本章算法與現(xiàn)有算法的性能對比為了驗證本章提出的基于時域分割與(2+1)D 卷積神經(jīng)網(wǎng)絡(luò)(TS(2+1)DN)的行為識別算法的有效性,同樣的選擇具有代表性的一些算法在 UCF101 數(shù)據(jù)集上進(jìn)行訓(xùn)練和和測試,表 5.4 列出了各對比算法在 UCF101 數(shù)據(jù)集上的識別準(zhǔn)確率。具體包括C3D[24]、TSN[27]、Res3D[62]、I3D[52]、T3D[63]、ECO[64]、TwoStream[26]。從表 5.4 中可以看出,本章所提算法 TS(2+1)DN 在 UCF101 數(shù)據(jù)集上的識別準(zhǔn)確率達(dá)到了 93.2%,優(yōu)于現(xiàn)有一些算法,但是略低于第四章的算法,分析其原因主要在于該算法利用稀疏采樣策略在一定程度上會損失掉一些信息。表 5.5 中列出了本文提出的三種算法的計算效率
【參考文獻(xiàn)】:
期刊論文
[1]基于時間維度局部特征的人體行為識別[J]. 張九龍,張鎮(zhèn)東,楊夙,高陽,肖照林. 西安理工大學(xué)學(xué)報. 2017(02)
[2]視頻序列中的行為識別研究進(jìn)展[J]. 徐勤軍,吳鎮(zhèn)揚. 電子測量與儀器學(xué)報. 2014(04)
[3]人體動作的超興趣點特征表述及識別[J]. 王揚揚,李一波,姬曉飛. 中國圖象圖形學(xué)報. 2013(07)
本文編號:3025650
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3025650.html
最近更新
教材專著