基于視頻的人體行為識別技術(shù)研究
發(fā)布時間:2021-01-05 13:37
人體行為識別一直是計算機視覺研究的熱點,被廣泛應(yīng)用于醫(yī)療康復(fù)訓(xùn)練、智慧交通、人機交互等眾多領(lǐng)域,應(yīng)用前景非常廣泛,具有很大的研究價值。但由于視頻維度較高、處理比較復(fù)雜,且模型識別精度不高等特點,需要提出了相應(yīng)的策略進行改進。本文針對LRCN和雙流網(wǎng)絡(luò),提出了兩種網(wǎng)絡(luò)模型結(jié)構(gòu),一種是在LRCN的基礎(chǔ)上提出的比較簡單的串聯(lián)式網(wǎng)絡(luò),另一種是在雙流網(wǎng)絡(luò)的基礎(chǔ)上,提出了一種融合策略以及提取全局時間信息的方法。本文的主要工作如下:(1)總結(jié)并分析了人體行為識別的數(shù)據(jù)集和常用方法,并進行了一定的歸類處理。并對深度學(xué)習(xí)的一些常用基礎(chǔ)理論知識進行了一定的總結(jié)歸納。(2)在LRCN的基礎(chǔ)上,提出了一種基于CNN、Bi-LSTM、MLP的串聯(lián)式網(wǎng)絡(luò)架構(gòu)的人體行為識別方法。在視頻預(yù)處理時采用了平均稀疏下采樣的方法,可以有效的解決視頻無法直接輸入卷積的問題,同時又能有效的降低時間復(fù)雜度,減少模型訓(xùn)練和前向傳播的時間,另外,區(qū)別于其他模型僅使用LSTM,采用Bi-LSTM能同時學(xué)習(xí)到視頻序列的“順序”和“逆序”信息。(3)在雙流網(wǎng)絡(luò)的基礎(chǔ)上,提出了一種基于雙流網(wǎng)絡(luò)和Bi-GRU的并聯(lián)式網(wǎng)絡(luò)架構(gòu)的人體行為識別方法,...
【文章來源】:廣東工業(yè)大學(xué)廣東省
【文章頁數(shù)】:76 頁
【學(xué)位級別】:碩士
【部分圖文】:
視頻中的運動軌跡示意圖
第一章 緒論3 基于深度學(xué)習(xí)的人體行為識別人工特征并不能保證能夠提取視頻中足夠多的有效信息,而深度學(xué)習(xí)的在于:不在視頻中定義特征并提取定義的人工特征,讓模型自己從原學(xué)習(xí)有價值的信息。當(dāng)然深度學(xué)習(xí)方法[22]也會適當(dāng)引入一些人工特征些信息的不足,從效果上而言,該方法一般優(yōu)于傳統(tǒng)方法,目前成為流方向。由于深度學(xué)習(xí)中提取圖視頻的空間信息比較簡單,使用卷積即可實現(xiàn),的研究點在于如何有效提取視頻中的時間信息,并且如何把時間信息息進行融合也是該方向研究的重點內(nèi)容。從模型的網(wǎng)絡(luò)結(jié)構(gòu)看,可以型分為串聯(lián)式網(wǎng)絡(luò)和并聯(lián)式網(wǎng)絡(luò),這有點像電路的串聯(lián)和并聯(lián)。
廣東工業(yè)大學(xué)碩士學(xué)位論文。Wang X 等人[48]采用 3D-CNN 提取時間信息,再使用 LSTM 進行融合。不于 3D-CNN 的行為識別最經(jīng)典的模型是 Du Tran 等人[49]提出的 C3D,但是由-CNN 只能獲取固定長度的時間信息,不能提取整個視頻的時間信息,所以很大的發(fā)展空間。另一種非標(biāo)準(zhǔn)的串聯(lián)式網(wǎng)絡(luò)是 Karpathy A 等人[50]提出來單的采用 CNN 提取時間信息,但是為了提取空間信息,提出了晚融合、早和慢融合策略,不過這種方法相比于上述兩種方法精度低,優(yōu)勢不大,屬期探索的一種網(wǎng)絡(luò)模型。
【參考文獻】:
期刊論文
[1]基于視覺的人體行為識別算法研究綜述[J]. 陳煜平,邱衛(wèi)根. 計算機應(yīng)用研究. 2019(07)
本文編號:2958762
【文章來源】:廣東工業(yè)大學(xué)廣東省
【文章頁數(shù)】:76 頁
【學(xué)位級別】:碩士
【部分圖文】:
視頻中的運動軌跡示意圖
第一章 緒論3 基于深度學(xué)習(xí)的人體行為識別人工特征并不能保證能夠提取視頻中足夠多的有效信息,而深度學(xué)習(xí)的在于:不在視頻中定義特征并提取定義的人工特征,讓模型自己從原學(xué)習(xí)有價值的信息。當(dāng)然深度學(xué)習(xí)方法[22]也會適當(dāng)引入一些人工特征些信息的不足,從效果上而言,該方法一般優(yōu)于傳統(tǒng)方法,目前成為流方向。由于深度學(xué)習(xí)中提取圖視頻的空間信息比較簡單,使用卷積即可實現(xiàn),的研究點在于如何有效提取視頻中的時間信息,并且如何把時間信息息進行融合也是該方向研究的重點內(nèi)容。從模型的網(wǎng)絡(luò)結(jié)構(gòu)看,可以型分為串聯(lián)式網(wǎng)絡(luò)和并聯(lián)式網(wǎng)絡(luò),這有點像電路的串聯(lián)和并聯(lián)。
廣東工業(yè)大學(xué)碩士學(xué)位論文。Wang X 等人[48]采用 3D-CNN 提取時間信息,再使用 LSTM 進行融合。不于 3D-CNN 的行為識別最經(jīng)典的模型是 Du Tran 等人[49]提出的 C3D,但是由-CNN 只能獲取固定長度的時間信息,不能提取整個視頻的時間信息,所以很大的發(fā)展空間。另一種非標(biāo)準(zhǔn)的串聯(lián)式網(wǎng)絡(luò)是 Karpathy A 等人[50]提出來單的采用 CNN 提取時間信息,但是為了提取空間信息,提出了晚融合、早和慢融合策略,不過這種方法相比于上述兩種方法精度低,優(yōu)勢不大,屬期探索的一種網(wǎng)絡(luò)模型。
【參考文獻】:
期刊論文
[1]基于視覺的人體行為識別算法研究綜述[J]. 陳煜平,邱衛(wèi)根. 計算機應(yīng)用研究. 2019(07)
本文編號:2958762
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/2958762.html
最近更新
教材專著