視頻中人體行為建模與識別方法研究
發(fā)布時間:2021-06-08 18:41
視頻中人體行為識別是計算機視覺領(lǐng)域研究的熱點話題,其任務(wù)是利用計算機視覺和深度學(xué)習(xí)算法自動分析和識別視頻中人體發(fā)生的動作,因此被廣泛應(yīng)用于視頻監(jiān)控、互聯(lián)網(wǎng)視頻分析、智能家居、人機交互和購物行為分析等。由于人體動作的類間相似和類內(nèi)差異性以及周圍場景的復(fù)雜性等因素,導(dǎo)致在構(gòu)建人體行為識別模型時遇到許多問題和挑戰(zhàn)。本文主要針對人體行為識別建模時遇到的問題展開研究,具體工作如下:(1)由于監(jiān)控視角、人體姿態(tài)和場景等復(fù)雜的情況,直接通過增加3D卷積神經(jīng)網(wǎng)絡(luò)層數(shù)來提取有效的視覺特征,容易導(dǎo)致卷積模型發(fā)生梯度消失和過擬合,從而降低了行為識別率。針對上述問題,本文提出了一種基于雙重殘差卷積網(wǎng)絡(luò)的識別方法,通過在殘差網(wǎng)絡(luò)中嵌套殘差網(wǎng)絡(luò),充分融合了淺層和深層視覺特征,緩解了模型訓(xùn)練時梯度消失問題帶來的影響,從而使模型性能得到了提升。在多相機跌倒數(shù)據(jù)集和熱舒夫大學(xué)跌倒數(shù)據(jù)集上進行了測試評估,結(jié)果表明雙重殘差網(wǎng)絡(luò)性能優(yōu)于三維卷積網(wǎng)絡(luò)、三維殘差網(wǎng)絡(luò)、偽三維殘差網(wǎng)絡(luò)和2+1維殘差網(wǎng)絡(luò)識別方法,從而驗證了雙重殘差網(wǎng)絡(luò)模型對提高異常行為識別效果的有效性。(2)在視頻中人體活動定位和識別領(lǐng)域中,現(xiàn)有的時序行為提名方法無...
【文章來源】:江南大學(xué)江蘇省 211工程院校 教育部直屬院校
【文章頁數(shù)】:60 頁
【學(xué)位級別】:碩士
【部分圖文】:
數(shù)據(jù)集MCFD視頻示例圖
江南大學(xué)碩士學(xué)位論文1613320個視頻,其中每個視頻時長2-15秒,幀率25fps。圖2-14UCF101視頻示例圖(4)數(shù)據(jù)集Thumos14Thumos14是用于時序行為檢測任務(wù)的視頻數(shù)據(jù)集,包含412個體育運動視頻,共20種動作,如圖2-15所示。其中200個視頻用于訓(xùn)練,212個視頻用于測試。為了訓(xùn)練的需要,將200個視頻的訓(xùn)練視頻集劃分為160和40作為訓(xùn)練集和驗證集。Thumos14視頻集給出了標(biāo)注文件,包含了每個視頻中活動發(fā)生的開始與結(jié)束位置以及活動所屬的類別標(biāo)簽。圖2-15Thumos14視頻示例圖2.7本章小結(jié)本章主要介紹了行為識別流程以及所涉及的一些深度學(xué)習(xí)理論和實驗數(shù)據(jù)集。其中,深度學(xué)習(xí)理論部分簡述了卷積網(wǎng)絡(luò)組成以及3D卷積、Resnet、Inception等典型的神經(jīng)網(wǎng)絡(luò)和長短時記憶力網(wǎng)絡(luò)、門控循環(huán)網(wǎng)絡(luò)等常見的循環(huán)神經(jīng)網(wǎng)絡(luò)。最后,簡要介紹了MCFD、URFD、UCF101和Thumos14行為識別數(shù)據(jù)集。下一章將針對行為識別建模時遇到的梯度消失問題展開研究,并提出相應(yīng)的解決算法。
江南大學(xué)碩士學(xué)位論文34(a)AR-AN召回率曲線(b)召回率曲線局部放大圖圖4-6各循環(huán)網(wǎng)絡(luò)的AR-AN召回率曲線(2)與現(xiàn)有時序提名方法對比為客觀地評估時序行為提名框架性能,將近幾年出現(xiàn)的提名方法進行對比,例如SCNN-prop[22]、DAPs[30]、SST[31]、TURN[51]以及文獻[32]和文獻[52]中的方法。其中,SCNN-prop通過重疊采樣多尺度的視頻片段,然后采用3D卷積提取時空特征進行分類識別,進而篩選出候選時序區(qū)間;文獻[52]采用單向LSTM在整個視頻上建立時序模型,而預(yù)測時序區(qū)間時采用深度強化學(xué)習(xí)算法。一個性能好的時序行為提名框架,能夠產(chǎn)生高召回率和高時序重疊(tIoU)的proposals,實驗結(jié)果如圖4-7、表4-2和表4-3所示。
【參考文獻】:
期刊論文
[1]面向智能監(jiān)控的行為識別[J]. 馬鈺錫,譚勵,董旭,于重重. 中國圖象圖形學(xué)報. 2019(02)
[2]行為識別中一種基于融合特征的改進VLAD編碼方法[J]. 羅會蘭,王嬋娟. 電子學(xué)報. 2019(01)
[3]多尺度輸入3D卷積融合雙流模型的行為識別方法[J]. 宋立飛,翁理國,汪凌峰,夏旻. 計算機輔助設(shè)計與圖形學(xué)學(xué)報. 2018(11)
[4]一種基于深度度量學(xué)習(xí)的視頻分類方法[J]. 智洪欣,于洪濤,李邵梅,高超,王艷川. 電子與信息學(xué)報. 2018(11)
[5]一種基于線性序列差異分析降維的人體行為識別方法[J]. 鹿天然,于鳳芹,陳瑩. 計算機工程. 2019(03)
[6]基于改進Faster R-CNN的空中目標(biāo)檢測[J]. 馮小雨,梅衛(wèi),胡大帥. 光學(xué)學(xué)報. 2018(06)
[7]結(jié)合有序光流圖和雙流卷積網(wǎng)絡(luò)的行為識別[J]. 李慶輝,李艾華,王濤,崔智高. 光學(xué)學(xué)報. 2018(06)
博士論文
[1]基于遞歸神經(jīng)網(wǎng)絡(luò)的視頻行為建模和識別方法研究[D]. 杜文斌.中國科學(xué)院大學(xué)(中國科學(xué)院深圳先進技術(shù)研究院) 2018
碩士論文
[1]基于全卷積神經(jīng)網(wǎng)絡(luò)的圖像顯著性檢測[D]. 張松龍.江南大學(xué) 2019
[2]基于動態(tài)得分網(wǎng)絡(luò)和自適應(yīng)互補結(jié)構(gòu)的時序行為提名與檢測方法[D]. 李磊.華南理工大學(xué) 2019
本文編號:3218989
【文章來源】:江南大學(xué)江蘇省 211工程院校 教育部直屬院校
【文章頁數(shù)】:60 頁
【學(xué)位級別】:碩士
【部分圖文】:
數(shù)據(jù)集MCFD視頻示例圖
江南大學(xué)碩士學(xué)位論文1613320個視頻,其中每個視頻時長2-15秒,幀率25fps。圖2-14UCF101視頻示例圖(4)數(shù)據(jù)集Thumos14Thumos14是用于時序行為檢測任務(wù)的視頻數(shù)據(jù)集,包含412個體育運動視頻,共20種動作,如圖2-15所示。其中200個視頻用于訓(xùn)練,212個視頻用于測試。為了訓(xùn)練的需要,將200個視頻的訓(xùn)練視頻集劃分為160和40作為訓(xùn)練集和驗證集。Thumos14視頻集給出了標(biāo)注文件,包含了每個視頻中活動發(fā)生的開始與結(jié)束位置以及活動所屬的類別標(biāo)簽。圖2-15Thumos14視頻示例圖2.7本章小結(jié)本章主要介紹了行為識別流程以及所涉及的一些深度學(xué)習(xí)理論和實驗數(shù)據(jù)集。其中,深度學(xué)習(xí)理論部分簡述了卷積網(wǎng)絡(luò)組成以及3D卷積、Resnet、Inception等典型的神經(jīng)網(wǎng)絡(luò)和長短時記憶力網(wǎng)絡(luò)、門控循環(huán)網(wǎng)絡(luò)等常見的循環(huán)神經(jīng)網(wǎng)絡(luò)。最后,簡要介紹了MCFD、URFD、UCF101和Thumos14行為識別數(shù)據(jù)集。下一章將針對行為識別建模時遇到的梯度消失問題展開研究,并提出相應(yīng)的解決算法。
江南大學(xué)碩士學(xué)位論文34(a)AR-AN召回率曲線(b)召回率曲線局部放大圖圖4-6各循環(huán)網(wǎng)絡(luò)的AR-AN召回率曲線(2)與現(xiàn)有時序提名方法對比為客觀地評估時序行為提名框架性能,將近幾年出現(xiàn)的提名方法進行對比,例如SCNN-prop[22]、DAPs[30]、SST[31]、TURN[51]以及文獻[32]和文獻[52]中的方法。其中,SCNN-prop通過重疊采樣多尺度的視頻片段,然后采用3D卷積提取時空特征進行分類識別,進而篩選出候選時序區(qū)間;文獻[52]采用單向LSTM在整個視頻上建立時序模型,而預(yù)測時序區(qū)間時采用深度強化學(xué)習(xí)算法。一個性能好的時序行為提名框架,能夠產(chǎn)生高召回率和高時序重疊(tIoU)的proposals,實驗結(jié)果如圖4-7、表4-2和表4-3所示。
【參考文獻】:
期刊論文
[1]面向智能監(jiān)控的行為識別[J]. 馬鈺錫,譚勵,董旭,于重重. 中國圖象圖形學(xué)報. 2019(02)
[2]行為識別中一種基于融合特征的改進VLAD編碼方法[J]. 羅會蘭,王嬋娟. 電子學(xué)報. 2019(01)
[3]多尺度輸入3D卷積融合雙流模型的行為識別方法[J]. 宋立飛,翁理國,汪凌峰,夏旻. 計算機輔助設(shè)計與圖形學(xué)學(xué)報. 2018(11)
[4]一種基于深度度量學(xué)習(xí)的視頻分類方法[J]. 智洪欣,于洪濤,李邵梅,高超,王艷川. 電子與信息學(xué)報. 2018(11)
[5]一種基于線性序列差異分析降維的人體行為識別方法[J]. 鹿天然,于鳳芹,陳瑩. 計算機工程. 2019(03)
[6]基于改進Faster R-CNN的空中目標(biāo)檢測[J]. 馮小雨,梅衛(wèi),胡大帥. 光學(xué)學(xué)報. 2018(06)
[7]結(jié)合有序光流圖和雙流卷積網(wǎng)絡(luò)的行為識別[J]. 李慶輝,李艾華,王濤,崔智高. 光學(xué)學(xué)報. 2018(06)
博士論文
[1]基于遞歸神經(jīng)網(wǎng)絡(luò)的視頻行為建模和識別方法研究[D]. 杜文斌.中國科學(xué)院大學(xué)(中國科學(xué)院深圳先進技術(shù)研究院) 2018
碩士論文
[1]基于全卷積神經(jīng)網(wǎng)絡(luò)的圖像顯著性檢測[D]. 張松龍.江南大學(xué) 2019
[2]基于動態(tài)得分網(wǎng)絡(luò)和自適應(yīng)互補結(jié)構(gòu)的時序行為提名與檢測方法[D]. 李磊.華南理工大學(xué) 2019
本文編號:3218989
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3218989.html
最近更新
教材專著