基于3D卷積神經(jīng)網(wǎng)絡(luò)的人體動作識別方法研究

發(fā)布時間：2021-07-28 06:49

　　基于視頻的人體動作識別,作為近些年來視覺領(lǐng)域中一個熱門的研究課題,被廣泛用于智能人機交互和虛擬現(xiàn)實、智能視頻監(jiān)控和基于內(nèi)容的視頻檢索、智慧醫(yī)療和看護等領(lǐng)域。然而在雜亂背景、遮擋和光照變化等現(xiàn)實環(huán)境下,如何從復(fù)雜、多變的人體動作中提取更加魯棒性的特征,是動作識別領(lǐng)域中的一個研究難點。傳統(tǒng)方法通常需要手工設(shè)計特征,并依賴足夠的先驗知識來取得較高的動作識別率。得益于CNN在圖像分類、目標檢測等視覺任務(wù)上的成功適用,許多優(yōu)秀的深度學(xué)習(xí)方法也逐漸用于動作識別研究,并取得一些重大進展。本文基于3D CNN架構(gòu)對動作識別進行深入研究,主要工作內(nèi)容如下:（1）針對現(xiàn)有的3D CNN架構(gòu),因其模型復(fù)雜度高而導(dǎo)致難以學(xué)習(xí)更加豐富、抽象的深層特征,提出了輕量級多尺度卷積模型。該模型通過在3D卷積殘差網(wǎng)絡(luò)中嵌入輕量級多尺度卷積模塊來增加每層網(wǎng)絡(luò)中的局部感受野范圍,在顯著減少模型復(fù)雜度的同時,還提取了目標在細粒級別上的多尺度特征,顯著增強了對目標的表征能力。最后,利用通道注意力機制對多尺度特征進行關(guān)鍵特征提取。實驗結(jié)果表明,本文模型取得了較高的動作識別率。（2）考慮到RGB圖像含有豐富的外觀信息,能夠很好的對人...

【文章來源】：安徽大學(xué)安徽省 211工程院校

【文章頁數(shù)】：61 頁

【學(xué)位級別】：碩士

【部分圖文】：

動作識別技術(shù)的部分應(yīng)用場景智能人機交互和虛擬現(xiàn)實

流程圖,流程,動作識別,方法

安徽大學(xué)碩士學(xué)位論文3需要足夠的先驗知識來支撐，才能達到較高的動作識別率。根據(jù)所提取特征類型的不同，又可將基于傳統(tǒng)的動作識別方法分為基于人體幾何形狀的方法、基于運動信息的方法以及基于時空興趣點的方法。而基于深度學(xué)習(xí)的動作識別則是一種端到端的方法，能夠直接從原始RGB視頻序列中自動學(xué)習(xí)相關(guān)特征并用于動作分類，依據(jù)網(wǎng)絡(luò)結(jié)構(gòu)的不同，主要分為基于雙流卷積神經(jīng)網(wǎng)絡(luò)的動作識別方法、基于3D卷積神經(jīng)網(wǎng)絡(luò)的動作識別方法以及基于長短時記憶網(wǎng)絡(luò)的動作識別方法。圖1.2人體動作識別的一般流程隨著性價比高的深度攝像頭（如Kinect）的出現(xiàn)和應(yīng)用，基于RGB-D數(shù)據(jù)的人體動作識別也逐漸發(fā)展起來。相比較RGB數(shù)據(jù)而言，RGB-D數(shù)據(jù)具有不易受光照、背景等因素影響的特點�；赗GB-D數(shù)據(jù)的動作識別方法依據(jù)所使用數(shù)據(jù)類型的不同，可分為基于深度圖像的方法、基于骨骼數(shù)據(jù)的方法以及基于多特征融合的方法。如圖1.3所示，展示了目前比較主流的動作識別方法。而這些研究方法的詳細闡述將會在本文的第2章進行展開介紹。基于人體幾何形狀基于運動信息基于時空興趣點基于雙流卷積神經(jīng)網(wǎng)絡(luò)基于3D卷積神經(jīng)網(wǎng)絡(luò)基于長短期記憶網(wǎng)絡(luò)基于傳統(tǒng)的動作識別方法基于深度學(xué)習(xí)的動作識別方法基于深度圖像基于骨骼數(shù)據(jù)基于多特征融合基于RGB-D數(shù)據(jù)的動作識別方法基于RGB數(shù)據(jù)的動作識別方法人體動作識別圖1.3目前比較主流的動作識別研究方法

數(shù)據(jù)集,以色列,類別,個人

安徽大學(xué)碩士學(xué)位論文15個視頻又可分割為4個子片段，因此KTH數(shù)據(jù)集一共有2391個視頻片段，視頻分辨率均為160*120，平均時長為4s。如圖2.1所示，顯示了在4種場景下完成的6類動作，從左到右依次是走路、慢跑、快跑、出拳、揮手以及拍手動作，從上到下依次是尺度變化的s1和s2場景、以及衣著變化的s3和s4場景。圖2.1KTH數(shù)據(jù)集的動作類別Weizmann數(shù)據(jù)集由以色列Weizmanninstitute于2005年發(fā)布，由9個人表現(xiàn)10類動作，共計90個樣本，視頻分辨率均為180*144。如圖2.2所示，第一排依次是雙臂揮手、彎腰、跳躍、跑步以及走路動作。第二排依次是單臂揮手、向前跳躍、向上跳躍、側(cè)身跑步以及單腳跑動作。由于該數(shù)據(jù)集樣本數(shù)量較少，因此比較適合遷移學(xué)習(xí)或者小樣本學(xué)習(xí)。KTH和Weizmann均是早期經(jīng)典的動作識別數(shù)據(jù)集，也是目前文獻引用率最高的兩個數(shù)據(jù)集。但是這兩個數(shù)據(jù)集有很大的局限性，一是在簡單背景下表現(xiàn)單一動作，二是相機拍攝角度相對固定，這與真實場景相差甚遠。圖2.2Weizmann數(shù)據(jù)集的動作類別（2）Hollywood2[57]數(shù)據(jù)集法國IRISA研究院于2008年發(fā)布了Hollywood數(shù)據(jù)集，包含了8類動作，共計475個視頻，但是該數(shù)據(jù)集是在場景受控的環(huán)境下進行拍攝的，同時樣本數(shù)量較少。于是IRISA研究院便在2009年發(fā)布了Hollywood2數(shù)據(jù)集，包含了10個不同場景下

【參考文獻】：
期刊論文
[1]基于Bi-LSTM-Attention模型的人體行為識別算法[J]. 朱銘康,盧先領(lǐng).  激光與光電子學(xué)進展. 2019(15)
[2]人體動作行為識別研究綜述[J]. 李瑞峰,王亮亮,王珂.  模式識別與人工智能. 2014(01)
[3]漫談“智慧醫(yī)療”[J]. 曹劍峰,范啟勇.  上海信息化. 2011(03)

本文編號：3307447

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/shengwushengchang/3307447.html

上一篇：基于社交網(wǎng)絡(luò)的事件屬性與發(fā)展趨勢分析
下一篇：基于OCT技術(shù)的生物體心臟生理特性分析及微血管造影成像

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于3D卷積神經(jīng)網(wǎng)絡(luò)的人體動作識別方法研究