天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于3D卷積神經(jīng)網(wǎng)絡(luò)的人體動(dòng)作識(shí)別方法研究

發(fā)布時(shí)間:2021-07-28 06:49
  基于視頻的人體動(dòng)作識(shí)別,作為近些年來(lái)視覺(jué)領(lǐng)域中一個(gè)熱門的研究課題,被廣泛用于智能人機(jī)交互和虛擬現(xiàn)實(shí)、智能視頻監(jiān)控和基于內(nèi)容的視頻檢索、智慧醫(yī)療和看護(hù)等領(lǐng)域。然而在雜亂背景、遮擋和光照變化等現(xiàn)實(shí)環(huán)境下,如何從復(fù)雜、多變的人體動(dòng)作中提取更加魯棒性的特征,是動(dòng)作識(shí)別領(lǐng)域中的一個(gè)研究難點(diǎn)。傳統(tǒng)方法通常需要手工設(shè)計(jì)特征,并依賴足夠的先驗(yàn)知識(shí)來(lái)取得較高的動(dòng)作識(shí)別率。得益于CNN在圖像分類、目標(biāo)檢測(cè)等視覺(jué)任務(wù)上的成功適用,許多優(yōu)秀的深度學(xué)習(xí)方法也逐漸用于動(dòng)作識(shí)別研究,并取得一些重大進(jìn)展。本文基于3D CNN架構(gòu)對(duì)動(dòng)作識(shí)別進(jìn)行深入研究,主要工作內(nèi)容如下:(1)針對(duì)現(xiàn)有的3D CNN架構(gòu),因其模型復(fù)雜度高而導(dǎo)致難以學(xué)習(xí)更加豐富、抽象的深層特征,提出了輕量級(jí)多尺度卷積模型。該模型通過(guò)在3D卷積殘差網(wǎng)絡(luò)中嵌入輕量級(jí)多尺度卷積模塊來(lái)增加每層網(wǎng)絡(luò)中的局部感受野范圍,在顯著減少模型復(fù)雜度的同時(shí),還提取了目標(biāo)在細(xì)粒級(jí)別上的多尺度特征,顯著增強(qiáng)了對(duì)目標(biāo)的表征能力。最后,利用通道注意力機(jī)制對(duì)多尺度特征進(jìn)行關(guān)鍵特征提取。實(shí)驗(yàn)結(jié)果表明,本文模型取得了較高的動(dòng)作識(shí)別率。(2)考慮到RGB圖像含有豐富的外觀信息,能夠很好的對(duì)人... 

【文章來(lái)源】:安徽大學(xué)安徽省 211工程院校

【文章頁(yè)數(shù)】:61 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于3D卷積神經(jīng)網(wǎng)絡(luò)的人體動(dòng)作識(shí)別方法研究


動(dòng)作識(shí)別技術(shù)的部分應(yīng)用場(chǎng)景智能人機(jī)交互和虛擬現(xiàn)實(shí)

流程圖,流程,動(dòng)作識(shí)別,方法


安徽大學(xué)碩士學(xué)位論文3需要足夠的先驗(yàn)知識(shí)來(lái)支撐,才能達(dá)到較高的動(dòng)作識(shí)別率。根據(jù)所提取特征類型的不同,又可將基于傳統(tǒng)的動(dòng)作識(shí)別方法分為基于人體幾何形狀的方法、基于運(yùn)動(dòng)信息的方法以及基于時(shí)空興趣點(diǎn)的方法。而基于深度學(xué)習(xí)的動(dòng)作識(shí)別則是一種端到端的方法,能夠直接從原始RGB視頻序列中自動(dòng)學(xué)習(xí)相關(guān)特征并用于動(dòng)作分類,依據(jù)網(wǎng)絡(luò)結(jié)構(gòu)的不同,主要分為基于雙流卷積神經(jīng)網(wǎng)絡(luò)的動(dòng)作識(shí)別方法、基于3D卷積神經(jīng)網(wǎng)絡(luò)的動(dòng)作識(shí)別方法以及基于長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的動(dòng)作識(shí)別方法。圖1.2人體動(dòng)作識(shí)別的一般流程隨著性價(jià)比高的深度攝像頭(如Kinect)的出現(xiàn)和應(yīng)用,基于RGB-D數(shù)據(jù)的人體動(dòng)作識(shí)別也逐漸發(fā)展起來(lái)。相比較RGB數(shù)據(jù)而言,RGB-D數(shù)據(jù)具有不易受光照、背景等因素影響的特點(diǎn);赗GB-D數(shù)據(jù)的動(dòng)作識(shí)別方法依據(jù)所使用數(shù)據(jù)類型的不同,可分為基于深度圖像的方法、基于骨骼數(shù)據(jù)的方法以及基于多特征融合的方法。如圖1.3所示,展示了目前比較主流的動(dòng)作識(shí)別方法。而這些研究方法的詳細(xì)闡述將會(huì)在本文的第2章進(jìn)行展開(kāi)介紹。基于人體幾何形狀基于運(yùn)動(dòng)信息基于時(shí)空興趣點(diǎn)基于雙流卷積神經(jīng)網(wǎng)絡(luò)基于3D卷積神經(jīng)網(wǎng)絡(luò)基于長(zhǎng)短期記憶網(wǎng)絡(luò)基于傳統(tǒng)的動(dòng)作識(shí)別方法基于深度學(xué)習(xí)的動(dòng)作識(shí)別方法基于深度圖像基于骨骼數(shù)據(jù)基于多特征融合基于RGB-D數(shù)據(jù)的動(dòng)作識(shí)別方法基于RGB數(shù)據(jù)的動(dòng)作識(shí)別方法人體動(dòng)作識(shí)別圖1.3目前比較主流的動(dòng)作識(shí)別研究方法

數(shù)據(jù)集,以色列,類別,個(gè)人


安徽大學(xué)碩士學(xué)位論文15個(gè)視頻又可分割為4個(gè)子片段,因此KTH數(shù)據(jù)集一共有2391個(gè)視頻片段,視頻分辨率均為160*120,平均時(shí)長(zhǎng)為4s。如圖2.1所示,顯示了在4種場(chǎng)景下完成的6類動(dòng)作,從左到右依次是走路、慢跑、快跑、出拳、揮手以及拍手動(dòng)作,從上到下依次是尺度變化的s1和s2場(chǎng)景、以及衣著變化的s3和s4場(chǎng)景。圖2.1KTH數(shù)據(jù)集的動(dòng)作類別Weizmann數(shù)據(jù)集由以色列Weizmanninstitute于2005年發(fā)布,由9個(gè)人表現(xiàn)10類動(dòng)作,共計(jì)90個(gè)樣本,視頻分辨率均為180*144。如圖2.2所示,第一排依次是雙臂揮手、彎腰、跳躍、跑步以及走路動(dòng)作。第二排依次是單臂揮手、向前跳躍、向上跳躍、側(cè)身跑步以及單腳跑動(dòng)作。由于該數(shù)據(jù)集樣本數(shù)量較少,因此比較適合遷移學(xué)習(xí)或者小樣本學(xué)習(xí)。KTH和Weizmann均是早期經(jīng)典的動(dòng)作識(shí)別數(shù)據(jù)集,也是目前文獻(xiàn)引用率最高的兩個(gè)數(shù)據(jù)集。但是這兩個(gè)數(shù)據(jù)集有很大的局限性,一是在簡(jiǎn)單背景下表現(xiàn)單一動(dòng)作,二是相機(jī)拍攝角度相對(duì)固定,這與真實(shí)場(chǎng)景相差甚遠(yuǎn)。圖2.2Weizmann數(shù)據(jù)集的動(dòng)作類別(2)Hollywood2[57]數(shù)據(jù)集法國(guó)IRISA研究院于2008年發(fā)布了Hollywood數(shù)據(jù)集,包含了8類動(dòng)作,共計(jì)475個(gè)視頻,但是該數(shù)據(jù)集是在場(chǎng)景受控的環(huán)境下進(jìn)行拍攝的,同時(shí)樣本數(shù)量較少。于是IRISA研究院便在2009年發(fā)布了Hollywood2數(shù)據(jù)集,包含了10個(gè)不同場(chǎng)景下

【參考文獻(xiàn)】:
期刊論文
[1]基于Bi-LSTM-Attention模型的人體行為識(shí)別算法[J]. 朱銘康,盧先領(lǐng).  激光與光電子學(xué)進(jìn)展. 2019(15)
[2]人體動(dòng)作行為識(shí)別研究綜述[J]. 李瑞峰,王亮亮,王珂.  模式識(shí)別與人工智能. 2014(01)
[3]漫談“智慧醫(yī)療”[J]. 曹劍峰,范啟勇.  上海信息化. 2011(03)



本文編號(hào):3307447

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3307447.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶fb9b9***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com