基于深度神經(jīng)網(wǎng)絡的人體行為識別研究
發(fā)布時間:2021-11-12 19:38
人體的行為識別是計算機視覺領域的一個重要問題,有著極大的應用范圍。比如人機交互、安全防護、多媒體的視頻理解和虛擬現(xiàn)實等。伴隨著大規(guī)模人體行為數(shù)據(jù)集的獲得和硬件計算能力的進步,以深度神經(jīng)網(wǎng)絡為代表的深度學習技術有了長足發(fā)展,在一些計算機視覺問題上取得了以往傳統(tǒng)方法所不能達到的性能,然而現(xiàn)有方法仍有一些的局限。結合實際應用需求,本文針對人體行為識別中如下兩個方向進行展開:(1)基于RGB視頻的二維人體行為識別研究;(2)基于骨架坐標點云的三維人體行為識別研究。主要的研究工作和貢獻如下:(1)基于RGB視頻的二維人體行為識別研究針對2D行為視頻中存在時間和空間兩個維度的信息,設計了一種二維卷積神經(jīng)網(wǎng)絡(Convolution Neural Networks,CNN)和雙流的長短時記憶模型(Long-Short Term Memory,LSTM)相結合的方法,能夠同時對時間信息和空間信息進行建模。針對RGB視頻中背景信息過于冗雜、人體運動信息不夠凸顯的問題,設計了一種全新的跨時空注意力機制,該機制經(jīng)過訓練之后,可以對一個行為視頻中不同時間幀和同一幀上不同的位置進行關注,能夠?qū)W習到對行為類別價值...
【文章來源】:廣西師范大學廣西壯族自治區(qū)
【文章頁數(shù)】:53 頁
【學位級別】:碩士
【部分圖文】:
來自YouTube網(wǎng)站的彈吉他和跑步視頻截圖
圖 1-1 來自 YouTube 網(wǎng)站的彈吉他和跑步視頻截圖比如在地鐵、超市或火車站等人員密集的場所,為了安防需要布置了大量的攝像攝像頭記錄了大量的視頻資料,包含了各式各樣的人體行為。但對于分析理解這內(nèi)容,人們還處于較為初級的方法,我們時常聽到一些報道:某個公安部門為了頻中搜查罪犯,發(fā)動全部門的人員來肉眼查看監(jiān)控視頻。這樣的做法是耗時耗究表明人類對著屏幕的有效精力集中的時間只有十幾分鐘,超出了便會頭昏腦脹降等生理問題。因此如何有效分析理解這些多媒體資料,對計算機視覺技術新的2 為某地的監(jiān)控視頻截圖和監(jiān)控室。
第 1 章 緒論內(nèi)存空間,在人機交互方面并不能很好地提供實時的要求。一些科技巨頭公司推三維深度攝像頭來改進這些問題,比如微軟公司在 2010 年推出了 Kinect 攝像頭時拍攝二維的 RGB 視頻、3D 的深度視頻和三維的人體骨架坐標點云。由深度攝的人體 3D 坐標點云具有內(nèi)存小、無背景干擾等優(yōu)點,迅速成為了一些的人體交主流選擇。如何分析這些三維點云信息成了解決人體行為識別的關鍵。圖 1-3 即inect 深度攝像頭與人體骨架三維坐標的獲取示意圖。
【參考文獻】:
期刊論文
[1]Saliency guided local and global descriptors for effective action recognition[J]. Ashwan Abdulmunem,Yu-Kun Lai,Xianfang Sun. Computational Visual Media. 2016(01)
博士論文
[1]視頻中人體行為識別若干問題研究[D]. 裴利沈.電子科技大學 2016
本文編號:3491535
【文章來源】:廣西師范大學廣西壯族自治區(qū)
【文章頁數(shù)】:53 頁
【學位級別】:碩士
【部分圖文】:
來自YouTube網(wǎng)站的彈吉他和跑步視頻截圖
圖 1-1 來自 YouTube 網(wǎng)站的彈吉他和跑步視頻截圖比如在地鐵、超市或火車站等人員密集的場所,為了安防需要布置了大量的攝像攝像頭記錄了大量的視頻資料,包含了各式各樣的人體行為。但對于分析理解這內(nèi)容,人們還處于較為初級的方法,我們時常聽到一些報道:某個公安部門為了頻中搜查罪犯,發(fā)動全部門的人員來肉眼查看監(jiān)控視頻。這樣的做法是耗時耗究表明人類對著屏幕的有效精力集中的時間只有十幾分鐘,超出了便會頭昏腦脹降等生理問題。因此如何有效分析理解這些多媒體資料,對計算機視覺技術新的2 為某地的監(jiān)控視頻截圖和監(jiān)控室。
第 1 章 緒論內(nèi)存空間,在人機交互方面并不能很好地提供實時的要求。一些科技巨頭公司推三維深度攝像頭來改進這些問題,比如微軟公司在 2010 年推出了 Kinect 攝像頭時拍攝二維的 RGB 視頻、3D 的深度視頻和三維的人體骨架坐標點云。由深度攝的人體 3D 坐標點云具有內(nèi)存小、無背景干擾等優(yōu)點,迅速成為了一些的人體交主流選擇。如何分析這些三維點云信息成了解決人體行為識別的關鍵。圖 1-3 即inect 深度攝像頭與人體骨架三維坐標的獲取示意圖。
【參考文獻】:
期刊論文
[1]Saliency guided local and global descriptors for effective action recognition[J]. Ashwan Abdulmunem,Yu-Kun Lai,Xianfang Sun. Computational Visual Media. 2016(01)
博士論文
[1]視頻中人體行為識別若干問題研究[D]. 裴利沈.電子科技大學 2016
本文編號:3491535
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3491535.html
最近更新
教材專著