基于RGB-D圖像序列的人體行為識別研究
發(fā)布時間:2021-08-09 11:01
人體行為識別在智能監(jiān)控、人機交互、虛擬現(xiàn)實、視頻檢索等方面有廣泛的應用前景,而受到學術界和工業(yè)界的廣泛關注。傳統(tǒng)的基于可見光(RGB)圖像序列的人體行為識別極易受到光照變化、陰影以及復雜背景等因素的干擾。隨著價格低廉以及容易操作的彩色-深度(RGB-D)攝像機(Kinect)出現(xiàn),越來越多研究學者將Kinect所采集的深度(Depth)圖像用于人體行為識別研究。與RGB圖像相比,Depth圖像對光照、陰影以及其它環(huán)境變化不敏感,但是Depth圖像缺乏足夠的顏色、紋理信息。因此,利用RGB和Depth圖像之間的互補特性能夠顯著提高人體行為識別的精度和魯棒性。而RGB和Depth圖像的結合也為人體行為識別帶來新的挑戰(zhàn),如不同模態(tài)圖像之間潛在的語義關聯(lián)性、互補性以及它們的顯著差異性、表達內容多樣性等。面對以上挑戰(zhàn),國內外研究學者圍繞RGB和Depth圖像的融合開展人體行為識別的研究。然而,現(xiàn)有的行為識別方法仍存在以下問題:(1)傳統(tǒng)底層特征方法由于需要人工設計,使得其對行為數(shù)據(jù)拍攝場景、光照、姿態(tài)等因素的泛化能力不足,同時由于不同模態(tài)圖像表現(xiàn)差異,使得RGB底層特征對Depth圖像中目標的紋...
【文章來源】:北京郵電大學北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:143 頁
【學位級別】:博士
【部分圖文】:
圖1-1由Kinect采集的MSR?Daily?Activity?3D數(shù)據(jù)集中的RGB和深度圖像示例??鑒于以上三點,基于深度攝像機所獲取的傳統(tǒng)可見光圖像、深度圖像以及人??
?為識別[7]、基于骨骼數(shù)據(jù)的人體行為識別[8]以及融合多模態(tài)數(shù)據(jù)的人體行為識別??[9,1()]等。而根據(jù)不同的行為特征提取與表征方法,又可以將行為識別算法分為基??于傳統(tǒng)機器學習和深度學習[1(),11]的人體行為識別方法。為了論文后續(xù)的深入研究,??下面分別從RGB圖像、Depth圖像以及兩者的融合來介紹國內外學者在人體行??為識別領域的一些代表性工作。??人體行為序列???行為特征提取???行為特征表達???行為分類/識別??iVS!?\?MM\?I、工二t?I??圖1-2人體行為識別一般框架??1.2.2基于RGB圖像的人體行為識別方法??在人體行為識別的研究前期,大部分的研究都是基于RGB圖像序列。而基??于RGB圖像的人體行為識別方法又可以分為基于全局、局部特征的傳統(tǒng)行為識??別方法和基于深度學習的行為識別方法。本小節(jié)從這兩類方法出發(fā)對己有的研究??成果進行簡要回顧。??(1)基于傳統(tǒng)人工設計特征的行為識別方法。在深度學習技術沒有表現(xiàn)出其??強大的辨識能力之前,基于人工設計特征的方法在行為識別研宄領域中占據(jù)主導??地位,并產(chǎn)生了大量研究成果。這些成果主要集中在人體行為識別的特征提娶??特征表達以及分類識別三個階段。??a)特征提齲在行為識別的過程中,常提取的特征有全局特征和局部特征。??其中,全局特征通過背景建模、前景分割等方法獲取視頻中的人體前景目標,然??后提取人體前景目標的外觀或運動信息用來描述人體行為。常用的全局特征有人??體輪廓特征[12],時空形狀特征[13],形狀-運動特征[14]等。全局特征的提取嚴重依??賴于背景建模、人體前景提取以及人體追蹤算法,對光照變化、拍攝視角以及遮?
目前,基于密集采樣得到的視頻局部改進密集軌跡(Improved?Dense?Trajectories,??IDT)[17]以及提取的HOG-HOF,MBH特征描述子已經(jīng)在復雜的行為識別數(shù)據(jù)庫??上得到良好的識別效果。局部特征的缺點在于不能完成對整個視頻的描述,而且??大都是人工設計的不具有普適性。??b)特征表達。在完成視頻特征的提取后,尤其是局部特征,需要對這些不同??時空位置的局部特征進行建模,以得到整個視頻的描述。其中,BoVW模型[23,24]??是使用最廣泛的特征表達模型。圖1-3為基于BoVW模型的人體行為識別框架。在??BoVW模型中,首先使用無監(jiān)督算法對提取的局部特征進行聚類,每個聚類中心??即視為一個詞匯,所有詞匯則構成一個完整的特征字典。然后使用特征字典對提??取的局部特征進行編碼,最后統(tǒng)計所有詞匯的出現(xiàn)頻率即為整個視頻的特征描述。??而在無監(jiān)督學習生成字典的過程中,主要有兩種方式:K-meanS[23]和高斯混合模??型(Gaussian?mixture?model,?GMM)_,這兩種方式的區(qū)別在于K-means將每個樣??本數(shù)據(jù)分配到某一個聚類中心,而GMM則能給出每個樣本數(shù)據(jù)被分配到每個聚??類中心的概率,從而可以通過設置閾值將每個樣本數(shù)據(jù)分配到多個聚類中心。在??特征編碼的過程中,常采用的方法有矢量量化[23,24],VLADP4]以及Fisher向量編??碼[25]。這三種方式的主要區(qū)別在于前兩者只是編碼到最近的聚類中心,而后兩者??則用樣本數(shù)據(jù)到聚類中心的距離信息代替矢量量化中的字典頻率。??;,???}?^?麵...i?;??K-means?:高斯混合模翌??織?榕賴取?理?
【參考文獻】:
期刊論文
[1]RGB-D行為識別研究進展及展望[J]. 胡建芳,王熊輝,鄭偉詩,賴劍煌. 自動化學報. 2019(05)
[2]視頻行為識別綜述[J]. 羅會蘭,王嬋娟,盧飛. 通信學報. 2018(06)
[3]基于深度圖像的人體行為識別綜述[J]. 孫彬,孔德慧,張雯暉,賈文浩. 北京工業(yè)大學學報. 2018(10)
[4]基于多層卷積神經(jīng)網(wǎng)絡特征和雙向長短時記憶單元的行為識別(英文)[J]. 葛瑞,王朝暉,徐鑫,季怡,劉純平,龔聲蓉. 控制理論與應用. 2017(06)
[5]基于深度學習的人體行為識別算法綜述[J]. 朱煜,趙江坤,王逸寧,鄭兵兵. 自動化學報. 2016(06)
博士論文
[1]視頻中人體行為識別若干問題研究[D]. 裴利沈.電子科技大學 2016
[2]多模態(tài)人體行為識別技術研究[D]. 馮銀付.浙江大學 2015
本文編號:3331945
【文章來源】:北京郵電大學北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:143 頁
【學位級別】:博士
【部分圖文】:
圖1-1由Kinect采集的MSR?Daily?Activity?3D數(shù)據(jù)集中的RGB和深度圖像示例??鑒于以上三點,基于深度攝像機所獲取的傳統(tǒng)可見光圖像、深度圖像以及人??
?為識別[7]、基于骨骼數(shù)據(jù)的人體行為識別[8]以及融合多模態(tài)數(shù)據(jù)的人體行為識別??[9,1()]等。而根據(jù)不同的行為特征提取與表征方法,又可以將行為識別算法分為基??于傳統(tǒng)機器學習和深度學習[1(),11]的人體行為識別方法。為了論文后續(xù)的深入研究,??下面分別從RGB圖像、Depth圖像以及兩者的融合來介紹國內外學者在人體行??為識別領域的一些代表性工作。??人體行為序列???行為特征提取???行為特征表達???行為分類/識別??iVS!?\?MM\?I、工二t?I??圖1-2人體行為識別一般框架??1.2.2基于RGB圖像的人體行為識別方法??在人體行為識別的研究前期,大部分的研究都是基于RGB圖像序列。而基??于RGB圖像的人體行為識別方法又可以分為基于全局、局部特征的傳統(tǒng)行為識??別方法和基于深度學習的行為識別方法。本小節(jié)從這兩類方法出發(fā)對己有的研究??成果進行簡要回顧。??(1)基于傳統(tǒng)人工設計特征的行為識別方法。在深度學習技術沒有表現(xiàn)出其??強大的辨識能力之前,基于人工設計特征的方法在行為識別研宄領域中占據(jù)主導??地位,并產(chǎn)生了大量研究成果。這些成果主要集中在人體行為識別的特征提娶??特征表達以及分類識別三個階段。??a)特征提齲在行為識別的過程中,常提取的特征有全局特征和局部特征。??其中,全局特征通過背景建模、前景分割等方法獲取視頻中的人體前景目標,然??后提取人體前景目標的外觀或運動信息用來描述人體行為。常用的全局特征有人??體輪廓特征[12],時空形狀特征[13],形狀-運動特征[14]等。全局特征的提取嚴重依??賴于背景建模、人體前景提取以及人體追蹤算法,對光照變化、拍攝視角以及遮?
目前,基于密集采樣得到的視頻局部改進密集軌跡(Improved?Dense?Trajectories,??IDT)[17]以及提取的HOG-HOF,MBH特征描述子已經(jīng)在復雜的行為識別數(shù)據(jù)庫??上得到良好的識別效果。局部特征的缺點在于不能完成對整個視頻的描述,而且??大都是人工設計的不具有普適性。??b)特征表達。在完成視頻特征的提取后,尤其是局部特征,需要對這些不同??時空位置的局部特征進行建模,以得到整個視頻的描述。其中,BoVW模型[23,24]??是使用最廣泛的特征表達模型。圖1-3為基于BoVW模型的人體行為識別框架。在??BoVW模型中,首先使用無監(jiān)督算法對提取的局部特征進行聚類,每個聚類中心??即視為一個詞匯,所有詞匯則構成一個完整的特征字典。然后使用特征字典對提??取的局部特征進行編碼,最后統(tǒng)計所有詞匯的出現(xiàn)頻率即為整個視頻的特征描述。??而在無監(jiān)督學習生成字典的過程中,主要有兩種方式:K-meanS[23]和高斯混合模??型(Gaussian?mixture?model,?GMM)_,這兩種方式的區(qū)別在于K-means將每個樣??本數(shù)據(jù)分配到某一個聚類中心,而GMM則能給出每個樣本數(shù)據(jù)被分配到每個聚??類中心的概率,從而可以通過設置閾值將每個樣本數(shù)據(jù)分配到多個聚類中心。在??特征編碼的過程中,常采用的方法有矢量量化[23,24],VLADP4]以及Fisher向量編??碼[25]。這三種方式的主要區(qū)別在于前兩者只是編碼到最近的聚類中心,而后兩者??則用樣本數(shù)據(jù)到聚類中心的距離信息代替矢量量化中的字典頻率。??;,???}?^?麵...i?;??K-means?:高斯混合模翌??織?榕賴取?理?
【參考文獻】:
期刊論文
[1]RGB-D行為識別研究進展及展望[J]. 胡建芳,王熊輝,鄭偉詩,賴劍煌. 自動化學報. 2019(05)
[2]視頻行為識別綜述[J]. 羅會蘭,王嬋娟,盧飛. 通信學報. 2018(06)
[3]基于深度圖像的人體行為識別綜述[J]. 孫彬,孔德慧,張雯暉,賈文浩. 北京工業(yè)大學學報. 2018(10)
[4]基于多層卷積神經(jīng)網(wǎng)絡特征和雙向長短時記憶單元的行為識別(英文)[J]. 葛瑞,王朝暉,徐鑫,季怡,劉純平,龔聲蓉. 控制理論與應用. 2017(06)
[5]基于深度學習的人體行為識別算法綜述[J]. 朱煜,趙江坤,王逸寧,鄭兵兵. 自動化學報. 2016(06)
博士論文
[1]視頻中人體行為識別若干問題研究[D]. 裴利沈.電子科技大學 2016
[2]多模態(tài)人體行為識別技術研究[D]. 馮銀付.浙江大學 2015
本文編號:3331945
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/3331945.html
最近更新
教材專著