基于RGB-D圖像序列的人體行為識別研究
發(fā)布時(shí)間:2021-08-09 11:01
人體行為識別在智能監(jiān)控、人機(jī)交互、虛擬現(xiàn)實(shí)、視頻檢索等方面有廣泛的應(yīng)用前景,而受到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。傳統(tǒng)的基于可見光(RGB)圖像序列的人體行為識別極易受到光照變化、陰影以及復(fù)雜背景等因素的干擾。隨著價(jià)格低廉以及容易操作的彩色-深度(RGB-D)攝像機(jī)(Kinect)出現(xiàn),越來越多研究學(xué)者將Kinect所采集的深度(Depth)圖像用于人體行為識別研究。與RGB圖像相比,Depth圖像對光照、陰影以及其它環(huán)境變化不敏感,但是Depth圖像缺乏足夠的顏色、紋理信息。因此,利用RGB和Depth圖像之間的互補(bǔ)特性能夠顯著提高人體行為識別的精度和魯棒性。而RGB和Depth圖像的結(jié)合也為人體行為識別帶來新的挑戰(zhàn),如不同模態(tài)圖像之間潛在的語義關(guān)聯(lián)性、互補(bǔ)性以及它們的顯著差異性、表達(dá)內(nèi)容多樣性等。面對以上挑戰(zhàn),國內(nèi)外研究學(xué)者圍繞RGB和Depth圖像的融合開展人體行為識別的研究。然而,現(xiàn)有的行為識別方法仍存在以下問題:(1)傳統(tǒng)底層特征方法由于需要人工設(shè)計(jì),使得其對行為數(shù)據(jù)拍攝場景、光照、姿態(tài)等因素的泛化能力不足,同時(shí)由于不同模態(tài)圖像表現(xiàn)差異,使得RGB底層特征對Depth圖像中目標(biāo)的紋...
【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:143 頁
【學(xué)位級別】:博士
【部分圖文】:
圖1-1由Kinect采集的MSR?Daily?Activity?3D數(shù)據(jù)集中的RGB和深度圖像示例??鑒于以上三點(diǎn),基于深度攝像機(jī)所獲取的傳統(tǒng)可見光圖像、深度圖像以及人??
?為識別[7]、基于骨骼數(shù)據(jù)的人體行為識別[8]以及融合多模態(tài)數(shù)據(jù)的人體行為識別??[9,1()]等。而根據(jù)不同的行為特征提取與表征方法,又可以將行為識別算法分為基??于傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)[1(),11]的人體行為識別方法。為了論文后續(xù)的深入研究,??下面分別從RGB圖像、Depth圖像以及兩者的融合來介紹國內(nèi)外學(xué)者在人體行??為識別領(lǐng)域的一些代表性工作。??人體行為序列???行為特征提取???行為特征表達(dá)???行為分類/識別??iVS!?\?MM\?I、工二t?I??圖1-2人體行為識別一般框架??1.2.2基于RGB圖像的人體行為識別方法??在人體行為識別的研究前期,大部分的研究都是基于RGB圖像序列。而基??于RGB圖像的人體行為識別方法又可以分為基于全局、局部特征的傳統(tǒng)行為識??別方法和基于深度學(xué)習(xí)的行為識別方法。本小節(jié)從這兩類方法出發(fā)對己有的研究??成果進(jìn)行簡要回顧。??(1)基于傳統(tǒng)人工設(shè)計(jì)特征的行為識別方法。在深度學(xué)習(xí)技術(shù)沒有表現(xiàn)出其??強(qiáng)大的辨識能力之前,基于人工設(shè)計(jì)特征的方法在行為識別研宄領(lǐng)域中占據(jù)主導(dǎo)??地位,并產(chǎn)生了大量研究成果。這些成果主要集中在人體行為識別的特征提娶??特征表達(dá)以及分類識別三個(gè)階段。??a)特征提齲在行為識別的過程中,常提取的特征有全局特征和局部特征。??其中,全局特征通過背景建模、前景分割等方法獲取視頻中的人體前景目標(biāo),然??后提取人體前景目標(biāo)的外觀或運(yùn)動(dòng)信息用來描述人體行為。常用的全局特征有人??體輪廓特征[12],時(shí)空形狀特征[13],形狀-運(yùn)動(dòng)特征[14]等。全局特征的提取嚴(yán)重依??賴于背景建模、人體前景提取以及人體追蹤算法,對光照變化、拍攝視角以及遮?
目前,基于密集采樣得到的視頻局部改進(jìn)密集軌跡(Improved?Dense?Trajectories,??IDT)[17]以及提取的HOG-HOF,MBH特征描述子已經(jīng)在復(fù)雜的行為識別數(shù)據(jù)庫??上得到良好的識別效果。局部特征的缺點(diǎn)在于不能完成對整個(gè)視頻的描述,而且??大都是人工設(shè)計(jì)的不具有普適性。??b)特征表達(dá)。在完成視頻特征的提取后,尤其是局部特征,需要對這些不同??時(shí)空位置的局部特征進(jìn)行建模,以得到整個(gè)視頻的描述。其中,BoVW模型[23,24]??是使用最廣泛的特征表達(dá)模型。圖1-3為基于BoVW模型的人體行為識別框架。在??BoVW模型中,首先使用無監(jiān)督算法對提取的局部特征進(jìn)行聚類,每個(gè)聚類中心??即視為一個(gè)詞匯,所有詞匯則構(gòu)成一個(gè)完整的特征字典。然后使用特征字典對提??取的局部特征進(jìn)行編碼,最后統(tǒng)計(jì)所有詞匯的出現(xiàn)頻率即為整個(gè)視頻的特征描述。??而在無監(jiān)督學(xué)習(xí)生成字典的過程中,主要有兩種方式:K-meanS[23]和高斯混合模??型(Gaussian?mixture?model,?GMM)_,這兩種方式的區(qū)別在于K-means將每個(gè)樣??本數(shù)據(jù)分配到某一個(gè)聚類中心,而GMM則能給出每個(gè)樣本數(shù)據(jù)被分配到每個(gè)聚??類中心的概率,從而可以通過設(shè)置閾值將每個(gè)樣本數(shù)據(jù)分配到多個(gè)聚類中心。在??特征編碼的過程中,常采用的方法有矢量量化[23,24],VLADP4]以及Fisher向量編??碼[25]。這三種方式的主要區(qū)別在于前兩者只是編碼到最近的聚類中心,而后兩者??則用樣本數(shù)據(jù)到聚類中心的距離信息代替矢量量化中的字典頻率。??;,???}?^?麵...i?;??K-means?:高斯混合模翌??織?榕賴取?理?
【參考文獻(xiàn)】:
期刊論文
[1]RGB-D行為識別研究進(jìn)展及展望[J]. 胡建芳,王熊輝,鄭偉詩,賴劍煌. 自動(dòng)化學(xué)報(bào). 2019(05)
[2]視頻行為識別綜述[J]. 羅會(huì)蘭,王嬋娟,盧飛. 通信學(xué)報(bào). 2018(06)
[3]基于深度圖像的人體行為識別綜述[J]. 孫彬,孔德慧,張雯暉,賈文浩. 北京工業(yè)大學(xué)學(xué)報(bào). 2018(10)
[4]基于多層卷積神經(jīng)網(wǎng)絡(luò)特征和雙向長短時(shí)記憶單元的行為識別(英文)[J]. 葛瑞,王朝暉,徐鑫,季怡,劉純平,龔聲蓉. 控制理論與應(yīng)用. 2017(06)
[5]基于深度學(xué)習(xí)的人體行為識別算法綜述[J]. 朱煜,趙江坤,王逸寧,鄭兵兵. 自動(dòng)化學(xué)報(bào). 2016(06)
博士論文
[1]視頻中人體行為識別若干問題研究[D]. 裴利沈.電子科技大學(xué) 2016
[2]多模態(tài)人體行為識別技術(shù)研究[D]. 馮銀付.浙江大學(xué) 2015
本文編號:3331945
【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:143 頁
【學(xué)位級別】:博士
【部分圖文】:
圖1-1由Kinect采集的MSR?Daily?Activity?3D數(shù)據(jù)集中的RGB和深度圖像示例??鑒于以上三點(diǎn),基于深度攝像機(jī)所獲取的傳統(tǒng)可見光圖像、深度圖像以及人??
?為識別[7]、基于骨骼數(shù)據(jù)的人體行為識別[8]以及融合多模態(tài)數(shù)據(jù)的人體行為識別??[9,1()]等。而根據(jù)不同的行為特征提取與表征方法,又可以將行為識別算法分為基??于傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)[1(),11]的人體行為識別方法。為了論文后續(xù)的深入研究,??下面分別從RGB圖像、Depth圖像以及兩者的融合來介紹國內(nèi)外學(xué)者在人體行??為識別領(lǐng)域的一些代表性工作。??人體行為序列???行為特征提取???行為特征表達(dá)???行為分類/識別??iVS!?\?MM\?I、工二t?I??圖1-2人體行為識別一般框架??1.2.2基于RGB圖像的人體行為識別方法??在人體行為識別的研究前期,大部分的研究都是基于RGB圖像序列。而基??于RGB圖像的人體行為識別方法又可以分為基于全局、局部特征的傳統(tǒng)行為識??別方法和基于深度學(xué)習(xí)的行為識別方法。本小節(jié)從這兩類方法出發(fā)對己有的研究??成果進(jìn)行簡要回顧。??(1)基于傳統(tǒng)人工設(shè)計(jì)特征的行為識別方法。在深度學(xué)習(xí)技術(shù)沒有表現(xiàn)出其??強(qiáng)大的辨識能力之前,基于人工設(shè)計(jì)特征的方法在行為識別研宄領(lǐng)域中占據(jù)主導(dǎo)??地位,并產(chǎn)生了大量研究成果。這些成果主要集中在人體行為識別的特征提娶??特征表達(dá)以及分類識別三個(gè)階段。??a)特征提齲在行為識別的過程中,常提取的特征有全局特征和局部特征。??其中,全局特征通過背景建模、前景分割等方法獲取視頻中的人體前景目標(biāo),然??后提取人體前景目標(biāo)的外觀或運(yùn)動(dòng)信息用來描述人體行為。常用的全局特征有人??體輪廓特征[12],時(shí)空形狀特征[13],形狀-運(yùn)動(dòng)特征[14]等。全局特征的提取嚴(yán)重依??賴于背景建模、人體前景提取以及人體追蹤算法,對光照變化、拍攝視角以及遮?
目前,基于密集采樣得到的視頻局部改進(jìn)密集軌跡(Improved?Dense?Trajectories,??IDT)[17]以及提取的HOG-HOF,MBH特征描述子已經(jīng)在復(fù)雜的行為識別數(shù)據(jù)庫??上得到良好的識別效果。局部特征的缺點(diǎn)在于不能完成對整個(gè)視頻的描述,而且??大都是人工設(shè)計(jì)的不具有普適性。??b)特征表達(dá)。在完成視頻特征的提取后,尤其是局部特征,需要對這些不同??時(shí)空位置的局部特征進(jìn)行建模,以得到整個(gè)視頻的描述。其中,BoVW模型[23,24]??是使用最廣泛的特征表達(dá)模型。圖1-3為基于BoVW模型的人體行為識別框架。在??BoVW模型中,首先使用無監(jiān)督算法對提取的局部特征進(jìn)行聚類,每個(gè)聚類中心??即視為一個(gè)詞匯,所有詞匯則構(gòu)成一個(gè)完整的特征字典。然后使用特征字典對提??取的局部特征進(jìn)行編碼,最后統(tǒng)計(jì)所有詞匯的出現(xiàn)頻率即為整個(gè)視頻的特征描述。??而在無監(jiān)督學(xué)習(xí)生成字典的過程中,主要有兩種方式:K-meanS[23]和高斯混合模??型(Gaussian?mixture?model,?GMM)_,這兩種方式的區(qū)別在于K-means將每個(gè)樣??本數(shù)據(jù)分配到某一個(gè)聚類中心,而GMM則能給出每個(gè)樣本數(shù)據(jù)被分配到每個(gè)聚??類中心的概率,從而可以通過設(shè)置閾值將每個(gè)樣本數(shù)據(jù)分配到多個(gè)聚類中心。在??特征編碼的過程中,常采用的方法有矢量量化[23,24],VLADP4]以及Fisher向量編??碼[25]。這三種方式的主要區(qū)別在于前兩者只是編碼到最近的聚類中心,而后兩者??則用樣本數(shù)據(jù)到聚類中心的距離信息代替矢量量化中的字典頻率。??;,???}?^?麵...i?;??K-means?:高斯混合模翌??織?榕賴取?理?
【參考文獻(xiàn)】:
期刊論文
[1]RGB-D行為識別研究進(jìn)展及展望[J]. 胡建芳,王熊輝,鄭偉詩,賴劍煌. 自動(dòng)化學(xué)報(bào). 2019(05)
[2]視頻行為識別綜述[J]. 羅會(huì)蘭,王嬋娟,盧飛. 通信學(xué)報(bào). 2018(06)
[3]基于深度圖像的人體行為識別綜述[J]. 孫彬,孔德慧,張雯暉,賈文浩. 北京工業(yè)大學(xué)學(xué)報(bào). 2018(10)
[4]基于多層卷積神經(jīng)網(wǎng)絡(luò)特征和雙向長短時(shí)記憶單元的行為識別(英文)[J]. 葛瑞,王朝暉,徐鑫,季怡,劉純平,龔聲蓉. 控制理論與應(yīng)用. 2017(06)
[5]基于深度學(xué)習(xí)的人體行為識別算法綜述[J]. 朱煜,趙江坤,王逸寧,鄭兵兵. 自動(dòng)化學(xué)報(bào). 2016(06)
博士論文
[1]視頻中人體行為識別若干問題研究[D]. 裴利沈.電子科技大學(xué) 2016
[2]多模態(tài)人體行為識別技術(shù)研究[D]. 馮銀付.浙江大學(xué) 2015
本文編號:3331945
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/3331945.html
最近更新
教材專著