基于零樣本學(xué)習(xí)的人體行為識(shí)別算法研究
發(fā)布時(shí)間:2020-05-01 23:54
【摘要】:人體行為識(shí)別是計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn)之一,具有重要的理論價(jià)值和應(yīng)用前景。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,基于多樣本(監(jiān)督)學(xué)習(xí)的行為識(shí)別方法取得突破性進(jìn)展。然而這種方法需要大量的標(biāo)注樣本,且無法擴(kuò)展到樣本量極少甚至零樣本情況下的識(shí)別任務(wù),導(dǎo)致模型的泛化能力受限。零樣本學(xué)習(xí)可以將已知類別數(shù)據(jù)的知識(shí)遷移到對(duì)未知類別的預(yù)測,因此為解決上述問題提供了創(chuàng)新性的思路。目前,大多數(shù)零樣本行為識(shí)別方法都是研究基于靜態(tài)圖片的目標(biāo)識(shí)別問題,將此類方法直接應(yīng)用于基于視頻序列的零樣本行為識(shí)別問題時(shí)會(huì)導(dǎo)致時(shí)序信息缺失、不能有效學(xué)習(xí)到復(fù)雜行為的視覺信息和類別語義的關(guān)聯(lián)關(guān)系。針對(duì)這些問題,本文重點(diǎn)研究利用具有時(shí)序特性的視覺特征和具有語義相關(guān)性的語義表示來構(gòu)建更有效的視覺到語義的映射關(guān)系,同時(shí)將單標(biāo)簽任務(wù)擴(kuò)展到多標(biāo)簽行為識(shí)別。本文主要工作如下:(1)提出了一種基于時(shí)序建模和時(shí)空網(wǎng)絡(luò)的零樣本行為識(shí)別方法,該方法設(shè)計(jì)雙流時(shí)空網(wǎng)絡(luò)將視覺特征映射到語義嵌入空間,網(wǎng)絡(luò)中的空間流和時(shí)間流分別對(duì)RGB和光流信息進(jìn)行處理。通過卷積神經(jīng)網(wǎng)絡(luò)預(yù)先提取特征后利用循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)序列特征的上下文信息進(jìn)行建模,充分獲取到視頻中的時(shí)間動(dòng)態(tài)信息。最后將具有高層語義的時(shí)空特征進(jìn)行融合來增強(qiáng)視覺嵌入的表征能力,提高了對(duì)未知行為類別的識(shí)別性能。(2)提出了一種基于聯(lián)合空間和時(shí)空網(wǎng)絡(luò)的零樣本行為識(shí)別方法,該方法中采用聯(lián)合(公共)空間來搭建視覺空間和語義空間的橋梁,將視頻數(shù)據(jù)的視覺特征和標(biāo)簽的語義表示都嵌入到這個(gè)空間來學(xué)習(xí)視覺語義的對(duì)應(yīng)關(guān)系。這種映射關(guān)系不僅能夠建模視覺特征和語義表示各個(gè)維度的關(guān)系,而且同時(shí)優(yōu)化視覺特征、語義表示以及類別標(biāo)簽的關(guān)聯(lián)性,從而構(gòu)建了更有效的視覺到語義的映射關(guān)系,進(jìn)一步提高了零樣本行為識(shí)別的準(zhǔn)確率。(3)提出了一種基于聯(lián)合空間和多標(biāo)簽學(xué)習(xí)的零樣本行為識(shí)別方法,該方法將單標(biāo)簽任務(wù)擴(kuò)展到對(duì)多標(biāo)簽行為數(shù)據(jù)的識(shí)別。針對(duì)多標(biāo)簽學(xué)習(xí)的復(fù)雜性,本文利用聯(lián)合潛在嵌入學(xué)習(xí)方法為視覺特征和語義表示學(xué)習(xí)一個(gè)聯(lián)合潛在空間,并通過將人類行為的視覺信息和語義表示分別映射為該空間中的視覺嵌入和語義嵌入以尋找對(duì)應(yīng)關(guān)系。同時(shí),在模型學(xué)習(xí)中交替訓(xùn)練視覺模型和語義模型并設(shè)計(jì)多損失函數(shù)優(yōu)化來完成多標(biāo)簽零樣本行為識(shí)別任務(wù)。
【圖文】:
Figure邋2-1邋The邋framework邋of邋the邋traditional邋action邋recognition邋methods逡逑2.1.1傳統(tǒng)人體行為識(shí)別方法逡逑傳統(tǒng)人體行為識(shí)別算法的主要框架如圖2-1中所示,對(duì)視頻數(shù)據(jù)提取特征得到逡逑特定的行為描述,然后訓(xùn)練對(duì)應(yīng)的分類器,最后再利用訓(xùn)練好的分類器對(duì)測試視頻逡逑進(jìn)行預(yù)測,過程中主要包括特征提取和分類器訓(xùn)練兩個(gè)階段。逡逑傳統(tǒng)行為識(shí)別方法中的特征是人為設(shè)計(jì)的,主要分為兩種表示形式。第一種是逡逑基于啟發(fā)的表示,例如MEI[19]和它們包含了視頻上下文中有用的信息。逡逑第二種基于局部表示,,可以分為三類,一類是以梯度直方圖(HoG)邋I53】、光流直方逡逑圖(HoF)邋[54】、運(yùn)動(dòng)邊界直方圖(MBH)[55]為代表的工作,其視頻序列可以表示為逡逑所有時(shí)空局部特征的組合;第二類是基于像素模式的描述,局部二值模式(LBP)[14]逡逑6逡逑
圖24邋RNN和LSTM結(jié)構(gòu)丨58丨逡逑Figure邋2-4邋Structure邋of邋RNN邋and邋LSTMl58J逡逑
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:TP391.41;TP181
本文編號(hào):2647212
【圖文】:
Figure邋2-1邋The邋framework邋of邋the邋traditional邋action邋recognition邋methods逡逑2.1.1傳統(tǒng)人體行為識(shí)別方法逡逑傳統(tǒng)人體行為識(shí)別算法的主要框架如圖2-1中所示,對(duì)視頻數(shù)據(jù)提取特征得到逡逑特定的行為描述,然后訓(xùn)練對(duì)應(yīng)的分類器,最后再利用訓(xùn)練好的分類器對(duì)測試視頻逡逑進(jìn)行預(yù)測,過程中主要包括特征提取和分類器訓(xùn)練兩個(gè)階段。逡逑傳統(tǒng)行為識(shí)別方法中的特征是人為設(shè)計(jì)的,主要分為兩種表示形式。第一種是逡逑基于啟發(fā)的表示,例如MEI[19]和它們包含了視頻上下文中有用的信息。逡逑第二種基于局部表示,,可以分為三類,一類是以梯度直方圖(HoG)邋I53】、光流直方逡逑圖(HoF)邋[54】、運(yùn)動(dòng)邊界直方圖(MBH)[55]為代表的工作,其視頻序列可以表示為逡逑所有時(shí)空局部特征的組合;第二類是基于像素模式的描述,局部二值模式(LBP)[14]逡逑6逡逑
圖24邋RNN和LSTM結(jié)構(gòu)丨58丨逡逑Figure邋2-4邋Structure邋of邋RNN邋and邋LSTMl58J逡逑
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:TP391.41;TP181
【參考文獻(xiàn)】
相關(guān)期刊論文 前2條
1 莊福振;羅平;何清;史忠植;;遷移學(xué)習(xí)研究進(jìn)展[J];軟件學(xué)報(bào);2015年01期
2 李瑞峰;王亮亮;王珂;;人體動(dòng)作行為識(shí)別研究綜述[J];模式識(shí)別與人工智能;2014年01期
本文編號(hào):2647212
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2647212.html
最近更新
教材專著