基于時間和空間雙流神經(jīng)網(wǎng)絡(luò)的步態(tài)識別
發(fā)布時間:2022-05-02 23:07
步態(tài)是一種流行的生物識別技術(shù),可以遠距離識別人類。它應(yīng)該是唯一可以在遠距離收集的生物特征。由于其獨特的優(yōu)勢和在視頻監(jiān)控中的巨大潛力,在過去的20年中,許多研究人員對其進行了研究。尤其是近幾年來,隨著深度學習的發(fā)展,步態(tài)識別有了很大的提高。如今指紋、人臉識別的技術(shù)愈發(fā)成熟,但是步態(tài)識別技術(shù)的應(yīng)用還面臨許多挑戰(zhàn),比如攝像頭視角變化、衣著變化等對識別的影響,所以我選擇步態(tài)識別這個課題,希望能為解決步態(tài)識別中的難題提供一些思路。因為步態(tài)是一種行為特征,并且在時域中包含對象的一些獨特運動模式,所以在步態(tài)識別中同時使用空間信息和時序信息更加合理。本文對步態(tài)視頻序列進行研究,提取時序上的特征,最大化對時序信息的利用。首先,設(shè)計了多尺度時間網(wǎng)絡(luò)(MSTN)來提取序列中的時序信息。多尺度時間網(wǎng)絡(luò)(MSTN)受到快慢網(wǎng)絡(luò)(Slow Fast Network)的啟發(fā)。多尺度時間網(wǎng)絡(luò)不僅保留了幀的完整性,而且增強了動態(tài)信息,可以有效地利用視頻序列中的時序信息。在多尺度時間網(wǎng)絡(luò)(MSTN)中,以不同的時間尺度來構(gòu)建時間金字塔,并最終整合每個時間尺度的信息。高幀率可保留所有幀的空間信息,而低幀率可增強幀之間的動態(tài)...
【文章頁數(shù)】:73 頁
【學位級別】:碩士
【部分圖文】:
左:3D圓柱體模型,右:模型中的運動角度[3]
基于時間和空間雙流神經(jīng)網(wǎng)絡(luò)的步態(tài)識別7圖2-2人體模型共有14個部分[7]2.1.2基于輪廓的方法與基于模型的方法相比,基于外觀的方法通常易于實現(xiàn),因為它們直接從2D人體輪廓中提取特征。例如,在[5]中,Makiharaet等人首先提取頻域特征,構(gòu)建視圖變換模型。在[8]中,Kusakunniranet等人考慮了跨步態(tài)之間的相關(guān)性。在基于外觀的方法中,步態(tài)能量圖像(GEI)[1]可能是最受歡迎的功能,除了GEI外,還有其他步態(tài)特征圖像,如:ChronoGaitImage(CGI)[12],和GaitFlowImage(GFI)[45]。在這些方法中,圖1中的步態(tài)能量圖像(GaitEnergyImage,GEI)[1,7]在步態(tài)識別中體現(xiàn)出有效性和魯棒性,而且計算簡單、占用內(nèi)存低,一度成為了最流行的方法。在GEI[1]中,如圖2-3,作者僅考慮通過活動特定的人類動作(即常規(guī)的人類行走)來進行個人識別在目前大多數(shù)通過步態(tài)進行個體識別的方法中。正常的人類步行可以被認為是周期性運動人體運動以穩(wěn)定的頻率重復(fù)。雖然有些步態(tài)識別方法從所有相關(guān)性中提取特征在不考慮其順序的情況下按行走順序排列框架,其他方法則從每個幀中提取特征并組成一個人類行走序列的特征序列。在識別過程中,這些方法要么匹配從特征序列收集的統(tǒng)計信息,或與兩個中對應(yīng)的框架對之間的特征就其周期而言時間標準化的序列長度。這里做出的基本假設(shè)是:1)的順序人類步行周期中的姿勢是相同的,
基于時間和空間雙流神經(jīng)網(wǎng)絡(luò)的步態(tài)識別8即四肢向前移動在普通人中以類似的方式向后退,并且2)在步行周期中,姿勢階段存在差異,四肢伸展,軀干的形狀等。在這些之下假設(shè),有可能代表時空單個2D步態(tài)模板中的信息,而不是有序的圖像序列。圖2-3步態(tài)能量圖像[1]2.1.3基于深度學習的方法隨著計算機硬件的發(fā)展,計算能力提升,研究者們發(fā)現(xiàn)GEI作為一個步態(tài)序列的平均圖像,丟失了許多信息,他們希望直接在視頻序列上操作,以進一步提升識別準確率。在視頻序列處理上,研究者們希望能夠提取視頻中的時序信息。論文[9]使用了成對的GEI輸入網(wǎng)絡(luò),第一層網(wǎng)絡(luò)模擬減法來計算這一對輸入圖像,第二層網(wǎng)絡(luò)可以得到用于預(yù)測相似性的差異,最后一層網(wǎng)絡(luò)用兩個節(jié)點以構(gòu)成雙向分類器,F(xiàn)在比較流行的做法是利用卷積網(wǎng)絡(luò)(ConvolutionNeuralNetwork,CNN)[6,10,11,12],把多個幀組合到多通道數(shù)據(jù)作為CNN模型的輸入,用CNN處理多通道數(shù)據(jù)。論文[6]中,作者不去刻意建模步態(tài)silhouette的時序關(guān)系,而將步態(tài)剪影當作沒有時序關(guān)系的圖像集,讓深度神經(jīng)網(wǎng)絡(luò)自身優(yōu)化去提取并利用這種關(guān)系。輸入的每幅圖像單獨處理,提取多幅圖像CNN特征,并將多個“淺”和“深”網(wǎng)絡(luò)層提取的特征均輸入后續(xù)集合特征聚合流程中。再用多特征集合池化(SetPooling)將多幅圖像的特征聚合為一個特征向量。最后使用水平金字塔(HorizontalPyramidPooling,HPP)提取4個尺度的特征,為使得特征提取兼具局部和全局性,并在網(wǎng)絡(luò)最后使用全連接層優(yōu)化特征整體鑒別性。
本文編號:3650140
【文章頁數(shù)】:73 頁
【學位級別】:碩士
【部分圖文】:
左:3D圓柱體模型,右:模型中的運動角度[3]
基于時間和空間雙流神經(jīng)網(wǎng)絡(luò)的步態(tài)識別7圖2-2人體模型共有14個部分[7]2.1.2基于輪廓的方法與基于模型的方法相比,基于外觀的方法通常易于實現(xiàn),因為它們直接從2D人體輪廓中提取特征。例如,在[5]中,Makiharaet等人首先提取頻域特征,構(gòu)建視圖變換模型。在[8]中,Kusakunniranet等人考慮了跨步態(tài)之間的相關(guān)性。在基于外觀的方法中,步態(tài)能量圖像(GEI)[1]可能是最受歡迎的功能,除了GEI外,還有其他步態(tài)特征圖像,如:ChronoGaitImage(CGI)[12],和GaitFlowImage(GFI)[45]。在這些方法中,圖1中的步態(tài)能量圖像(GaitEnergyImage,GEI)[1,7]在步態(tài)識別中體現(xiàn)出有效性和魯棒性,而且計算簡單、占用內(nèi)存低,一度成為了最流行的方法。在GEI[1]中,如圖2-3,作者僅考慮通過活動特定的人類動作(即常規(guī)的人類行走)來進行個人識別在目前大多數(shù)通過步態(tài)進行個體識別的方法中。正常的人類步行可以被認為是周期性運動人體運動以穩(wěn)定的頻率重復(fù)。雖然有些步態(tài)識別方法從所有相關(guān)性中提取特征在不考慮其順序的情況下按行走順序排列框架,其他方法則從每個幀中提取特征并組成一個人類行走序列的特征序列。在識別過程中,這些方法要么匹配從特征序列收集的統(tǒng)計信息,或與兩個中對應(yīng)的框架對之間的特征就其周期而言時間標準化的序列長度。這里做出的基本假設(shè)是:1)的順序人類步行周期中的姿勢是相同的,
基于時間和空間雙流神經(jīng)網(wǎng)絡(luò)的步態(tài)識別8即四肢向前移動在普通人中以類似的方式向后退,并且2)在步行周期中,姿勢階段存在差異,四肢伸展,軀干的形狀等。在這些之下假設(shè),有可能代表時空單個2D步態(tài)模板中的信息,而不是有序的圖像序列。圖2-3步態(tài)能量圖像[1]2.1.3基于深度學習的方法隨著計算機硬件的發(fā)展,計算能力提升,研究者們發(fā)現(xiàn)GEI作為一個步態(tài)序列的平均圖像,丟失了許多信息,他們希望直接在視頻序列上操作,以進一步提升識別準確率。在視頻序列處理上,研究者們希望能夠提取視頻中的時序信息。論文[9]使用了成對的GEI輸入網(wǎng)絡(luò),第一層網(wǎng)絡(luò)模擬減法來計算這一對輸入圖像,第二層網(wǎng)絡(luò)可以得到用于預(yù)測相似性的差異,最后一層網(wǎng)絡(luò)用兩個節(jié)點以構(gòu)成雙向分類器,F(xiàn)在比較流行的做法是利用卷積網(wǎng)絡(luò)(ConvolutionNeuralNetwork,CNN)[6,10,11,12],把多個幀組合到多通道數(shù)據(jù)作為CNN模型的輸入,用CNN處理多通道數(shù)據(jù)。論文[6]中,作者不去刻意建模步態(tài)silhouette的時序關(guān)系,而將步態(tài)剪影當作沒有時序關(guān)系的圖像集,讓深度神經(jīng)網(wǎng)絡(luò)自身優(yōu)化去提取并利用這種關(guān)系。輸入的每幅圖像單獨處理,提取多幅圖像CNN特征,并將多個“淺”和“深”網(wǎng)絡(luò)層提取的特征均輸入后續(xù)集合特征聚合流程中。再用多特征集合池化(SetPooling)將多幅圖像的特征聚合為一個特征向量。最后使用水平金字塔(HorizontalPyramidPooling,HPP)提取4個尺度的特征,為使得特征提取兼具局部和全局性,并在網(wǎng)絡(luò)最后使用全連接層優(yōu)化特征整體鑒別性。
本文編號:3650140
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3650140.html
最近更新
教材專著