基于骨架和圖像數(shù)據(jù)的多視角特征學(xué)習(xí)及其在行為識別上的應(yīng)用
發(fā)布時間:2021-08-28 04:21
隨著人工智能學(xué)科的發(fā)展以及計算能力的提高,基于深度學(xué)習(xí)的人體行為識別研究已經(jīng)成為熱門的研究課題之一,同時也是非常有挑戰(zhàn)性的研究難點。因為人體行為識別技術(shù)在人類社會生活中有著廣泛的應(yīng)用,所以開展人體行為識別研究有著很高的實用價值,F(xiàn)有的行為識別方法通常只采用圖像或是骨架等單一模態(tài)的數(shù)據(jù)。圖像或視頻包含直觀的場景信息,但容易受到光照、遮擋等影響。骨架節(jié)點數(shù)據(jù)表示人體關(guān)節(jié)點在視頻幀中的三維坐標(biāo),包含骨架的空間結(jié)構(gòu)信息和時序的動態(tài)信息,同時骨架節(jié)點數(shù)據(jù)可以很好地避免遮擋,以及復(fù)雜背景等干擾,但是骨架數(shù)據(jù)缺乏外觀的細節(jié)信息。因此,圖像和骨骼數(shù)據(jù)存在高度的互補性,本文從骨架和圖像兩種模態(tài)的數(shù)據(jù)來進行多視角特征學(xué)習(xí),結(jié)合兩種模態(tài)數(shù)據(jù)的互補信息,提高行為識別的準(zhǔn)確率。根據(jù)圖像和骨架兩種數(shù)據(jù)的特點,分別研究適合兩者數(shù)據(jù)特點的深度神經(jīng)網(wǎng)絡(luò)模型。對于連續(xù)的視頻幀數(shù)據(jù),由于視頻可以分解為圖像數(shù)據(jù)和光流數(shù)據(jù),采用雙流的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)來提取視頻的時空信息,但是傳統(tǒng)的雙流網(wǎng)絡(luò)很難有效的學(xué)習(xí)到視頻中人體的長時程時空特征。針對雙流卷積神經(jīng)網(wǎng)絡(luò)的不足,本文研究了卷積遞歸融合方法。該方法利用遞歸神經(jīng)網(wǎng)絡(luò)對長序列視頻幀建模...
【文章來源】:南京郵電大學(xué)江蘇省
【文章頁數(shù)】:54 頁
【學(xué)位級別】:碩士
【部分圖文】:
HMDB51部分動作圖像庫HMDB51數(shù)據(jù)集發(fā)布于2011年,這個數(shù)據(jù)集的內(nèi)容來源比較多樣,大多數(shù)來自于電影,
南京郵電大學(xué)專業(yè)學(xué)位碩士研究生學(xué)位論文第-章緒論8的訓(xùn)練集和測試集使用X-View進行代替。圖1.3NTU-RGB+D部分圖像1.6本章小結(jié)本章主要對人體行為識別的深度學(xué)習(xí)算法進行了調(diào)研。首先,對于傳統(tǒng)的行為識別方法進行了大致的概括以及基于深度學(xué)習(xí)的行為識別的研究背景以及意義做了簡單的介紹,其中包括基于卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)以及圖卷積網(wǎng)絡(luò)的行為識別算法。然后分別闡述了面向視頻幀的RGB圖像數(shù)據(jù)和視頻幀光流數(shù)據(jù)的人體行為識別的主流方法,以及面向人體關(guān)節(jié)點的人體行為識別的主流方法。最后,介紹了本文中要用的兩個視頻人體行為識別數(shù)據(jù)集UCF-101和HMDB51。這也是當(dāng)前行為識別研究中非常具有挑戰(zhàn)性的主流數(shù)據(jù)集。
南京郵電大學(xué)專業(yè)學(xué)位碩士研究生學(xué)位論文第二章基于深度學(xué)習(xí)的行為識別算法概述9第二章基于深度學(xué)習(xí)的行為識別算法概述2.1卷積神經(jīng)網(wǎng)絡(luò)相關(guān)介紹人工神經(jīng)網(wǎng)絡(luò)是一種受生物學(xué)啟發(fā)的計算模型,該模型模仿了在人腦中存在的神經(jīng)元網(wǎng)絡(luò)之后對其進行抽象化。人工神經(jīng)網(wǎng)絡(luò)也可以被視為對輸入輸出關(guān)系進行建模的學(xué)習(xí)算法。人工神經(jīng)網(wǎng)絡(luò)的應(yīng)用包括模式識別和預(yù)測,例如醫(yī)學(xué),商業(yè),科學(xué),數(shù)據(jù)挖掘,電信和運營管理等領(lǐng)域。人工神經(jīng)網(wǎng)絡(luò)將卷積后的結(jié)果與激活函數(shù)相乘來引入非線性函數(shù),可以更好地擬合數(shù)據(jù)的特征分布。人工神經(jīng)網(wǎng)絡(luò)從數(shù)據(jù)中學(xué)習(xí)參數(shù)的這一過程稱為訓(xùn)練。完成訓(xùn)練后,當(dāng)輸入了待測數(shù)據(jù)后,它就可以準(zhǔn)確地預(yù)測輸出,這一過程稱為神經(jīng)網(wǎng)絡(luò)推理。圖2.1多層神經(jīng)網(wǎng)絡(luò)如圖2.1所示,深度學(xué)習(xí)網(wǎng)絡(luò)模型包含三個部分,分別為輸入層、隱藏層和輸出層。深度神經(jīng)網(wǎng)絡(luò)包含的網(wǎng)絡(luò)層數(shù)遠遠多于傳統(tǒng)算法的網(wǎng)絡(luò)模型。這樣的好處在于,在通過不同卷積層的特征提取之后圖像的低級紋理特征變成了可以表征語義信息的高級特征,增加了網(wǎng)絡(luò)的擬合數(shù)據(jù)分布的能力。2.1.1卷積神經(jīng)網(wǎng)絡(luò)介紹卷積神經(jīng)網(wǎng)絡(luò)CNN自首次提出以來,就在圖像識別領(lǐng)域受到了極大關(guān)注。由于其識別準(zhǔn)確率遠遠超過傳統(tǒng)算法,所以許多國內(nèi)外學(xué)者對其進行了大量研究。隨著CNN的廣泛研究推廣,該算法開始被應(yīng)用于行為識別領(lǐng)域。區(qū)別于繁瑣的人工特征提取方法,CNN網(wǎng)絡(luò)的優(yōu)勢在于可以通過自主學(xué)習(xí)獲取具有判別力的數(shù)據(jù)特征,從而實現(xiàn)準(zhǔn)確的行為識別。近年來,CNN網(wǎng)絡(luò)已成為行為識別領(lǐng)域最常用的特征提取器之一。"""",","1"1"(,)whckkcijccijciijjciiconvxwwx(2-1)
本文編號:3367781
【文章來源】:南京郵電大學(xué)江蘇省
【文章頁數(shù)】:54 頁
【學(xué)位級別】:碩士
【部分圖文】:
HMDB51部分動作圖像庫HMDB51數(shù)據(jù)集發(fā)布于2011年,這個數(shù)據(jù)集的內(nèi)容來源比較多樣,大多數(shù)來自于電影,
南京郵電大學(xué)專業(yè)學(xué)位碩士研究生學(xué)位論文第-章緒論8的訓(xùn)練集和測試集使用X-View進行代替。圖1.3NTU-RGB+D部分圖像1.6本章小結(jié)本章主要對人體行為識別的深度學(xué)習(xí)算法進行了調(diào)研。首先,對于傳統(tǒng)的行為識別方法進行了大致的概括以及基于深度學(xué)習(xí)的行為識別的研究背景以及意義做了簡單的介紹,其中包括基于卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)以及圖卷積網(wǎng)絡(luò)的行為識別算法。然后分別闡述了面向視頻幀的RGB圖像數(shù)據(jù)和視頻幀光流數(shù)據(jù)的人體行為識別的主流方法,以及面向人體關(guān)節(jié)點的人體行為識別的主流方法。最后,介紹了本文中要用的兩個視頻人體行為識別數(shù)據(jù)集UCF-101和HMDB51。這也是當(dāng)前行為識別研究中非常具有挑戰(zhàn)性的主流數(shù)據(jù)集。
南京郵電大學(xué)專業(yè)學(xué)位碩士研究生學(xué)位論文第二章基于深度學(xué)習(xí)的行為識別算法概述9第二章基于深度學(xué)習(xí)的行為識別算法概述2.1卷積神經(jīng)網(wǎng)絡(luò)相關(guān)介紹人工神經(jīng)網(wǎng)絡(luò)是一種受生物學(xué)啟發(fā)的計算模型,該模型模仿了在人腦中存在的神經(jīng)元網(wǎng)絡(luò)之后對其進行抽象化。人工神經(jīng)網(wǎng)絡(luò)也可以被視為對輸入輸出關(guān)系進行建模的學(xué)習(xí)算法。人工神經(jīng)網(wǎng)絡(luò)的應(yīng)用包括模式識別和預(yù)測,例如醫(yī)學(xué),商業(yè),科學(xué),數(shù)據(jù)挖掘,電信和運營管理等領(lǐng)域。人工神經(jīng)網(wǎng)絡(luò)將卷積后的結(jié)果與激活函數(shù)相乘來引入非線性函數(shù),可以更好地擬合數(shù)據(jù)的特征分布。人工神經(jīng)網(wǎng)絡(luò)從數(shù)據(jù)中學(xué)習(xí)參數(shù)的這一過程稱為訓(xùn)練。完成訓(xùn)練后,當(dāng)輸入了待測數(shù)據(jù)后,它就可以準(zhǔn)確地預(yù)測輸出,這一過程稱為神經(jīng)網(wǎng)絡(luò)推理。圖2.1多層神經(jīng)網(wǎng)絡(luò)如圖2.1所示,深度學(xué)習(xí)網(wǎng)絡(luò)模型包含三個部分,分別為輸入層、隱藏層和輸出層。深度神經(jīng)網(wǎng)絡(luò)包含的網(wǎng)絡(luò)層數(shù)遠遠多于傳統(tǒng)算法的網(wǎng)絡(luò)模型。這樣的好處在于,在通過不同卷積層的特征提取之后圖像的低級紋理特征變成了可以表征語義信息的高級特征,增加了網(wǎng)絡(luò)的擬合數(shù)據(jù)分布的能力。2.1.1卷積神經(jīng)網(wǎng)絡(luò)介紹卷積神經(jīng)網(wǎng)絡(luò)CNN自首次提出以來,就在圖像識別領(lǐng)域受到了極大關(guān)注。由于其識別準(zhǔn)確率遠遠超過傳統(tǒng)算法,所以許多國內(nèi)外學(xué)者對其進行了大量研究。隨著CNN的廣泛研究推廣,該算法開始被應(yīng)用于行為識別領(lǐng)域。區(qū)別于繁瑣的人工特征提取方法,CNN網(wǎng)絡(luò)的優(yōu)勢在于可以通過自主學(xué)習(xí)獲取具有判別力的數(shù)據(jù)特征,從而實現(xiàn)準(zhǔn)確的行為識別。近年來,CNN網(wǎng)絡(luò)已成為行為識別領(lǐng)域最常用的特征提取器之一。"""",","1"1"(,)whckkcijccijciijjciiconvxwwx(2-1)
本文編號:3367781
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3367781.html
最近更新
教材專著