視頻理解中人體動(dòng)作的細(xì)粒度表示與應(yīng)用
發(fā)布時(shí)間:2021-08-16 13:30
計(jì)算機(jī)視覺的終極目標(biāo)是使機(jī)器能夠理解視覺媒體,包括繪畫、照片和視頻等。由于深度學(xué)習(xí)技術(shù)的高速發(fā)展,我們目前幾乎可以很好地解決靜態(tài)圖像的理解任務(wù),如圖像分類、目標(biāo)檢測(cè)、甚至圖像的語義分割。然而,視頻的理解卻是最復(fù)雜且富有挑戰(zhàn)的,其關(guān)鍵原因在于額外的時(shí)間維度的信息,尤其是當(dāng)涉及到非常相似的類別的區(qū)分時(shí),問題則變得更加困難。這屬于細(xì)粒度動(dòng)作分析的問題,通常要求模型能夠捕獲相似的動(dòng)作之間在局部表觀和運(yùn)動(dòng)上的微小差異。細(xì)粒度動(dòng)作的分析有許多潛在的應(yīng)用,例如,精確的動(dòng)作分類與檢測(cè),智能體育分析,行人重識(shí)別,智能的人機(jī)交互等。在對(duì)相關(guān)研究現(xiàn)狀的分析基礎(chǔ)上發(fā)現(xiàn)細(xì)粒度動(dòng)作分析的發(fā)展主要受到三方面挑戰(zhàn)的制約:一個(gè)難點(diǎn)來自于底層動(dòng)作特征到高層語義之間的語義鴻溝;另一個(gè)是如何刻畫整體上高度相似的動(dòng)作間的局部微小差異;最后是特征學(xué)習(xí)時(shí)時(shí)域信息建模的缺失。對(duì)于細(xì)粒度動(dòng)作進(jìn)行分析,時(shí)空上下文的建模比以往顯得更為重要。本文針對(duì)細(xì)粒度動(dòng)作分析中的上述問題,分別從特征選擇和特征學(xué)習(xí)的推理層面進(jìn)行研究,期望挖掘能夠有效捕捉高層語義概念的中層動(dòng)作模式;提取對(duì)于局部差異更加敏感細(xì)粒度動(dòng)作表示;對(duì)時(shí)序信息進(jìn)行有效建模進(jìn)一步提高對(duì)...
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:135 頁
【學(xué)位級(jí)別】:博士
【部分圖文】:
Wang等[2]提出的增強(qiáng)軌跡方法框架Fig.1-4MethodframeworkofimprovedtrajectoriesofWangetal.[2]
1章 緒論圖1-5 Simonyan等[11]提出的雙流網(wǎng)絡(luò)框架Fig.1-5 Two-stream network architecture proposed by Simonyan et al.[2]Encoding Networks)[31],時(shí)空金字塔網(wǎng)絡(luò)(Spatio-temporal Pyramid Network)[32],雙流膨脹三維卷積網(wǎng)絡(luò)(Two-Stream Inflated 3D ConvNet, I3D)[4],長時(shí)段卷積神經(jīng)網(wǎng)絡(luò)(Long-Term Temporal Convolutions, LTC)[33]等,現(xiàn)有的公開動(dòng)作分析數(shù)據(jù)集上的識(shí)別性能已取得了突破性的提升。1.2.2細(xì)粒度圖像分析隨著深度學(xué)習(xí)在圖像分類、目標(biāo)檢測(cè)、語義分割等傳統(tǒng)任務(wù)上取得顯著突破,越來越多的工作開始關(guān)注細(xì)粒度圖像分類問題,也就是更精細(xì)的子類別的識(shí)別,如圖1-6所示為公開細(xì)粒度鳥類數(shù)據(jù)集Caltech-UCSD Birds 200[34]中的樣例圖片,鳥類的粗粒度的類別標(biāo)簽下還包括燕子、鳴鳥和海鷗等子類
-%."/%0"*1(-* !(2-%'3#4-5%0"*1(-*67)*/%82(( +"(39)*#3"%82((圖1-6 Caltech-UCSD Birds 200[34]數(shù)據(jù)集中樣例圖片F(xiàn)ig.1-6 Samples of Caltech-UCSD Birds 200[34]dataset- 10 -
本文編號(hào):3345760
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:135 頁
【學(xué)位級(jí)別】:博士
【部分圖文】:
Wang等[2]提出的增強(qiáng)軌跡方法框架Fig.1-4MethodframeworkofimprovedtrajectoriesofWangetal.[2]
1章 緒論圖1-5 Simonyan等[11]提出的雙流網(wǎng)絡(luò)框架Fig.1-5 Two-stream network architecture proposed by Simonyan et al.[2]Encoding Networks)[31],時(shí)空金字塔網(wǎng)絡(luò)(Spatio-temporal Pyramid Network)[32],雙流膨脹三維卷積網(wǎng)絡(luò)(Two-Stream Inflated 3D ConvNet, I3D)[4],長時(shí)段卷積神經(jīng)網(wǎng)絡(luò)(Long-Term Temporal Convolutions, LTC)[33]等,現(xiàn)有的公開動(dòng)作分析數(shù)據(jù)集上的識(shí)別性能已取得了突破性的提升。1.2.2細(xì)粒度圖像分析隨著深度學(xué)習(xí)在圖像分類、目標(biāo)檢測(cè)、語義分割等傳統(tǒng)任務(wù)上取得顯著突破,越來越多的工作開始關(guān)注細(xì)粒度圖像分類問題,也就是更精細(xì)的子類別的識(shí)別,如圖1-6所示為公開細(xì)粒度鳥類數(shù)據(jù)集Caltech-UCSD Birds 200[34]中的樣例圖片,鳥類的粗粒度的類別標(biāo)簽下還包括燕子、鳴鳥和海鷗等子類
-%."/%0"*1(-* !(2-%'3#4-5%0"*1(-*67)*/%82(( +"(39)*#3"%82((圖1-6 Caltech-UCSD Birds 200[34]數(shù)據(jù)集中樣例圖片F(xiàn)ig.1-6 Samples of Caltech-UCSD Birds 200[34]dataset- 10 -
本文編號(hào):3345760
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3345760.html
最近更新
教材專著