基于回復(fù)式神經(jīng)網(wǎng)絡(luò)的圖像序列識別若干問題研究
發(fā)布時間:2021-08-11 11:52
隨著攝像監(jiān)控設(shè)備以及智能移動設(shè)備的普及,安防、娛樂等領(lǐng)域視頻數(shù)據(jù)呈現(xiàn)爆炸式增長,利用人工智能技術(shù)理解視頻內(nèi)容成為建設(shè)“智慧城市”的重要環(huán)節(jié)。作為視頻分析技術(shù)的重要分支,圖像序列(視頻)識別是計算機視覺中的熱點研究方向,在人機交互、智能監(jiān)控、自動駕駛等領(lǐng)域都有著廣泛的應(yīng)用。隨著深度學(xué)習(xí)的發(fā)展,尤其是回復(fù)式神經(jīng)網(wǎng)絡(luò)的“記憶”功能,基于回復(fù)式神經(jīng)網(wǎng)絡(luò)的圖像序列(視頻)識別取得了顯著成果。然而,面對視頻外觀變化、背景變化、質(zhì)量低下等干擾因素的影響,利用回復(fù)式神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)圖像序列中具有辨別力的特征表示,仍然極具挑戰(zhàn)性。本文圍繞基于回復(fù)式神經(jīng)網(wǎng)絡(luò)的圖像序列(視頻)識別問題展開相關(guān)研究。首先,通過步態(tài)識別(工作一)解決視頻分析中的“是誰”問題;在此基礎(chǔ)上,從三個方面(工作二、三、四)對人體行為進行識別,解決視頻分析中的“做了什么”問題。本文的四項研究工作以及貢獻包括:(1)人體步態(tài)識別算法受限于外在形象的差異、拍攝角度的變化、背景內(nèi)容的復(fù)雜等因素,往往識別效果不佳。本文提出基于記憶學(xué)習(xí)的步態(tài)識別算法。首先,作為前期工作,手動標(biāo)注少量人體步態(tài)關(guān)節(jié)點數(shù)據(jù),包括正樣本和負樣本(不存在人物的數(shù)據(jù))。然后,利...
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:132 頁
【學(xué)位級別】:博士
【部分圖文】:
傳統(tǒng)方法處理圖像序列識別任務(wù)的過程
圖1-3展示了深度學(xué)習(xí)方法處理圖像序列識別任務(wù)的過程,與傳統(tǒng)方法不同的是,深度學(xué)習(xí)方法不需要手工設(shè)計特征,而是直接設(shè)計網(wǎng)絡(luò)結(jié)構(gòu),然后訓(xùn)練、學(xué)習(xí)網(wǎng)絡(luò)參數(shù)。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)與回復(fù)式神經(jīng)網(wǎng)絡(luò)是常用的神經(jīng)網(wǎng)絡(luò)模型。其中,LeCun等人在1989年首次提出卷積神經(jīng)網(wǎng)絡(luò)的思想,并將其用于解決手寫郵編碼的識別問題[14]。卷積神經(jīng)網(wǎng)絡(luò)通過在傳統(tǒng)前饋神經(jīng)網(wǎng)絡(luò)中加入卷積操作和池化(Pooling)操作,最終實現(xiàn)參數(shù)共享與局部感知,使得該網(wǎng)絡(luò)能夠輸出具有平移不變性、尺度不變性和抗形變的視覺特征。2012年,Krizhevsky等人利用基于卷積神經(jīng)網(wǎng)絡(luò)的AlexNet模型[15],在ImageNet大規(guī)模視覺識別挑戰(zhàn)賽中獲得冠軍。至此,深度學(xué)習(xí)方法流行起來。另外,許多探索神經(jīng)網(wǎng)絡(luò)可解釋性的文獻[16,17]都證明,卷積神經(jīng)網(wǎng)絡(luò)與人類大腦主視覺皮層在提取數(shù)據(jù)信息時有一定的相似性,不同的網(wǎng)絡(luò)層提取的特征具有不同的語義層次。從神經(jīng)網(wǎng)絡(luò)在圖像分析領(lǐng)域中取得的豐碩成果[18,19]中受到啟發(fā),許多研究者提出利用神經(jīng)網(wǎng)絡(luò)模型解決視頻數(shù)據(jù)任務(wù)。Karpathy等人[20]利于卷積神經(jīng)網(wǎng)絡(luò)提取視頻各幀視覺特征,然后在時間維度上探索多種融合策略學(xué)習(xí)視頻特征的表征。不同于前者的時間維度融合方式,Simonyan等人[21]利用光流(Optical Flow)信息表征視頻的動力學(xué)特征,將RGB和光流分兩路輸入卷積神經(jīng)網(wǎng)絡(luò),最終融合兩者結(jié)果共同學(xué)習(xí)圖像序列分類任務(wù)。為了避免程序復(fù)雜的光流計算過程,Tran等人[22]將2D卷積過程拓展到3D空間,提出使用3D卷積神經(jīng)網(wǎng)絡(luò)(3D Convolutional Neuralo Network,C3D)學(xué)習(xí)時空特征。之后,3D卷積操作得到廣泛應(yīng)用,研究者們在3D卷積思想的基礎(chǔ)上,提出雙流3D卷積網(wǎng)絡(luò)[23]、偽3D殘差卷積網(wǎng)絡(luò)[24]、分解的3D卷積殘差網(wǎng)絡(luò)[25]等來提升視頻分析性能。除此之外,Zhao等人[26]提出軌跡卷積網(wǎng)絡(luò),即在運動軌跡上執(zhí)行卷積操作,更好的學(xué)習(xí)圖像序列的時間特性。
(1)3D卷積網(wǎng)絡(luò)自從2012年AlexNet模型在圖像識別競賽中奪冠之后,卷積神經(jīng)網(wǎng)絡(luò)成為國內(nèi)外學(xué)術(shù)界和工業(yè)界的新進寵兒。為了更好的處理具有時空特性的視頻數(shù)據(jù),Tran等人[22]將2D卷積核擴展到3D空間,提出3D卷積網(wǎng)絡(luò),用于解決計算機視覺領(lǐng)域中的視頻分析問題。與傳統(tǒng)的2D卷積網(wǎng)絡(luò)相比,3D卷積網(wǎng)絡(luò)通過3D卷積操作與3D池化操作同時建模數(shù)據(jù)時序關(guān)系和空間關(guān)系。在3D卷積網(wǎng)絡(luò)中,網(wǎng)絡(luò)的輸入尺寸為c?l?h?w,c為通道數(shù),l為視頻幀的數(shù)量,h和w分別為靜態(tài)圖像的高度與寬度。與2D卷積核不同,3D卷積核多了一個維度,即卷積核深度,如圖1-4所示,圖中展示了一個3?3的2D卷積核用于處理圖像數(shù)據(jù),一個3?3?3的3D卷積核用于處理視頻數(shù)據(jù)。
【參考文獻】:
期刊論文
[1]人的視覺行為識別研究回顧、現(xiàn)狀及展望[J]. 單言虎,張彰,黃凱奇. 計算機研究與發(fā)展. 2016(01)
[2]課堂教學(xué)視頻分析軟件的設(shè)計與實現(xiàn)[J]. 張志禎,喻凡,李芒. 中國電化教育. 2010(06)
[3]智能視頻分析技術(shù)在周界報警系統(tǒng)中的應(yīng)用[J]. 陳育智. 自動化儀表. 2009(11)
[4]基于Matlab的圖像增強技術(shù)研究[J]. 賈小軍. 渭南師范學(xué)院學(xué)報. 2008(02)
[5]圖像增強技術(shù)的研究[J]. 張娜. 計算機仿真. 2007(01)
本文編號:3336108
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:132 頁
【學(xué)位級別】:博士
【部分圖文】:
傳統(tǒng)方法處理圖像序列識別任務(wù)的過程
圖1-3展示了深度學(xué)習(xí)方法處理圖像序列識別任務(wù)的過程,與傳統(tǒng)方法不同的是,深度學(xué)習(xí)方法不需要手工設(shè)計特征,而是直接設(shè)計網(wǎng)絡(luò)結(jié)構(gòu),然后訓(xùn)練、學(xué)習(xí)網(wǎng)絡(luò)參數(shù)。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)與回復(fù)式神經(jīng)網(wǎng)絡(luò)是常用的神經(jīng)網(wǎng)絡(luò)模型。其中,LeCun等人在1989年首次提出卷積神經(jīng)網(wǎng)絡(luò)的思想,并將其用于解決手寫郵編碼的識別問題[14]。卷積神經(jīng)網(wǎng)絡(luò)通過在傳統(tǒng)前饋神經(jīng)網(wǎng)絡(luò)中加入卷積操作和池化(Pooling)操作,最終實現(xiàn)參數(shù)共享與局部感知,使得該網(wǎng)絡(luò)能夠輸出具有平移不變性、尺度不變性和抗形變的視覺特征。2012年,Krizhevsky等人利用基于卷積神經(jīng)網(wǎng)絡(luò)的AlexNet模型[15],在ImageNet大規(guī)模視覺識別挑戰(zhàn)賽中獲得冠軍。至此,深度學(xué)習(xí)方法流行起來。另外,許多探索神經(jīng)網(wǎng)絡(luò)可解釋性的文獻[16,17]都證明,卷積神經(jīng)網(wǎng)絡(luò)與人類大腦主視覺皮層在提取數(shù)據(jù)信息時有一定的相似性,不同的網(wǎng)絡(luò)層提取的特征具有不同的語義層次。從神經(jīng)網(wǎng)絡(luò)在圖像分析領(lǐng)域中取得的豐碩成果[18,19]中受到啟發(fā),許多研究者提出利用神經(jīng)網(wǎng)絡(luò)模型解決視頻數(shù)據(jù)任務(wù)。Karpathy等人[20]利于卷積神經(jīng)網(wǎng)絡(luò)提取視頻各幀視覺特征,然后在時間維度上探索多種融合策略學(xué)習(xí)視頻特征的表征。不同于前者的時間維度融合方式,Simonyan等人[21]利用光流(Optical Flow)信息表征視頻的動力學(xué)特征,將RGB和光流分兩路輸入卷積神經(jīng)網(wǎng)絡(luò),最終融合兩者結(jié)果共同學(xué)習(xí)圖像序列分類任務(wù)。為了避免程序復(fù)雜的光流計算過程,Tran等人[22]將2D卷積過程拓展到3D空間,提出使用3D卷積神經(jīng)網(wǎng)絡(luò)(3D Convolutional Neuralo Network,C3D)學(xué)習(xí)時空特征。之后,3D卷積操作得到廣泛應(yīng)用,研究者們在3D卷積思想的基礎(chǔ)上,提出雙流3D卷積網(wǎng)絡(luò)[23]、偽3D殘差卷積網(wǎng)絡(luò)[24]、分解的3D卷積殘差網(wǎng)絡(luò)[25]等來提升視頻分析性能。除此之外,Zhao等人[26]提出軌跡卷積網(wǎng)絡(luò),即在運動軌跡上執(zhí)行卷積操作,更好的學(xué)習(xí)圖像序列的時間特性。
(1)3D卷積網(wǎng)絡(luò)自從2012年AlexNet模型在圖像識別競賽中奪冠之后,卷積神經(jīng)網(wǎng)絡(luò)成為國內(nèi)外學(xué)術(shù)界和工業(yè)界的新進寵兒。為了更好的處理具有時空特性的視頻數(shù)據(jù),Tran等人[22]將2D卷積核擴展到3D空間,提出3D卷積網(wǎng)絡(luò),用于解決計算機視覺領(lǐng)域中的視頻分析問題。與傳統(tǒng)的2D卷積網(wǎng)絡(luò)相比,3D卷積網(wǎng)絡(luò)通過3D卷積操作與3D池化操作同時建模數(shù)據(jù)時序關(guān)系和空間關(guān)系。在3D卷積網(wǎng)絡(luò)中,網(wǎng)絡(luò)的輸入尺寸為c?l?h?w,c為通道數(shù),l為視頻幀的數(shù)量,h和w分別為靜態(tài)圖像的高度與寬度。與2D卷積核不同,3D卷積核多了一個維度,即卷積核深度,如圖1-4所示,圖中展示了一個3?3的2D卷積核用于處理圖像數(shù)據(jù),一個3?3?3的3D卷積核用于處理視頻數(shù)據(jù)。
【參考文獻】:
期刊論文
[1]人的視覺行為識別研究回顧、現(xiàn)狀及展望[J]. 單言虎,張彰,黃凱奇. 計算機研究與發(fā)展. 2016(01)
[2]課堂教學(xué)視頻分析軟件的設(shè)計與實現(xiàn)[J]. 張志禎,喻凡,李芒. 中國電化教育. 2010(06)
[3]智能視頻分析技術(shù)在周界報警系統(tǒng)中的應(yīng)用[J]. 陳育智. 自動化儀表. 2009(11)
[4]基于Matlab的圖像增強技術(shù)研究[J]. 賈小軍. 渭南師范學(xué)院學(xué)報. 2008(02)
[5]圖像增強技術(shù)的研究[J]. 張娜. 計算機仿真. 2007(01)
本文編號:3336108
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/3336108.html
最近更新
教材專著