視頻時序動作檢測研究
發(fā)布時間:2021-04-08 22:48
近年來,隨著多媒體技術(shù)的發(fā)展及數(shù)字化設(shè)備的快速普及,網(wǎng)絡(luò)中的視頻數(shù)據(jù)呈爆炸式增長。如何快速、準確、高效地分析體量龐大而無組織的視頻數(shù)據(jù)成為研究人員亟待攻克的重要課題。作為機器學(xué)習(xí)中的重要分支,深度學(xué)習(xí)已在圖像分類和檢測領(lǐng)域取得重大突破,因此,研究人員著手將神經(jīng)網(wǎng)絡(luò)引入視頻理解問題。目前視頻理解問題已衍生出時序動作檢測、行為分析、視頻摘要、目標追蹤等任務(wù)。其中,時序動作檢測算法在醫(yī)療監(jiān)控、國家安防等眾多領(lǐng)域具有廣闊的應(yīng)用前景。時序動作檢測是計算機視覺領(lǐng)域中一項重要的任務(wù),不僅要識別長視頻中各個動作實例的精確動作區(qū)間,還應(yīng)判斷動作類別。其難點在于兩點:一方面,動作的邊界定位對于時序信息較為敏感,精確捕捉時序信息至關(guān)重要;另一方面,視頻中動作實例的時間跨度變化可能較大,這對網(wǎng)絡(luò)的長時序信息的捕捉能力要求較高。本文基于深度學(xué)習(xí)架構(gòu),提出了一種時域候選區(qū)域優(yōu)化的時序動作檢測方法(Temporal Proposal Optimization,TPO)。該方法利用卷積神經(jīng)網(wǎng)絡(luò)提取局部細粒度的時序信息,引入雙向長短期記憶網(wǎng)絡(luò)和級聯(lián)時序分類優(yōu)化方法提取全局整體的時序信息,聯(lián)合利用兩類信息構(gòu)造視頻的邊界概...
【文章來源】:合肥工業(yè)大學(xué)安徽省 211工程院校 教育部直屬院校
【文章頁數(shù)】:60 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2.1時序動作檢測算法流程圖
盜脅僮鰨??苊飭朔痹擁腦ご?砉?蹋?虼?卷積神經(jīng)網(wǎng)絡(luò)已廣泛應(yīng)用于各類圖像相關(guān)的領(lǐng)域中。啟發(fā)自人類視覺原理,上世紀90年代,LeCun等人[41]首次提出卷積神經(jīng)網(wǎng)絡(luò),而后經(jīng)過修改設(shè)計得到廣為熟知的用于手寫數(shù)字識別的LeNet-5模型,結(jié)構(gòu)圖如圖2.2,其主要由輸入層、卷積層(Convolution)、池化層(Subsampling)、全連接層(FullConnection)、輸出層組成。該模型針對數(shù)字識別問題,在手寫數(shù)字數(shù)據(jù)集MNIST上實現(xiàn)了高達99.2%的正確率,此實驗結(jié)果表明了CNN結(jié)構(gòu)的有效性。本節(jié)從卷積層和池化層兩方面對CNN的特點展開描述。圖2.2LeNet-5模型結(jié)構(gòu)[41]Fig2.2ThestructureofLeNet-5model(1)卷積層。卷積層由若干卷積單元構(gòu)成,其中的卷積操作來源于數(shù)學(xué)中的卷積運算,但又有所區(qū)別。執(zhí)行卷積操作時,將卷積核中心與圖像中某一像素點對準,將卷積核覆蓋的圖像區(qū)域內(nèi)的每個像素值與對應(yīng)的卷積核權(quán)值計算點積,運算結(jié)果作為該位置的響應(yīng)值,F(xiàn)在假設(shè)輸入的單通道圖像尺寸為44(淺灰色區(qū)域),卷積核尺寸設(shè)置為33(深灰色區(qū)域),填充設(shè)為0,步長設(shè)為1,這一卷積
合肥工業(yè)大學(xué)學(xué)術(shù)碩士研究生學(xué)位論文12運算過程如圖2.3所示。最終的卷積結(jié)果為22的特征圖像(綠色區(qū)域)。在卷積計算過程中,使用相同的卷積核對圖像的不同位置進行卷積操作,這意味著神經(jīng)元能夠檢測到處于圖像中不同位置的同一類型特征,因此卷積神經(jīng)網(wǎng)絡(luò)具有較好的平移不變性,不同神經(jīng)元之間的參數(shù)共享也減少了需要求解的參數(shù)量。與此同時,CNN中包含多個卷積層,單個神經(jīng)元不需要對整張圖像做感受,即淺層捕捉圖像的局部特征,深層整合淺層神經(jīng)元的信息構(gòu)成全局信息,這樣的設(shè)置減少了參數(shù)訓(xùn)練量。這也意味著在卷積神經(jīng)網(wǎng)絡(luò)中,低層學(xué)習(xí)顏色、紋理等低級特征,高層學(xué)習(xí)高級語義特性。圖2.3卷積過程Fig2.3Theprocedureofconvolution(2)池化層。引入池化的概念,對卷積操作之后的特征圖執(zhí)行下采樣,以調(diào)整圖像的大小,壓縮數(shù)據(jù)、降低數(shù)據(jù)維度,還可起到降低過擬合的作用。池化操作的計算過程如圖2.4所示,左側(cè)為最大值池化(MaxPooling),即響應(yīng)值為窗口中的最大值;右側(cè)為均值池化(MeanPooling),即響應(yīng)值為窗口中的均值。與卷積計算過程類似,池化操作也同樣取固定的掃描窗口對特征圖按從左至右、從上至下的順序掃描。為方便區(qū)分,每一次池化操作使用不同的背景顏色。最大池化對窗口中的矩陣進行最大值采樣,平均池化對窗口中的矩陣進行均值采樣。圖2.4最大值池化與均值池化過程Fig2.4Theprocedureofmaxpoolingandmeanpooling2.2.2循環(huán)神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)[42](RecursiveNeuralNetwork,RNN)借鑒了“人的認知是基于過往的經(jīng)驗和記憶”這一特性,賦予了網(wǎng)絡(luò)“記憶”功能。RNN以序列數(shù)據(jù)為輸入,
【參考文獻】:
期刊論文
[1]基于深度學(xué)習(xí)的視頻中人體動作識別進展綜述[J]. 羅會蘭,童康,孔繁勝. 電子學(xué)報. 2019(05)
[2]動作切分和流形度量學(xué)習(xí)的視頻動作識別[J]. 羅會蘭,賴澤云,孔繁勝. 中國圖象圖形學(xué)報. 2017(08)
[3]人的視覺行為識別研究回顧、現(xiàn)狀及展望[J]. 單言虎,張彰,黃凱奇. 計算機研究與發(fā)展. 2016(01)
碩士論文
[1]基于深度學(xué)習(xí)的時序動作檢測和視頻描述算法研究[D]. 劉曉寧.北京郵電大學(xué) 2019
本文編號:3126402
【文章來源】:合肥工業(yè)大學(xué)安徽省 211工程院校 教育部直屬院校
【文章頁數(shù)】:60 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2.1時序動作檢測算法流程圖
盜脅僮鰨??苊飭朔痹擁腦ご?砉?蹋?虼?卷積神經(jīng)網(wǎng)絡(luò)已廣泛應(yīng)用于各類圖像相關(guān)的領(lǐng)域中。啟發(fā)自人類視覺原理,上世紀90年代,LeCun等人[41]首次提出卷積神經(jīng)網(wǎng)絡(luò),而后經(jīng)過修改設(shè)計得到廣為熟知的用于手寫數(shù)字識別的LeNet-5模型,結(jié)構(gòu)圖如圖2.2,其主要由輸入層、卷積層(Convolution)、池化層(Subsampling)、全連接層(FullConnection)、輸出層組成。該模型針對數(shù)字識別問題,在手寫數(shù)字數(shù)據(jù)集MNIST上實現(xiàn)了高達99.2%的正確率,此實驗結(jié)果表明了CNN結(jié)構(gòu)的有效性。本節(jié)從卷積層和池化層兩方面對CNN的特點展開描述。圖2.2LeNet-5模型結(jié)構(gòu)[41]Fig2.2ThestructureofLeNet-5model(1)卷積層。卷積層由若干卷積單元構(gòu)成,其中的卷積操作來源于數(shù)學(xué)中的卷積運算,但又有所區(qū)別。執(zhí)行卷積操作時,將卷積核中心與圖像中某一像素點對準,將卷積核覆蓋的圖像區(qū)域內(nèi)的每個像素值與對應(yīng)的卷積核權(quán)值計算點積,運算結(jié)果作為該位置的響應(yīng)值,F(xiàn)在假設(shè)輸入的單通道圖像尺寸為44(淺灰色區(qū)域),卷積核尺寸設(shè)置為33(深灰色區(qū)域),填充設(shè)為0,步長設(shè)為1,這一卷積
合肥工業(yè)大學(xué)學(xué)術(shù)碩士研究生學(xué)位論文12運算過程如圖2.3所示。最終的卷積結(jié)果為22的特征圖像(綠色區(qū)域)。在卷積計算過程中,使用相同的卷積核對圖像的不同位置進行卷積操作,這意味著神經(jīng)元能夠檢測到處于圖像中不同位置的同一類型特征,因此卷積神經(jīng)網(wǎng)絡(luò)具有較好的平移不變性,不同神經(jīng)元之間的參數(shù)共享也減少了需要求解的參數(shù)量。與此同時,CNN中包含多個卷積層,單個神經(jīng)元不需要對整張圖像做感受,即淺層捕捉圖像的局部特征,深層整合淺層神經(jīng)元的信息構(gòu)成全局信息,這樣的設(shè)置減少了參數(shù)訓(xùn)練量。這也意味著在卷積神經(jīng)網(wǎng)絡(luò)中,低層學(xué)習(xí)顏色、紋理等低級特征,高層學(xué)習(xí)高級語義特性。圖2.3卷積過程Fig2.3Theprocedureofconvolution(2)池化層。引入池化的概念,對卷積操作之后的特征圖執(zhí)行下采樣,以調(diào)整圖像的大小,壓縮數(shù)據(jù)、降低數(shù)據(jù)維度,還可起到降低過擬合的作用。池化操作的計算過程如圖2.4所示,左側(cè)為最大值池化(MaxPooling),即響應(yīng)值為窗口中的最大值;右側(cè)為均值池化(MeanPooling),即響應(yīng)值為窗口中的均值。與卷積計算過程類似,池化操作也同樣取固定的掃描窗口對特征圖按從左至右、從上至下的順序掃描。為方便區(qū)分,每一次池化操作使用不同的背景顏色。最大池化對窗口中的矩陣進行最大值采樣,平均池化對窗口中的矩陣進行均值采樣。圖2.4最大值池化與均值池化過程Fig2.4Theprocedureofmaxpoolingandmeanpooling2.2.2循環(huán)神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)[42](RecursiveNeuralNetwork,RNN)借鑒了“人的認知是基于過往的經(jīng)驗和記憶”這一特性,賦予了網(wǎng)絡(luò)“記憶”功能。RNN以序列數(shù)據(jù)為輸入,
【參考文獻】:
期刊論文
[1]基于深度學(xué)習(xí)的視頻中人體動作識別進展綜述[J]. 羅會蘭,童康,孔繁勝. 電子學(xué)報. 2019(05)
[2]動作切分和流形度量學(xué)習(xí)的視頻動作識別[J]. 羅會蘭,賴澤云,孔繁勝. 中國圖象圖形學(xué)報. 2017(08)
[3]人的視覺行為識別研究回顧、現(xiàn)狀及展望[J]. 單言虎,張彰,黃凱奇. 計算機研究與發(fā)展. 2016(01)
碩士論文
[1]基于深度學(xué)習(xí)的時序動作檢測和視頻描述算法研究[D]. 劉曉寧.北京郵電大學(xué) 2019
本文編號:3126402
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3126402.html
最近更新
教材專著