天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

視頻時(shí)序動(dòng)作檢測(cè)研究

發(fā)布時(shí)間:2021-04-08 22:48
  近年來(lái),隨著多媒體技術(shù)的發(fā)展及數(shù)字化設(shè)備的快速普及,網(wǎng)絡(luò)中的視頻數(shù)據(jù)呈爆炸式增長(zhǎng)。如何快速、準(zhǔn)確、高效地分析體量龐大而無(wú)組織的視頻數(shù)據(jù)成為研究人員亟待攻克的重要課題。作為機(jī)器學(xué)習(xí)中的重要分支,深度學(xué)習(xí)已在圖像分類和檢測(cè)領(lǐng)域取得重大突破,因此,研究人員著手將神經(jīng)網(wǎng)絡(luò)引入視頻理解問(wèn)題。目前視頻理解問(wèn)題已衍生出時(shí)序動(dòng)作檢測(cè)、行為分析、視頻摘要、目標(biāo)追蹤等任務(wù)。其中,時(shí)序動(dòng)作檢測(cè)算法在醫(yī)療監(jiān)控、國(guó)家安防等眾多領(lǐng)域具有廣闊的應(yīng)用前景。時(shí)序動(dòng)作檢測(cè)是計(jì)算機(jī)視覺(jué)領(lǐng)域中一項(xiàng)重要的任務(wù),不僅要識(shí)別長(zhǎng)視頻中各個(gè)動(dòng)作實(shí)例的精確動(dòng)作區(qū)間,還應(yīng)判斷動(dòng)作類別。其難點(diǎn)在于兩點(diǎn):一方面,動(dòng)作的邊界定位對(duì)于時(shí)序信息較為敏感,精確捕捉時(shí)序信息至關(guān)重要;另一方面,視頻中動(dòng)作實(shí)例的時(shí)間跨度變化可能較大,這對(duì)網(wǎng)絡(luò)的長(zhǎng)時(shí)序信息的捕捉能力要求較高。本文基于深度學(xué)習(xí)架構(gòu),提出了一種時(shí)域候選區(qū)域優(yōu)化的時(shí)序動(dòng)作檢測(cè)方法(Temporal Proposal Optimization,TPO)。該方法利用卷積神經(jīng)網(wǎng)絡(luò)提取局部細(xì)粒度的時(shí)序信息,引入雙向長(zhǎng)短期記憶網(wǎng)絡(luò)和級(jí)聯(lián)時(shí)序分類優(yōu)化方法提取全局整體的時(shí)序信息,聯(lián)合利用兩類信息構(gòu)造視頻的邊界概... 

【文章來(lái)源】:合肥工業(yè)大學(xué)安徽省 211工程院校 教育部直屬院校

【文章頁(yè)數(shù)】:60 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

視頻時(shí)序動(dòng)作檢測(cè)研究


圖2.1時(shí)序動(dòng)作檢測(cè)算法流程圖

模型結(jié)構(gòu),卷積,卷積核


盜脅僮鰨??苊飭朔痹擁腦ご?砉?蹋?虼?卷積神經(jīng)網(wǎng)絡(luò)已廣泛應(yīng)用于各類圖像相關(guān)的領(lǐng)域中。啟發(fā)自人類視覺(jué)原理,上世紀(jì)90年代,LeCun等人[41]首次提出卷積神經(jīng)網(wǎng)絡(luò),而后經(jīng)過(guò)修改設(shè)計(jì)得到廣為熟知的用于手寫數(shù)字識(shí)別的LeNet-5模型,結(jié)構(gòu)圖如圖2.2,其主要由輸入層、卷積層(Convolution)、池化層(Subsampling)、全連接層(FullConnection)、輸出層組成。該模型針對(duì)數(shù)字識(shí)別問(wèn)題,在手寫數(shù)字?jǐn)?shù)據(jù)集MNIST上實(shí)現(xiàn)了高達(dá)99.2%的正確率,此實(shí)驗(yàn)結(jié)果表明了CNN結(jié)構(gòu)的有效性。本節(jié)從卷積層和池化層兩方面對(duì)CNN的特點(diǎn)展開(kāi)描述。圖2.2LeNet-5模型結(jié)構(gòu)[41]Fig2.2ThestructureofLeNet-5model(1)卷積層。卷積層由若干卷積單元構(gòu)成,其中的卷積操作來(lái)源于數(shù)學(xué)中的卷積運(yùn)算,但又有所區(qū)別。執(zhí)行卷積操作時(shí),將卷積核中心與圖像中某一像素點(diǎn)對(duì)準(zhǔn),將卷積核覆蓋的圖像區(qū)域內(nèi)的每個(gè)像素值與對(duì)應(yīng)的卷積核權(quán)值計(jì)算點(diǎn)積,運(yùn)算結(jié)果作為該位置的響應(yīng)值,F(xiàn)在假設(shè)輸入的單通道圖像尺寸為44(淺灰色區(qū)域),卷積核尺寸設(shè)置為33(深灰色區(qū)域),填充設(shè)為0,步長(zhǎng)設(shè)為1,這一卷積

過(guò)程圖,卷積,過(guò)程


合肥工業(yè)大學(xué)學(xué)術(shù)碩士研究生學(xué)位論文12運(yùn)算過(guò)程如圖2.3所示。最終的卷積結(jié)果為22的特征圖像(綠色區(qū)域)。在卷積計(jì)算過(guò)程中,使用相同的卷積核對(duì)圖像的不同位置進(jìn)行卷積操作,這意味著神經(jīng)元能夠檢測(cè)到處于圖像中不同位置的同一類型特征,因此卷積神經(jīng)網(wǎng)絡(luò)具有較好的平移不變性,不同神經(jīng)元之間的參數(shù)共享也減少了需要求解的參數(shù)量。與此同時(shí),CNN中包含多個(gè)卷積層,單個(gè)神經(jīng)元不需要對(duì)整張圖像做感受,即淺層捕捉圖像的局部特征,深層整合淺層神經(jīng)元的信息構(gòu)成全局信息,這樣的設(shè)置減少了參數(shù)訓(xùn)練量。這也意味著在卷積神經(jīng)網(wǎng)絡(luò)中,低層學(xué)習(xí)顏色、紋理等低級(jí)特征,高層學(xué)習(xí)高級(jí)語(yǔ)義特性。圖2.3卷積過(guò)程Fig2.3Theprocedureofconvolution(2)池化層。引入池化的概念,對(duì)卷積操作之后的特征圖執(zhí)行下采樣,以調(diào)整圖像的大小,壓縮數(shù)據(jù)、降低數(shù)據(jù)維度,還可起到降低過(guò)擬合的作用。池化操作的計(jì)算過(guò)程如圖2.4所示,左側(cè)為最大值池化(MaxPooling),即響應(yīng)值為窗口中的最大值;右側(cè)為均值池化(MeanPooling),即響應(yīng)值為窗口中的均值。與卷積計(jì)算過(guò)程類似,池化操作也同樣取固定的掃描窗口對(duì)特征圖按從左至右、從上至下的順序掃描。為方便區(qū)分,每一次池化操作使用不同的背景顏色。最大池化對(duì)窗口中的矩陣進(jìn)行最大值采樣,平均池化對(duì)窗口中的矩陣進(jìn)行均值采樣。圖2.4最大值池化與均值池化過(guò)程Fig2.4Theprocedureofmaxpoolingandmeanpooling2.2.2循環(huán)神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)[42](RecursiveNeuralNetwork,RNN)借鑒了“人的認(rèn)知是基于過(guò)往的經(jīng)驗(yàn)和記憶”這一特性,賦予了網(wǎng)絡(luò)“記憶”功能。RNN以序列數(shù)據(jù)為輸入,

【參考文獻(xiàn)】:
期刊論文
[1]基于深度學(xué)習(xí)的視頻中人體動(dòng)作識(shí)別進(jìn)展綜述[J]. 羅會(huì)蘭,童康,孔繁勝.  電子學(xué)報(bào). 2019(05)
[2]動(dòng)作切分和流形度量學(xué)習(xí)的視頻動(dòng)作識(shí)別[J]. 羅會(huì)蘭,賴澤云,孔繁勝.  中國(guó)圖象圖形學(xué)報(bào). 2017(08)
[3]人的視覺(jué)行為識(shí)別研究回顧、現(xiàn)狀及展望[J]. 單言虎,張彰,黃凱奇.  計(jì)算機(jī)研究與發(fā)展. 2016(01)

碩士論文
[1]基于深度學(xué)習(xí)的時(shí)序動(dòng)作檢測(cè)和視頻描述算法研究[D]. 劉曉寧.北京郵電大學(xué) 2019



本文編號(hào):3126402

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3126402.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶9ce1a***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com