大熊貓行為識別研究與應用
發(fā)布時間:2021-08-20 07:33
行為識別是計算機視覺領域中的一個重要方向,也是近年來隨著深度學習浪潮興起的一個研究熱點。行為識別技術以圖片、視頻信息為基礎,提取其中時空特征進行學習建模,從而對目標當前的行為動作進行判別,以方便決策人員快速反應并采取相應措施。當前的行為識別技術及其相關研究主要針對人類行為,人類行為定義較為精確,可辨識度高,數(shù)據集充足,在近幾年人類行為識別技術已經取得了可喜的進展。與人類行為識別方法研究相比,針對大熊貓的行為識別研究存在著如下亟待解決的問題:(1)現(xiàn)實中大熊貓行為數(shù)據匱乏,可以獲取到的視頻數(shù)據同質化問題嚴重。(2)目前沒有一個標準的數(shù)據集用來評價熊貓行為識別效果。(3)由于體態(tài)、環(huán)境噪音等多種影響因素,大熊貓姿態(tài)模糊、可辨識度低,增加了對這類生物識別的困難(4)從長期發(fā)展來看,大熊貓行為識別技術對時間性能有一定要求。針對上述問題,本文提出了兩種基于Transformer模型的大熊貓行為識別算法。一種是基于空時信息模型的CNN-Transformer算法,該算法利用卷積神經網絡提取視頻幀的空間特征圖,將特征圖壓縮為向量并輸入到Transformer的encoder部分實現(xiàn)時序建模;另一種是...
【文章來源】:電子科技大學四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:80 頁
【學位級別】:碩士
【部分圖文】:
iDT流程
電子科技大學碩士學位論文單幀圖像分類在卷積神經網絡興起后已經有了很不錯的進展,相比單幀,視頻分類多出了一個時序信息,這就為分類增添了難度。CNN+RNN 模路就是利用擅長時序建模的 RNN 模型來捕捉視頻的時序信息,首先用圖像的特征,再將特征壓縮為一維向量,再將向量送入 RNN 模型進行一個語義模型。運用訓練好的模型時,將一個序列的圖像向量逐個送入語會得到一系列輸出,取最后一個輸出可以得到視頻的分類結果。3D 卷積模型主要是基于 3D 卷積運算,相對于 2D 卷積運算,3D 卷積運個時間維度的卷積,具體表現(xiàn)在視頻處理上就是可以一次性卷積多張圖片-3。
第二章 行為識別相關基礎理論知識雙流法將網絡分為兩個部分,一個部分稱為空間流卷積網絡,另一個部分稱為時間流卷積網絡。空間流卷積網絡本質上跟普通的基于 2D 卷積網絡的圖片分類沒有太大區(qū)別,只是做多張圖片的分類再平均結果;時間流卷積網絡負責對視頻進行時序建模,其主要利用了光流場來描述視頻的時序信息,再將光流場作為輸入賦予2D 卷積網絡進行分類。最后再將兩個部分的分類結果進行一個融合。雙流法的流程如圖 2-4 所示。
本文編號:3353089
【文章來源】:電子科技大學四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:80 頁
【學位級別】:碩士
【部分圖文】:
iDT流程
電子科技大學碩士學位論文單幀圖像分類在卷積神經網絡興起后已經有了很不錯的進展,相比單幀,視頻分類多出了一個時序信息,這就為分類增添了難度。CNN+RNN 模路就是利用擅長時序建模的 RNN 模型來捕捉視頻的時序信息,首先用圖像的特征,再將特征壓縮為一維向量,再將向量送入 RNN 模型進行一個語義模型。運用訓練好的模型時,將一個序列的圖像向量逐個送入語會得到一系列輸出,取最后一個輸出可以得到視頻的分類結果。3D 卷積模型主要是基于 3D 卷積運算,相對于 2D 卷積運算,3D 卷積運個時間維度的卷積,具體表現(xiàn)在視頻處理上就是可以一次性卷積多張圖片-3。
第二章 行為識別相關基礎理論知識雙流法將網絡分為兩個部分,一個部分稱為空間流卷積網絡,另一個部分稱為時間流卷積網絡。空間流卷積網絡本質上跟普通的基于 2D 卷積網絡的圖片分類沒有太大區(qū)別,只是做多張圖片的分類再平均結果;時間流卷積網絡負責對視頻進行時序建模,其主要利用了光流場來描述視頻的時序信息,再將光流場作為輸入賦予2D 卷積網絡進行分類。最后再將兩個部分的分類結果進行一個融合。雙流法的流程如圖 2-4 所示。
本文編號:3353089
本文鏈接:http://sikaile.net/projectlw/swxlw/3353089.html
最近更新
教材專著