基于關(guān)注度LSTM的動作提議和行為識別
發(fā)布時間:2021-10-14 23:46
行為分析的目的是從視頻中檢測和識別正在發(fā)生的行為,使得計算機系統(tǒng)能夠理解行為并對場景進行進一步的語義描述。然而,海量視頻數(shù)據(jù)的背后蘊含的是參差不齊的視頻內(nèi)容,這無疑給視頻行為分析帶來了巨大的挑戰(zhàn)與壓力。當前已有的各種分析模型雖然能夠較好地對視頻中的行為進行分析和識別,但是仍然存在一定的局限性:行為分析模型多數(shù)局限于底層特征,難以表達行為發(fā)生的具體過程;復雜的背景噪聲和光照條件的變化,使得視頻中包含了大量的背景冗余信息;視頻時長的長短不一使得視頻中包含了大量與行為分析不太相關(guān)的冗余幀。對此,本文通過行為分析任務基本特征,結(jié)合循環(huán)神經(jīng)網(wǎng)絡的信息依賴特性,在長短期記憶網(wǎng)絡中引入時空關(guān)注度機制,挖掘時空語境信息,探索行為表達過程,并且能夠提取視頻中關(guān)鍵幀的顯著性區(qū)域,提取有效信息,強化行為表達。針對上述問題,本文主要工作如下:(1)針對當前大多數(shù)行為分析仍然包含大量的噪聲信息以及無法從認知角度理解行為的表達過程,本文在長短期記憶網(wǎng)絡中引入關(guān)注度機制,挖掘行為時空語境線索,關(guān)注時空有效信息,提高行為分析效率。(2)針對當前大多數(shù)的動作提議研究方法的效率低下及步驟繁瑣等問題,本文提出基于空間關(guān)注度...
【文章來源】:合肥工業(yè)大學安徽省 211工程院校 教育部直屬院校
【文章頁數(shù)】:73 頁
【學位級別】:碩士
【部分圖文】:
行為分析過程
圖 2.2 卷積神經(jīng)網(wǎng)絡的卷積和池化過程Fig 2.2 Convolution and pooling in convolutional neural network2.2.2 卷積神經(jīng)網(wǎng)絡特點卷積神經(jīng)網(wǎng)絡有兩個重要思想幫助提升機器學習算法的性能:局部連接(localconnectivity)和參數(shù)共享(parameter sharing)。傳統(tǒng)的神經(jīng)網(wǎng)絡層使用單獨的參數(shù)利用矩陣相乘來描述輸入單元和輸出單元的關(guān)系,這意味著每個輸出單元與輸入單元都進行交互。然而,卷積神經(jīng)網(wǎng)絡具有局部連接的特性,通過使核的大小小于輸入的大小來實現(xiàn)。在處理圖像時,輸入圖像可能具有成千上萬的像素,使用全連接會增加大量的參數(shù)量,是不切實際的。然而,局部連接有助于濾波器學習捕獲重要的圖像特征而不用學習全局模式所對應的權(quán)重,這既降低了模型的內(nèi)存需求,又提高了統(tǒng)計效率。參數(shù)共享是指在多個位置使用相同的權(quán)重,是一種用于減少與模型相關(guān)的自由參數(shù)數(shù)量的方案。傳統(tǒng)神經(jīng)網(wǎng)絡中,權(quán)重矩陣的每個元素在計算層的輸出時僅使用一次,它乘以輸入的一個元素,然后再也不會重新訪問。卷積神經(jīng)網(wǎng)絡中,核的每個成員用于輸入的每個位置,卷積運算使用的參數(shù)
卷積的輸出是一個序列,其中輸出的每個元素是幾個數(shù)。參數(shù)共享的思想體現(xiàn)在每個時刻的卷積核是相同的。循環(huán)網(wǎng)絡共享參數(shù),輸出的每個元素都是先前輸出的函數(shù),使用先前輸出的生成新的輸出。了簡化說明,我們將 RNN 稱為對包含向量 x (t )的序列進行操作,其引t的范圍為 1 到 。時間步長索引不一定是指現(xiàn)實世界中的時間流序列中的位置。RNN 還可以應用于圖像等跨域兩個維度的空間數(shù)據(jù)于涉及時間的數(shù)據(jù)時,將整個序列提供給網(wǎng)絡之前就可以觀察到整以建立在時間上向后的連接。環(huán)神經(jīng)網(wǎng)絡結(jié)構(gòu)及特點節(jié)使用計算圖的思想來闡述循環(huán)神經(jīng)網(wǎng)絡,將輸入和參數(shù)映射到輸進行展開并作出解釋,展開計算圖的方式進一步論證了深度網(wǎng)絡中如圖 2.3 所示,為 RNN 的循環(huán)結(jié)構(gòu)及其展開的計算圖,從圖中可以絡在每個時刻都有輸出并且在隱單元之間建立循環(huán)連接。
【參考文獻】:
期刊論文
[1]人的視覺行為識別研究回顧、現(xiàn)狀及展望[J]. 單言虎,張彰,黃凱奇. 計算機研究與發(fā)展. 2016(01)
[2]復雜場景下的人體行為識別研究新進展[J]. 雷慶,陳鍛生,李紹滋. 計算機科學. 2014(12)
[3]單目視覺下目標三維行為的時間尺度不變建模及識別[J]. 王蒙,戴亞平,王慶林. 自動化學報. 2014(08)
[4]基于視覺的人體動作識別綜述[J]. 胡瓊,秦磊,黃慶明. 計算機學報. 2013(12)
本文編號:3437038
【文章來源】:合肥工業(yè)大學安徽省 211工程院校 教育部直屬院校
【文章頁數(shù)】:73 頁
【學位級別】:碩士
【部分圖文】:
行為分析過程
圖 2.2 卷積神經(jīng)網(wǎng)絡的卷積和池化過程Fig 2.2 Convolution and pooling in convolutional neural network2.2.2 卷積神經(jīng)網(wǎng)絡特點卷積神經(jīng)網(wǎng)絡有兩個重要思想幫助提升機器學習算法的性能:局部連接(localconnectivity)和參數(shù)共享(parameter sharing)。傳統(tǒng)的神經(jīng)網(wǎng)絡層使用單獨的參數(shù)利用矩陣相乘來描述輸入單元和輸出單元的關(guān)系,這意味著每個輸出單元與輸入單元都進行交互。然而,卷積神經(jīng)網(wǎng)絡具有局部連接的特性,通過使核的大小小于輸入的大小來實現(xiàn)。在處理圖像時,輸入圖像可能具有成千上萬的像素,使用全連接會增加大量的參數(shù)量,是不切實際的。然而,局部連接有助于濾波器學習捕獲重要的圖像特征而不用學習全局模式所對應的權(quán)重,這既降低了模型的內(nèi)存需求,又提高了統(tǒng)計效率。參數(shù)共享是指在多個位置使用相同的權(quán)重,是一種用于減少與模型相關(guān)的自由參數(shù)數(shù)量的方案。傳統(tǒng)神經(jīng)網(wǎng)絡中,權(quán)重矩陣的每個元素在計算層的輸出時僅使用一次,它乘以輸入的一個元素,然后再也不會重新訪問。卷積神經(jīng)網(wǎng)絡中,核的每個成員用于輸入的每個位置,卷積運算使用的參數(shù)
卷積的輸出是一個序列,其中輸出的每個元素是幾個數(shù)。參數(shù)共享的思想體現(xiàn)在每個時刻的卷積核是相同的。循環(huán)網(wǎng)絡共享參數(shù),輸出的每個元素都是先前輸出的函數(shù),使用先前輸出的生成新的輸出。了簡化說明,我們將 RNN 稱為對包含向量 x (t )的序列進行操作,其引t的范圍為 1 到 。時間步長索引不一定是指現(xiàn)實世界中的時間流序列中的位置。RNN 還可以應用于圖像等跨域兩個維度的空間數(shù)據(jù)于涉及時間的數(shù)據(jù)時,將整個序列提供給網(wǎng)絡之前就可以觀察到整以建立在時間上向后的連接。環(huán)神經(jīng)網(wǎng)絡結(jié)構(gòu)及特點節(jié)使用計算圖的思想來闡述循環(huán)神經(jīng)網(wǎng)絡,將輸入和參數(shù)映射到輸進行展開并作出解釋,展開計算圖的方式進一步論證了深度網(wǎng)絡中如圖 2.3 所示,為 RNN 的循環(huán)結(jié)構(gòu)及其展開的計算圖,從圖中可以絡在每個時刻都有輸出并且在隱單元之間建立循環(huán)連接。
【參考文獻】:
期刊論文
[1]人的視覺行為識別研究回顧、現(xiàn)狀及展望[J]. 單言虎,張彰,黃凱奇. 計算機研究與發(fā)展. 2016(01)
[2]復雜場景下的人體行為識別研究新進展[J]. 雷慶,陳鍛生,李紹滋. 計算機科學. 2014(12)
[3]單目視覺下目標三維行為的時間尺度不變建模及識別[J]. 王蒙,戴亞平,王慶林. 自動化學報. 2014(08)
[4]基于視覺的人體動作識別綜述[J]. 胡瓊,秦磊,黃慶明. 計算機學報. 2013(12)
本文編號:3437038
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3437038.html
最近更新
教材專著