基于流形嵌入的雙流卷積神經(jīng)網(wǎng)絡(luò)視頻語義概念分析
發(fā)布時間:2022-02-11 16:06
隨著多媒體技術(shù)的發(fā)展、智慧城市建設(shè)的深入、可攜帶智能終端設(shè)備的推廣,視頻逐漸成為日常生活中不可或缺的數(shù)據(jù)載體。視頻數(shù)量的日益增長,復(fù)雜多樣的視頻內(nèi)容給視頻的檢索、分析、存儲帶來巨大的壓力。這般海量,龐雜多樣的視頻數(shù)據(jù)推動了人們從數(shù)據(jù)語義層面分析數(shù)據(jù),并建立視頻數(shù)據(jù)語義概念標(biāo)簽,從而實(shí)現(xiàn)快速有效的視頻檢索和管理方法。因此,研究如何有效地提取視頻特征并實(shí)現(xiàn)視頻語義概念分析檢測成為視頻監(jiān)管和檢索領(lǐng)域的熱點(diǎn)問題。在查閱了大量國內(nèi)外相關(guān)論文后,本文首先介紹了視頻語義概念分析的研究背景、意義以及國內(nèi)外研究現(xiàn)狀;其次,簡述了幾種基于深度學(xué)習(xí)方法的視頻語義概念分析模型和典型應(yīng)用;最后,本文分析現(xiàn)有研究中存在的不足之處提出流形嵌入卷積神經(jīng)網(wǎng)絡(luò)模型、基于流形嵌入和光流注意力雙流卷積神經(jīng)網(wǎng)絡(luò)(Two-stream CNN)視頻語義概念分析模型,為驗(yàn)證所提模型的可用性,設(shè)計(jì)開發(fā)了視頻語義概念檢測原型系統(tǒng)。本文的主要研究工作如下:(1)提出了基于流形嵌入卷積神經(jīng)網(wǎng)絡(luò)圖像特征學(xué)習(xí)方法。傳統(tǒng)的圖像、視頻特征學(xué)習(xí)在構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)模型過程中缺乏對圖像近鄰關(guān)系與關(guān)聯(lián)特征的學(xué)習(xí),并且卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中存在內(nèi)部協(xié)變量位...
【文章來源】:江蘇大學(xué)江蘇省
【文章頁數(shù)】:81 頁
【學(xué)位級別】:碩士
【部分圖文】:
前饋神經(jīng)網(wǎng)絡(luò)多層前饋神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時通常使用反向傳播算法,反向傳播
基于流形嵌入的雙流卷積神經(jīng)網(wǎng)絡(luò)視頻語義概念分析10前向傳播輸入;(3)反向傳播誤差,誤差反向傳播的過程即模型參數(shù)調(diào)整的過程,模型參數(shù)不斷更新直至收斂。基于BP算法的多層前饋神經(jīng)網(wǎng)絡(luò)在模式識別、控制工程、信號處理等各個領(lǐng)域有著廣泛的應(yīng)用。2.3卷積神經(jīng)網(wǎng)絡(luò)實(shí)際上,在各種分類問題中,有很多方法可以用來獲得更高的識別能力,其中之一就是卷積神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)是一種在一個或多個層中使用卷積函數(shù)的神經(jīng)網(wǎng)絡(luò)。它的結(jié)構(gòu)以多層鏈為特征,并在輸入圖像上應(yīng)用連續(xù)的卷積核,以從輸入圖像中提取特征圖。其獨(dú)特的網(wǎng)絡(luò)結(jié)構(gòu)可以直接處理原始圖像信息,避免了對原始圖像的前期預(yù)處理流程,卷積神經(jīng)網(wǎng)絡(luò)的體系結(jié)構(gòu)由兩部分組成:特征提取器子系統(tǒng)和分類器子系統(tǒng)。通常,特征提取器子系統(tǒng)由卷積層和池化層組成。卷積層是主要部分,用于提取張量輸入數(shù)據(jù)的全部信息,而池化層用于減小數(shù)據(jù)的空間大校特征提取器子系統(tǒng)的輸出用作卷積神經(jīng)網(wǎng)絡(luò)第二部分即分類器子系統(tǒng)的輸入。全連接層是分類器子系統(tǒng),用于將每種數(shù)據(jù)類型的輸入數(shù)據(jù)進(jìn)行分類。1998年LeCun等人[31]引入了CNN對手寫數(shù)字進(jìn)行分類。他們設(shè)計(jì)的CNN模型稱為LeNet-5,如圖2.2所示,具有7個可訓(xùn)練層,其中,三個(C1,C3,C5)卷積層,兩個(S2,S4)平均池化層,一個(F6)完全連接層和一個輸出層。在池化操作之前,使用Sigmoid函數(shù)進(jìn)行非線性變換。作為卷積神經(jīng)網(wǎng)絡(luò)模型中最具代表性的模型之一,它包含了卷積、池化等構(gòu)建卷積網(wǎng)絡(luò)所必需的基礎(chǔ)結(jié)構(gòu)。圖2.2LeNet-5網(wǎng)絡(luò)模型2.3.1卷積卷積層是卷積神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu),它由多個卷積核組合形成,每個卷積核
江蘇大學(xué)工學(xué)碩士學(xué)位論文11同輸入數(shù)據(jù)做卷積運(yùn)算,形成新的特征圖。卷積作為卷積神經(jīng)網(wǎng)絡(luò)中的基本運(yùn)算,其運(yùn)算的本質(zhì)是加權(quán)求和過程,其形式化定義如式(2.1)所示:s(x)f(t)w(xt)dt+=(2.1)其中f表示輸入(input),w為卷積核(kernel),函數(shù)的輸出s為特征映射(featuremap)。根據(jù)卷積的連續(xù)定義,很容易就能理解卷積的離散定義如式(2.2)所示:()()()tsxftwxt+==(2.2)當(dāng)我們在處理圖像任務(wù)時,輸入數(shù)據(jù)通常為二維數(shù)組的形式,因此需要一個二維的卷積核函數(shù)對該輸入圖像進(jìn)行卷積操作,其離散形式如式(2.3)所示:(,)()(,)(,)(,)mnSij=KIij=IimjnKmn(2.3)卷積運(yùn)算等效于將圖像與卷積核作內(nèi)積,每次圖像被卷積核覆蓋時,就會形成與卷積核大小相同的區(qū)域。該區(qū)域中每個位置的兩個值,一個來自圖像,另一個來自卷積核,計(jì)算每個位置的兩個值的乘積,并將所有乘積之和作為該區(qū)域中心位置的最終結(jié)果。假設(shè)卷積核是一個NN矩陣,其中N的值通常是奇數(shù),并且隨著特征學(xué)習(xí)的進(jìn)行,卷積核的值可以連續(xù)更新。這樣,它可以在訓(xùn)練迭代期間不斷增強(qiáng)樣本功能,使最終數(shù)據(jù)更接近正確的輸出。圖2.3給出了二維卷積運(yùn)算示意圖。圖2.3二維卷積示意圖卷積神經(jīng)網(wǎng)絡(luò)是受生物光學(xué)系統(tǒng)機(jī)理啟發(fā)而產(chǎn)生的一種特殊類型的多層神經(jīng)網(wǎng)絡(luò)。卷積運(yùn)算的特點(diǎn)為機(jī)器學(xué)習(xí)系統(tǒng)的改進(jìn)提供了幫助,分別是:稀疏交
【參考文獻(xiàn)】:
期刊論文
[1]偽標(biāo)簽置信選擇的半監(jiān)督集成學(xué)習(xí)視頻語義檢測[J]. 尹玉,詹永照,姜震. 計(jì)算機(jī)應(yīng)用. 2019(08)
[2]面向大規(guī)模圖像分類的深度卷積神經(jīng)網(wǎng)絡(luò)優(yōu)化[J]. 白琮,黃玲,陳佳楠,潘翔,陳勝勇. 軟件學(xué)報(bào). 2018(04)
本文編號:3620569
【文章來源】:江蘇大學(xué)江蘇省
【文章頁數(shù)】:81 頁
【學(xué)位級別】:碩士
【部分圖文】:
前饋神經(jīng)網(wǎng)絡(luò)多層前饋神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時通常使用反向傳播算法,反向傳播
基于流形嵌入的雙流卷積神經(jīng)網(wǎng)絡(luò)視頻語義概念分析10前向傳播輸入;(3)反向傳播誤差,誤差反向傳播的過程即模型參數(shù)調(diào)整的過程,模型參數(shù)不斷更新直至收斂。基于BP算法的多層前饋神經(jīng)網(wǎng)絡(luò)在模式識別、控制工程、信號處理等各個領(lǐng)域有著廣泛的應(yīng)用。2.3卷積神經(jīng)網(wǎng)絡(luò)實(shí)際上,在各種分類問題中,有很多方法可以用來獲得更高的識別能力,其中之一就是卷積神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)是一種在一個或多個層中使用卷積函數(shù)的神經(jīng)網(wǎng)絡(luò)。它的結(jié)構(gòu)以多層鏈為特征,并在輸入圖像上應(yīng)用連續(xù)的卷積核,以從輸入圖像中提取特征圖。其獨(dú)特的網(wǎng)絡(luò)結(jié)構(gòu)可以直接處理原始圖像信息,避免了對原始圖像的前期預(yù)處理流程,卷積神經(jīng)網(wǎng)絡(luò)的體系結(jié)構(gòu)由兩部分組成:特征提取器子系統(tǒng)和分類器子系統(tǒng)。通常,特征提取器子系統(tǒng)由卷積層和池化層組成。卷積層是主要部分,用于提取張量輸入數(shù)據(jù)的全部信息,而池化層用于減小數(shù)據(jù)的空間大校特征提取器子系統(tǒng)的輸出用作卷積神經(jīng)網(wǎng)絡(luò)第二部分即分類器子系統(tǒng)的輸入。全連接層是分類器子系統(tǒng),用于將每種數(shù)據(jù)類型的輸入數(shù)據(jù)進(jìn)行分類。1998年LeCun等人[31]引入了CNN對手寫數(shù)字進(jìn)行分類。他們設(shè)計(jì)的CNN模型稱為LeNet-5,如圖2.2所示,具有7個可訓(xùn)練層,其中,三個(C1,C3,C5)卷積層,兩個(S2,S4)平均池化層,一個(F6)完全連接層和一個輸出層。在池化操作之前,使用Sigmoid函數(shù)進(jìn)行非線性變換。作為卷積神經(jīng)網(wǎng)絡(luò)模型中最具代表性的模型之一,它包含了卷積、池化等構(gòu)建卷積網(wǎng)絡(luò)所必需的基礎(chǔ)結(jié)構(gòu)。圖2.2LeNet-5網(wǎng)絡(luò)模型2.3.1卷積卷積層是卷積神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu),它由多個卷積核組合形成,每個卷積核
江蘇大學(xué)工學(xué)碩士學(xué)位論文11同輸入數(shù)據(jù)做卷積運(yùn)算,形成新的特征圖。卷積作為卷積神經(jīng)網(wǎng)絡(luò)中的基本運(yùn)算,其運(yùn)算的本質(zhì)是加權(quán)求和過程,其形式化定義如式(2.1)所示:s(x)f(t)w(xt)dt+=(2.1)其中f表示輸入(input),w為卷積核(kernel),函數(shù)的輸出s為特征映射(featuremap)。根據(jù)卷積的連續(xù)定義,很容易就能理解卷積的離散定義如式(2.2)所示:()()()tsxftwxt+==(2.2)當(dāng)我們在處理圖像任務(wù)時,輸入數(shù)據(jù)通常為二維數(shù)組的形式,因此需要一個二維的卷積核函數(shù)對該輸入圖像進(jìn)行卷積操作,其離散形式如式(2.3)所示:(,)()(,)(,)(,)mnSij=KIij=IimjnKmn(2.3)卷積運(yùn)算等效于將圖像與卷積核作內(nèi)積,每次圖像被卷積核覆蓋時,就會形成與卷積核大小相同的區(qū)域。該區(qū)域中每個位置的兩個值,一個來自圖像,另一個來自卷積核,計(jì)算每個位置的兩個值的乘積,并將所有乘積之和作為該區(qū)域中心位置的最終結(jié)果。假設(shè)卷積核是一個NN矩陣,其中N的值通常是奇數(shù),并且隨著特征學(xué)習(xí)的進(jìn)行,卷積核的值可以連續(xù)更新。這樣,它可以在訓(xùn)練迭代期間不斷增強(qiáng)樣本功能,使最終數(shù)據(jù)更接近正確的輸出。圖2.3給出了二維卷積運(yùn)算示意圖。圖2.3二維卷積示意圖卷積神經(jīng)網(wǎng)絡(luò)是受生物光學(xué)系統(tǒng)機(jī)理啟發(fā)而產(chǎn)生的一種特殊類型的多層神經(jīng)網(wǎng)絡(luò)。卷積運(yùn)算的特點(diǎn)為機(jī)器學(xué)習(xí)系統(tǒng)的改進(jìn)提供了幫助,分別是:稀疏交
【參考文獻(xiàn)】:
期刊論文
[1]偽標(biāo)簽置信選擇的半監(jiān)督集成學(xué)習(xí)視頻語義檢測[J]. 尹玉,詹永照,姜震. 計(jì)算機(jī)應(yīng)用. 2019(08)
[2]面向大規(guī)模圖像分類的深度卷積神經(jīng)網(wǎng)絡(luò)優(yōu)化[J]. 白琮,黃玲,陳佳楠,潘翔,陳勝勇. 軟件學(xué)報(bào). 2018(04)
本文編號:3620569
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3620569.html
最近更新
教材專著