基于CNN和LSTM的視頻語義分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時間:2021-03-04 23:19
目前,卷積神經(jīng)網(wǎng)絡(luò)是計(jì)算機(jī)領(lǐng)域非常熱門的話題,同時它也在計(jì)算機(jī)領(lǐng)域的很多任務(wù)中獲得了令人矚目的成績,而伴隨著信息時代的來臨,視頻數(shù)據(jù)的數(shù)量呈現(xiàn)一種爆炸式井噴增長態(tài)勢,由于人們無法對視頻的信息進(jìn)行快速檢索,如何將卷積神經(jīng)網(wǎng)絡(luò)運(yùn)用到視頻分析的任務(wù)中,基于視頻識別技術(shù)就顯得至關(guān)重要,目前基于深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)算法在視頻圖像等識別領(lǐng)域取得了不錯的效果,但依舊有不少需要解決的問題。針對卷積神經(jīng)網(wǎng)絡(luò)特征提取方面的問題,本文改進(jìn)了卷積神經(jīng)網(wǎng)絡(luò)特征提取的方法,提出了一個基于局部LBCNN的視頻特征提取優(yōu)化模型,有效地解決對象旋轉(zhuǎn)的問題,而網(wǎng)絡(luò)模型參數(shù)的約減對一些硬件限制比較大的地方可以有效的進(jìn)行網(wǎng)絡(luò)的學(xué)習(xí)與推理。針對LSTM網(wǎng)絡(luò)語義識別問題,本文考慮在基于視頻內(nèi)容的語義分析問題中加入Attention機(jī)制,就是在提取視頻圖像特征之后,將視頻圖像特征和之前的預(yù)測出的單詞信息共同輸入LSTM網(wǎng)絡(luò)中再計(jì)算隱層輸出,這樣就可以根據(jù)之前預(yù)測出的單詞信息來提示應(yīng)該關(guān)注視頻圖像中的哪個部分,而不是漫無目的關(guān)注整張視頻圖像,實(shí)驗(yàn)結(jié)果表明該模型有效提升了語義識別的精度。本文提出的特征提取優(yōu)化模型以及基于LSTM的視...
【文章來源】:南京郵電大學(xué)江蘇省
【文章頁數(shù)】:78 頁
【學(xué)位級別】:碩士
【部分圖文】:
卷積層工作模式圖
匯總層
最重要的特征,第一層過濾器根據(jù)輸入圖像得出低級特征,如,邊、細(xì)學(xué)習(xí)高級的特征,如 T、L、<、>、^、v 等形狀;第三層學(xué)習(xí)更復(fù)雜的非常復(fù)雜的特征,諸如如人臉,可視化和理解卷積網(wǎng)絡(luò)論文[34]表明,CNNs 學(xué)習(xí)的特征就越復(fù)雜。把兩個卷積層交織為一個合并層,如圖 2.3 所示,通過總結(jié)矩形窗內(nèi),合并層可以幫助減少模型參數(shù)的數(shù)量,通過特征使各維最大匯總或以取代輸出值和其附近輸出值,如圖 2.2 所示。圖2.2 匯總層產(chǎn)生的特征圖可以接受細(xì)微的位移變化。
本文編號:3064116
【文章來源】:南京郵電大學(xué)江蘇省
【文章頁數(shù)】:78 頁
【學(xué)位級別】:碩士
【部分圖文】:
卷積層工作模式圖
匯總層
最重要的特征,第一層過濾器根據(jù)輸入圖像得出低級特征,如,邊、細(xì)學(xué)習(xí)高級的特征,如 T、L、<、>、^、v 等形狀;第三層學(xué)習(xí)更復(fù)雜的非常復(fù)雜的特征,諸如如人臉,可視化和理解卷積網(wǎng)絡(luò)論文[34]表明,CNNs 學(xué)習(xí)的特征就越復(fù)雜。把兩個卷積層交織為一個合并層,如圖 2.3 所示,通過總結(jié)矩形窗內(nèi),合并層可以幫助減少模型參數(shù)的數(shù)量,通過特征使各維最大匯總或以取代輸出值和其附近輸出值,如圖 2.2 所示。圖2.2 匯總層產(chǎn)生的特征圖可以接受細(xì)微的位移變化。
本文編號:3064116
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3064116.html
最近更新
教材專著