基于多時(shí)間尺度雙流CNN和度量學(xué)習(xí)的視頻語義概念檢測
發(fā)布時(shí)間:2021-07-25 14:10
隨著智能攜帶設(shè)備的興起所引來的自媒體時(shí)代的高速發(fā)展,用戶在網(wǎng)絡(luò)上記錄、觀看和分享視頻成為了人們在日常生活中用來表達(dá)和傳遞情感的不可或缺的方式之一;钴S在日常生活中的視頻數(shù)據(jù)一方面給人們帶來便利,另一方面若監(jiān)管不嚴(yán),肆意傳播不良視頻內(nèi)容也會給社會大眾尤其是青少年人群產(chǎn)生惡劣的影響。在面對數(shù)量迅猛增加的海量網(wǎng)上視頻、圖像等多媒體數(shù)據(jù),如何甄別視頻序列內(nèi)容,實(shí)現(xiàn)視頻語義概念建模從而對視頻合理分類成為計(jì)算機(jī)視覺領(lǐng)域的熱點(diǎn)研究課題之一,無論在民用領(lǐng)域還是在軍用領(lǐng)域都有及其廣泛的應(yīng)用,得到了國內(nèi)外眾多研究者的關(guān)注。本文經(jīng)過研究了國內(nèi)外大量文獻(xiàn)基礎(chǔ)上,首先介紹視頻語義概念檢測領(lǐng)域的研究背景、意義以及國內(nèi)外研究現(xiàn)狀,其次,介紹了幾種深度學(xué)習(xí)網(wǎng)絡(luò)模型,簡述了視頻語義概念檢測技術(shù)的相關(guān)知識。針對視頻語義概念檢測技術(shù)中所存在的問題,重點(diǎn)研究和提出多時(shí)間尺度雙流CNN與置信融合的視頻動作語義檢測方法和結(jié)合多時(shí)間尺度雙流CNN和度量學(xué)習(xí)的視頻語義概念檢測方法,并且為驗(yàn)證本文所提出的方法在視頻語義概念分析任務(wù)中的實(shí)用性,設(shè)計(jì)實(shí)現(xiàn)了視頻語義概念檢測原型系統(tǒng)。本文的主要工作內(nèi)容具體如下:(1)為解決過分依賴背景和外貌...
【文章來源】:江蘇大學(xué)江蘇省
【文章頁數(shù)】:72 頁
【學(xué)位級別】:碩士
【部分圖文】:
傳統(tǒng)視頻語義概念分析方法流程
江蘇大學(xué)工程碩士學(xué)位論文92.2卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetwork,CNN)是深度學(xué)習(xí)技術(shù)中最具代表性的網(wǎng)絡(luò)結(jié)構(gòu)之一,廣泛應(yīng)用于人工智能領(lǐng)域。卷積神經(jīng)網(wǎng)絡(luò)是受到大腦處理信息時(shí)生物神經(jīng)網(wǎng)絡(luò)工作方式的啟發(fā)而得到的產(chǎn)物。DHHubel和TNWiesel[28]在20世紀(jì)五十年代末和六十年代初對哺乳動物大腦的研究提出了哺乳動物在視覺上感知世界的層級處理機(jī)制以及神經(jīng)元感受野的概念。1980年,F(xiàn)ukushima教授受前期研究的啟發(fā),提出了擁有平移和扭曲不變性的分層神經(jīng)網(wǎng)絡(luò)模型,被認(rèn)為是卷積網(wǎng)絡(luò)的最早實(shí)現(xiàn)。最具里程碑代表性的卷積神經(jīng)網(wǎng)絡(luò)是LeCun[29]等人于1988年提出的用于手寫數(shù)字識別的LeNet-5卷積神經(jīng)網(wǎng)絡(luò),圖像自輸入層依次經(jīng)歷卷積層和池化層,最終由全連接層輸出并分類。相對于傳統(tǒng)的MLP,CNN最大的特點(diǎn)是使用了卷積這一特殊線性運(yùn)算,可直接處理多維數(shù)據(jù),在目標(biāo)檢測、圖像分類、情感分析等方向的計(jì)算機(jī)視覺任務(wù)中均更具優(yōu)勢。圖2.1卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖典型的卷積神經(jīng)網(wǎng)絡(luò)概念結(jié)構(gòu)如圖2.1所示,其主要包括三部分:卷積層、池化層和全連接層。數(shù)據(jù)進(jìn)入卷積神經(jīng)網(wǎng)絡(luò)后,卷積后得到特征圖,之后經(jīng)由最大池化或者平均池化降低參數(shù)量,最后經(jīng)由全連接層整合全局特征并由分類器分類。2.2.1卷積層卷積神經(jīng)網(wǎng)絡(luò)的核心算法是卷積運(yùn)算,這一特殊的線性數(shù)學(xué)運(yùn)算替代了傳統(tǒng)的矩陣乘積運(yùn)算,是通過兩個(gè)函數(shù)生成第三個(gè)函數(shù)的一種數(shù)學(xué)算子。連續(xù)卷積的數(shù)學(xué)公式為:
基于多時(shí)間尺度雙流CNN和度量學(xué)習(xí)的視頻語義概念檢測10f*gnfgn(2.1)拓展到離散域,對應(yīng)的數(shù)學(xué)公式為:f*gnfgn(2.2)在神經(jīng)網(wǎng)絡(luò)中,卷積的運(yùn)算是對兩個(gè)矩陣進(jìn)行的。對于輸入一組圖像,卷積對圖像點(diǎn)上的像素灰度值與對應(yīng)的卷積核上的數(shù)值相乘。其中卷積核通常是一個(gè)nm的帶著一組固定權(quán)重的矩陣。利用不同的卷積核可以得到不同的特征。訓(xùn)練網(wǎng)絡(luò)的實(shí)質(zhì)是學(xué)習(xí)得到卷積核的參數(shù),讓這些卷積核將原始輸入空間投向線性可分、稀疏的空間去分類、回歸。卷積層通過卷積核對圖像數(shù)據(jù)或特征圖(FeatureMap)進(jìn)行卷積操作,可表示為:kkkijijHWXb(2.3)其中,kijH表示輸入元素i,j經(jīng)卷積輸出的第k個(gè)特征向量,k1,,K表示神經(jīng)元索引,kW和kb代表第k個(gè)卷積核和偏置,X表示輸入的圖像數(shù)據(jù)或特征圖,表示二維空間卷積。具體的卷積操作如圖2.2所示:首先二維濾波器滑動到二維圖像上所有位置,對應(yīng)元素與核相乘,然后將所有值相加,最后得到二維的激活圖。圖2.2二維卷積示意圖
【參考文獻(xiàn)】:
期刊論文
[1]深度度量學(xué)習(xí)綜述[J]. 劉冰,李瑞麟,封舉富. 智能系統(tǒng)學(xué)報(bào). 2019(06)
[2]角點(diǎn)檢測與光流跟蹤的焊縫特征提取與定位研究[J]. 林少鐸,高向東,黎揚(yáng)進(jìn),張南峰,全方紅. 機(jī)電工程. 2019(04)
[3]人工智能技術(shù)在無人駕駛中的應(yīng)用[J]. 孫嘉蔚. 科技傳播. 2019(06)
[4]偽標(biāo)簽置信選擇的半監(jiān)督集成學(xué)習(xí)視頻語義檢測[J]. 尹玉,詹永照,姜震. 計(jì)算機(jī)應(yīng)用. 2019(08)
[5]計(jì)算機(jī)視覺中相似度學(xué)習(xí)方法的研究進(jìn)展[J]. 王法強(qiáng),張宏志,王鵬,鄧紅,張大鵬. 智能計(jì)算機(jī)與應(yīng)用. 2019(01)
[6]論短視頻發(fā)展對社會意識的影響——以抖音為例[J]. 叢麗涵,史雄,劉鈺薇. 傳播力研究. 2019(01)
[7]基于時(shí)空域深度特征兩級編碼融合的視頻分類[J]. 智洪欣,于洪濤,李邵梅. 計(jì)算機(jī)應(yīng)用研究. 2018(03)
[8]數(shù)據(jù)驅(qū)動的圖像智能分析和處理綜述[J]. 汪淼,張方略,胡事民. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào). 2015(11)
[9]視頻鏡頭分割算法綜述[J]. 劉艷紅. 科技創(chuàng)新與應(yīng)用. 2014(16)
本文編號:3302176
【文章來源】:江蘇大學(xué)江蘇省
【文章頁數(shù)】:72 頁
【學(xué)位級別】:碩士
【部分圖文】:
傳統(tǒng)視頻語義概念分析方法流程
江蘇大學(xué)工程碩士學(xué)位論文92.2卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetwork,CNN)是深度學(xué)習(xí)技術(shù)中最具代表性的網(wǎng)絡(luò)結(jié)構(gòu)之一,廣泛應(yīng)用于人工智能領(lǐng)域。卷積神經(jīng)網(wǎng)絡(luò)是受到大腦處理信息時(shí)生物神經(jīng)網(wǎng)絡(luò)工作方式的啟發(fā)而得到的產(chǎn)物。DHHubel和TNWiesel[28]在20世紀(jì)五十年代末和六十年代初對哺乳動物大腦的研究提出了哺乳動物在視覺上感知世界的層級處理機(jī)制以及神經(jīng)元感受野的概念。1980年,F(xiàn)ukushima教授受前期研究的啟發(fā),提出了擁有平移和扭曲不變性的分層神經(jīng)網(wǎng)絡(luò)模型,被認(rèn)為是卷積網(wǎng)絡(luò)的最早實(shí)現(xiàn)。最具里程碑代表性的卷積神經(jīng)網(wǎng)絡(luò)是LeCun[29]等人于1988年提出的用于手寫數(shù)字識別的LeNet-5卷積神經(jīng)網(wǎng)絡(luò),圖像自輸入層依次經(jīng)歷卷積層和池化層,最終由全連接層輸出并分類。相對于傳統(tǒng)的MLP,CNN最大的特點(diǎn)是使用了卷積這一特殊線性運(yùn)算,可直接處理多維數(shù)據(jù),在目標(biāo)檢測、圖像分類、情感分析等方向的計(jì)算機(jī)視覺任務(wù)中均更具優(yōu)勢。圖2.1卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖典型的卷積神經(jīng)網(wǎng)絡(luò)概念結(jié)構(gòu)如圖2.1所示,其主要包括三部分:卷積層、池化層和全連接層。數(shù)據(jù)進(jìn)入卷積神經(jīng)網(wǎng)絡(luò)后,卷積后得到特征圖,之后經(jīng)由最大池化或者平均池化降低參數(shù)量,最后經(jīng)由全連接層整合全局特征并由分類器分類。2.2.1卷積層卷積神經(jīng)網(wǎng)絡(luò)的核心算法是卷積運(yùn)算,這一特殊的線性數(shù)學(xué)運(yùn)算替代了傳統(tǒng)的矩陣乘積運(yùn)算,是通過兩個(gè)函數(shù)生成第三個(gè)函數(shù)的一種數(shù)學(xué)算子。連續(xù)卷積的數(shù)學(xué)公式為:
基于多時(shí)間尺度雙流CNN和度量學(xué)習(xí)的視頻語義概念檢測10f*gnfgn(2.1)拓展到離散域,對應(yīng)的數(shù)學(xué)公式為:f*gnfgn(2.2)在神經(jīng)網(wǎng)絡(luò)中,卷積的運(yùn)算是對兩個(gè)矩陣進(jìn)行的。對于輸入一組圖像,卷積對圖像點(diǎn)上的像素灰度值與對應(yīng)的卷積核上的數(shù)值相乘。其中卷積核通常是一個(gè)nm的帶著一組固定權(quán)重的矩陣。利用不同的卷積核可以得到不同的特征。訓(xùn)練網(wǎng)絡(luò)的實(shí)質(zhì)是學(xué)習(xí)得到卷積核的參數(shù),讓這些卷積核將原始輸入空間投向線性可分、稀疏的空間去分類、回歸。卷積層通過卷積核對圖像數(shù)據(jù)或特征圖(FeatureMap)進(jìn)行卷積操作,可表示為:kkkijijHWXb(2.3)其中,kijH表示輸入元素i,j經(jīng)卷積輸出的第k個(gè)特征向量,k1,,K表示神經(jīng)元索引,kW和kb代表第k個(gè)卷積核和偏置,X表示輸入的圖像數(shù)據(jù)或特征圖,表示二維空間卷積。具體的卷積操作如圖2.2所示:首先二維濾波器滑動到二維圖像上所有位置,對應(yīng)元素與核相乘,然后將所有值相加,最后得到二維的激活圖。圖2.2二維卷積示意圖
【參考文獻(xiàn)】:
期刊論文
[1]深度度量學(xué)習(xí)綜述[J]. 劉冰,李瑞麟,封舉富. 智能系統(tǒng)學(xué)報(bào). 2019(06)
[2]角點(diǎn)檢測與光流跟蹤的焊縫特征提取與定位研究[J]. 林少鐸,高向東,黎揚(yáng)進(jìn),張南峰,全方紅. 機(jī)電工程. 2019(04)
[3]人工智能技術(shù)在無人駕駛中的應(yīng)用[J]. 孫嘉蔚. 科技傳播. 2019(06)
[4]偽標(biāo)簽置信選擇的半監(jiān)督集成學(xué)習(xí)視頻語義檢測[J]. 尹玉,詹永照,姜震. 計(jì)算機(jī)應(yīng)用. 2019(08)
[5]計(jì)算機(jī)視覺中相似度學(xué)習(xí)方法的研究進(jìn)展[J]. 王法強(qiáng),張宏志,王鵬,鄧紅,張大鵬. 智能計(jì)算機(jī)與應(yīng)用. 2019(01)
[6]論短視頻發(fā)展對社會意識的影響——以抖音為例[J]. 叢麗涵,史雄,劉鈺薇. 傳播力研究. 2019(01)
[7]基于時(shí)空域深度特征兩級編碼融合的視頻分類[J]. 智洪欣,于洪濤,李邵梅. 計(jì)算機(jī)應(yīng)用研究. 2018(03)
[8]數(shù)據(jù)驅(qū)動的圖像智能分析和處理綜述[J]. 汪淼,張方略,胡事民. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào). 2015(11)
[9]視頻鏡頭分割算法綜述[J]. 劉艷紅. 科技創(chuàng)新與應(yīng)用. 2014(16)
本文編號:3302176
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3302176.html
最近更新
教材專著