基于卷積神經(jīng)網(wǎng)絡(luò)的視頻語義概念分析
本文關(guān)鍵詞:基于卷積神經(jīng)網(wǎng)絡(luò)的視頻語義概念分析
更多相關(guān)文章: 視頻語義分析 卷積神經(jīng)網(wǎng)絡(luò) 稀疏線性解碼器 拓撲約束 關(guān)鍵幀 池化
【摘要】:近年來,隨著多媒體技術(shù)的日新月異,視頻語義概念檢測成了大家日益關(guān)注的研究熱點。而在多媒體數(shù)據(jù)中,視頻相比較于其他數(shù)據(jù)所包含的信息更加的復雜,如何很好的得到每個視頻所包含的語義概念,并將其作為視頻合適的標簽也就成為了視頻檢索領(lǐng)域中的重點和難點。本文首先介紹傳統(tǒng)的視頻語義分析方法,其次詳細介紹深度學習中幾種模型,并討論以往視頻語義分析方法存在的問題;再次主要介紹本文所提出的視頻語義概念分析方法,并驗證方法的有效性,且簡單介紹原型系統(tǒng)的構(gòu)建;最后討論視頻語義概念分析領(lǐng)域?qū)淼难芯糠较。本文的主要?nèi)容如下:(1)提出基于拓撲模型預(yù)訓練卷積神經(jīng)網(wǎng)絡(luò)的視頻語義概念分析方法卷積神經(jīng)網(wǎng)絡(luò)可以自適應(yīng)提取輸入數(shù)據(jù)中的分布式表征,通過構(gòu)建不同的操作層,將原始數(shù)據(jù)進行低層級特征提取,并進行高層的變換從而得到更復雜且更具魯棒性的特征。針對該模型需要較多的有標簽數(shù)據(jù),且為了進一步提升模型對視頻圖像幀中目標的旋轉(zhuǎn)、縮放、平移等不變性,首先將拓撲約束引入到稀疏線性解碼器模型中提出一種拓撲線性解碼器模型,將該模型作為卷積神經(jīng)網(wǎng)絡(luò)的預(yù)訓練模型,然后用較少的有標簽關(guān)鍵幀對該模型進行微調(diào),從而得到針對視頻數(shù)據(jù)集的卷積神經(jīng)網(wǎng)絡(luò)特征提取模型,最后將提取的特征輸送到支持向量機中做進一步的結(jié)果預(yù)測。實驗結(jié)果表明,基于卷積神經(jīng)網(wǎng)絡(luò)的特征提取方法比傳統(tǒng)的特征提取方法效果要好,而且在基于拓撲模型預(yù)訓練的基礎(chǔ)上效果有進一步的提升。(2)提出基于自適應(yīng)閾值混合池化卷積神經(jīng)網(wǎng)絡(luò)的視頻語義概念分析方法傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)模型的池化層一般為最大池化或者平均池化,而最大池化因每次都是選取最大值,故而容易過擬合,而平均池化雖然考慮了整個池化區(qū)域的所有激活值,卻極容易因池化區(qū)域中存在過小的激活值而使得池化的結(jié)果普遍偏小從而容易造成欠擬合。對此,本文提出自適應(yīng)閾值混合池化的方法來代替?zhèn)鹘y(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)池化層的池化方法。首先計算池化區(qū)域中每個激活值對應(yīng)的貢獻概率,并基于此作為每個激活值的權(quán)重求出該池化區(qū)域的激活值加權(quán)和,用其作為該池化區(qū)域的閾值,將大于該閾值的激活值予以保留,并對保留的激活值做平均操作從而得到最后的池化結(jié)果。實驗結(jié)果表明,該方法相比傳統(tǒng)的最大池化和平均池化方法能夠更進一步的提高視頻語義分類的準確率。(3)設(shè)計并實現(xiàn)基于卷積神經(jīng)網(wǎng)絡(luò)模型的視頻語義分析原型系統(tǒng)基于程序模塊化的設(shè)計理念,采用Python、CUDA以及Theano和Numpy庫作為系統(tǒng)的核心算法開發(fā),PyQt作為原型系統(tǒng)界面的開發(fā),設(shè)計并實現(xiàn)數(shù)據(jù)預(yù)處理、模型構(gòu)建與訓練、語義檢測三大模塊,驗證了本文所提的視頻語義概念檢測方法的可用性。
【關(guān)鍵詞】:視頻語義分析 卷積神經(jīng)網(wǎng)絡(luò) 稀疏線性解碼器 拓撲約束 關(guān)鍵幀 池化
【學位授予單位】:江蘇大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP391.41;TP183
【目錄】:
- 摘要4-6
- ABSTRACT6-11
- 第1章 緒論11-18
- 1.1 課題研究背景及意義11-13
- 1.1.1 課題研究背景11-12
- 1.1.2 課題研究意義12-13
- 1.2 視頻語義概念分析的研究現(xiàn)狀13-15
- 1.3 論文研究的主要內(nèi)容15-16
- 1.4 論文的內(nèi)容安排16-18
- 第2章 基于深度學習的視頻語義概念研究18-32
- 2.1 前饋神經(jīng)網(wǎng)絡(luò)19-21
- 2.2 自動編碼器21-22
- 2.3 稀疏自動編碼器22-24
- 2.4 卷積神經(jīng)網(wǎng)絡(luò)24-30
- 2.4.1 卷積操作的本質(zhì)25-26
- 2.4.2 卷積操作的意義26-28
- 2.4.3 池化操作28-30
- 2.5 深度學習在視頻語義上的應(yīng)用現(xiàn)狀30-31
- 2.6 本章小結(jié)31-32
- 第3章 基于拓撲線性解碼器預(yù)訓練卷積神經(jīng)網(wǎng)絡(luò)的視頻語義概念分析32-52
- 3.1 基于卷積神經(jīng)網(wǎng)絡(luò)的視頻語義概念特征提取模型32-35
- 3.2 拓撲線性解碼器35-42
- 3.2.1 基于能量依賴的拓撲約束35-37
- 3.2.2 模型結(jié)構(gòu)37-40
- 3.2.3 權(quán)重可視化40-42
- 3.3 視頻特征深度學習模型的訓練42-46
- 3.3.1 預(yù)訓練原理42-44
- 3.3.2 視頻特征深度學習模型的訓練步驟44-46
- 3.4 實驗結(jié)果與分析46-51
- 3.4.1 參數(shù)的選取47-49
- 3.4.2 Trecvid數(shù)據(jù)集上的實驗結(jié)果49-50
- 3.4.3 UCF11數(shù)據(jù)集上的實驗結(jié)果50-51
- 3.5 本章小結(jié)51-52
- 第4章 基于自適應(yīng)閾值混合池化卷積神經(jīng)網(wǎng)絡(luò)的視頻語義概念分析52-63
- 4.1 常用的池化方法52-57
- 4.1.1 最大池化55-56
- 4.1.2 平均池化56-57
- 4.2 基于自適應(yīng)閾值的混合池化57-59
- 4.3 實驗結(jié)果與分析59-62
- 4.3.1 TRECVID視頻數(shù)據(jù)集實驗數(shù)據(jù)比較與分析61
- 4.3.2 UCF11視頻數(shù)據(jù)集實驗數(shù)據(jù)比較與分析61-62
- 4.4 本章小結(jié)62-63
- 第5章 視頻語義分析原型系統(tǒng)設(shè)計與實現(xiàn)63-73
- 5.1 系統(tǒng)開發(fā)工具63-64
- 5.2 原型系統(tǒng)的框架結(jié)構(gòu)64-65
- 5.3 原型系統(tǒng)的算法實現(xiàn)概況65-69
- 5.3.1 視頻數(shù)據(jù)的預(yù)處理65-67
- 5.3.2 模型的構(gòu)建及訓練67-68
- 5.3.3 語義概念檢測68-69
- 5.4 原型系統(tǒng)的界面介紹69-72
- 5.5 本章小結(jié)72-73
- 第6章 總結(jié)與展望73-75
- 6.1 總結(jié)73-74
- 6.2 展望74-75
- 參考文獻75-82
- 致謝82-83
- 攻讀碩士學位期間已發(fā)表的論文83
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 魏維;魏敏;劉鳳玉;;概念間關(guān)聯(lián)依賴多標記視頻語義概念分類方法[J];中國圖象圖形學報;2010年06期
2 潘潤華;詹永照;;基于負樣本精簡概念格規(guī)則的語義概念檢測[J];計算機工程;2011年23期
3 萬建平;高毫林;李弼程;;一種基于證據(jù)融合的視頻語義概念檢測方法[J];信息工程大學學報;2011年03期
4 白亮;老松楊;侯小強;劉海濤;卜江;;一個知識輔助的視頻語義概念探測框架[J];國防科技大學學報;2012年04期
5 萬建平;彭天強;李弼程;;基于證據(jù)理論的視頻語義概念檢測[J];數(shù)據(jù)采集與處理;2011年05期
6 魏維;鄒書蓉;劉鳳玉;;多層視頻語義概念分析與理解[J];計算機輔助設(shè)計與圖形學學報;2008年01期
7 李昕,洪文學,宋佳霖,李長吾;一種車輛舒適度傳感器語義概念生成方法研究[J];儀器儀表學報;2005年S1期
8 張映海;何中市;;基于關(guān)鍵詞與語義概念結(jié)合的信息檢索研究[J];計算機應(yīng)用;2006年12期
9 張瑞杰;李弼程;魏晗;;基于LSI和軟加權(quán)的視頻語義概念檢測[J];信息工程大學學報;2013年02期
10 楊建武,萬小軍;基于語義拓撲網(wǎng)的反饋學習技術(shù)[J];計算機工程;2005年01期
中國重要會議論文全文數(shù)據(jù)庫 前4條
1 張輝;朱俊武;;基于P2P的語義Web服務(wù)發(fā)現(xiàn)模型研究[A];2008年全國開放式分布與并行計算機學術(shù)會議論文集(下冊)[C];2008年
2 陳子晨;;“身”的概念結(jié)構(gòu)及與中國傳統(tǒng)身體觀的聯(lián)系[A];增強心理學服務(wù)社會的意識和功能——中國心理學會成立90周年紀念大會暨第十四屆全國心理學學術(shù)會議論文摘要集[C];2011年
3 戴樂;;英文導游翻譯中的語義重構(gòu)問題[A];福建省外國語文學會2004年會論文集[C];2004年
4 李昕;洪文學;宋佳霖;李長吾;;一種車輛舒適度傳感器語義概念生成方法研究[A];第三屆全國信息獲取與處理學術(shù)會議論文集[C];2005年
中國博士學位論文全文數(shù)據(jù)庫 前4條
1 張瑞杰;基于局部語義概念表示的圖像場景分類技術(shù)研究[D];解放軍信息工程大學;2013年
2 鄺礫;基于接口和行為語義的Web服務(wù)發(fā)現(xiàn)與適配研究[D];浙江大學;2009年
3 李曉文;從認知語言學視角研究Dao(道/Way)的多義性及其拓展的語義概念形成[D];上海外國語大學;2012年
4 潘偉森;多維語義感知的Web服務(wù)社會建模及關(guān)鍵問題研究[D];天津大學;2013年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 張東香;基于多重語義的詞典管理方法和實現(xiàn)[D];江蘇科技大學;2015年
2 張強;基于機器翻譯的中文語義解析[D];東南大學;2015年
3 詹智財;基于卷積神經(jīng)網(wǎng)絡(luò)的視頻語義概念分析[D];江蘇大學;2016年
4 孔瑋婷;基于高斯混合模型視覺特征的視頻語義概念檢測技術(shù)研究[D];江蘇大學;2016年
5 李穎芳;語義Web服務(wù)發(fā)現(xiàn)問題研究[D];昆明理工大學;2012年
6 辛昕;語義Web技術(shù)在電子政務(wù)系統(tǒng)中的研究與應(yīng)用[D];北京郵電大學;2006年
7 郭富祿;面向OWL-S服務(wù)搜索的語義條件表達式及其處理機制的研究[D];湖南工業(yè)大學;2014年
8 王帶弟;客觀知識體系中的語義傳遞模型研究[D];大連理工大學;2009年
9 荊延國;一個基于圖像中語義對象的圖文雙向查閱系統(tǒng)的設(shè)計與實現(xiàn)[D];大連海事大學;2000年
10 王剛;基于疾病表型的基因語義相似性分析與應(yīng)用[D];西安電子科技大學;2012年
,本文編號:570622
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/570622.html