暴力音頻場(chǎng)景分類技術(shù)研究與系統(tǒng)實(shí)現(xiàn)
本文關(guān)鍵詞:暴力音頻場(chǎng)景分類技術(shù)研究與系統(tǒng)實(shí)現(xiàn)
更多相關(guān)文章: 暴力音頻場(chǎng)景識(shí)別 深度學(xué)習(xí) 受限玻爾茲曼機(jī) 特征學(xué)習(xí)
【摘要】:隨著近年來互聯(lián)網(wǎng)與電影業(yè)的發(fā)展,音視頻等多媒體文件急劇增多,有些音視頻文件往往包含大量的暴力元素。由于音頻在處理速度上比視頻快得多,基于音頻的暴力場(chǎng)景識(shí)別受到越來越多的關(guān)注。目前暴力音頻檢測(cè)技術(shù)主要基于機(jī)器學(xué)習(xí)算法,相比于傳統(tǒng)的人工審查方式取得了突破性的進(jìn)展,但是仍然存在著以下問題:不同的識(shí)別場(chǎng)景通常需要選取不同的音頻特征,系統(tǒng)推廣能力弱;傳統(tǒng)機(jī)器學(xué)習(xí)算法都是基于淺層學(xué)習(xí),對(duì)于音頻等復(fù)雜特征的建模能力較弱,系統(tǒng)識(shí)別性能有待提高;大部分暴力音頻識(shí)別方法在帶有噪聲的真實(shí)場(chǎng)景下識(shí)別性能明顯下降。本文針對(duì)上述問題,主要做了以下幾個(gè)方面的研究:(1)針對(duì)不同場(chǎng)景下系統(tǒng)推廣能力弱的問題,本文將深度神經(jīng)網(wǎng)(Deep Neural network,DNN)應(yīng)用到暴力音頻識(shí)別任務(wù)中。相比傳統(tǒng)的淺層學(xué)習(xí)算法,DNN作為深度學(xué)習(xí)模型,對(duì)特征的學(xué)習(xí)與表達(dá)能力更強(qiáng),在大多數(shù)場(chǎng)景下,可以直接使用底層特征如對(duì)數(shù)功率譜、語譜圖等作為DNN的輸入,不需要人工篩選特征。(2)針對(duì)系統(tǒng)識(shí)別性能差的問題,一方面,在特定的應(yīng)用場(chǎng)景下,使用深度學(xué)習(xí)模型構(gòu)造的特征可以作為新特征與MFCC、能量熵、過零率等特征做融合;另一方面,本文還使用離散化與特征選擇技術(shù),進(jìn)一步提升特征的表達(dá)能力,同時(shí)在暴力音頻的識(shí)別階段使用K-近鄰(K-Nearest Neighbo,KNN)算法對(duì)識(shí)別結(jié)果進(jìn)行平滑矯正,提升系統(tǒng)的識(shí)別性能。(3)針對(duì)在有噪聲的環(huán)境下識(shí)別性能差的問題,本文使用深度降噪自編碼(Deep Denoising Autoencoder,DDAE)網(wǎng)絡(luò)對(duì)原始音頻進(jìn)行降噪處理,減小訓(xùn)練數(shù)據(jù)與真實(shí)測(cè)試數(shù)據(jù)之間的差異性,提高了音頻特征的魯棒性。(4)為提高DNN訓(xùn)練速度與模型表達(dá)能力,本文還在受限玻爾茲曼機(jī)(Restricted Boltzmann Machine,RBM)基礎(chǔ)上提出了基于自增長(zhǎng)受限玻爾茲曼機(jī)(Incre-Restricted Boltzmann Machine,Incre-RBM)。實(shí)驗(yàn)表明,Incre-RBM相比于RBM,具有更快的訓(xùn)練速度與更強(qiáng)的表達(dá)能力。
【關(guān)鍵詞】:暴力音頻場(chǎng)景識(shí)別 深度學(xué)習(xí) 受限玻爾茲曼機(jī) 特征學(xué)習(xí)
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TN912.3;TP181
【目錄】:
- 摘要4-5
- ABSTRACT5-9
- 第1章 緒論9-15
- 1.1 課題背景及研究的目的與意義9-10
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀10-12
- 1.2.1 暴力音視頻場(chǎng)景識(shí)別研究現(xiàn)狀10-11
- 1.2.2 深度學(xué)習(xí)技術(shù)在音頻領(lǐng)域的研究進(jìn)展11-12
- 1.2.3 目前暴力音頻場(chǎng)景識(shí)別方法存在的問題12
- 1.3 本文研究?jī)?nèi)容12-14
- 1.4 本文組織結(jié)構(gòu)14-15
- 第2章 基于聲學(xué)特征與SVM暴力音頻分類系統(tǒng)15-26
- 2.1 引言15
- 2.2 特征提取15-19
- 2.2.1 聲學(xué)特征15-18
- 2.2.2 統(tǒng)計(jì)量18-19
- 2.3 基于S VM的暴力音頻場(chǎng)景分類系統(tǒng)19-23
- 2.3.1 支持向量機(jī)19-22
- 2.3.2 SVM進(jìn)行暴力音頻場(chǎng)景分類任務(wù)22-23
- 2.4 實(shí)驗(yàn)與實(shí)驗(yàn)結(jié)果分析23-25
- 2.4.1 實(shí)驗(yàn)平臺(tái)與實(shí)驗(yàn)數(shù)據(jù)23-24
- 2.4.2 評(píng)價(jià)指標(biāo)與實(shí)驗(yàn)結(jié)果24-25
- 2.5 本章小結(jié)25-26
- 第3章 基于自增長(zhǎng)受限玻爾茲曼機(jī)的音頻特征學(xué)習(xí)26-40
- 3.1 引言26
- 3.2 受限玻爾茲曼機(jī)26-30
- 3.3 自增長(zhǎng)受限玻爾茲曼機(jī)30-33
- 3.3.1 處理流程30-32
- 3.3.2 時(shí)間分析與誤差分析32-33
- 3.3.3 Incre-RBM應(yīng)用33
- 3.4 基于自增長(zhǎng)受限玻爾茲曼機(jī)的深度信念網(wǎng)絡(luò)33-36
- 3.4.1 預(yù)訓(xùn)練33-34
- 3.4.2 微調(diào)34-36
- 3.4.3 特征提取36
- 3.5 實(shí)驗(yàn)結(jié)果與分析36-39
- 3.5.1 實(shí)驗(yàn)數(shù)據(jù)與評(píng)價(jià)指標(biāo)36-37
- 3.5.2 網(wǎng)絡(luò)結(jié)構(gòu)與網(wǎng)絡(luò)參數(shù)37-38
- 3.5.3 實(shí)驗(yàn)結(jié)果與分析38-39
- 3.6 本章小結(jié)39-40
- 第4章 基于深度神經(jīng)網(wǎng)絡(luò)的暴力音頻分類系統(tǒng)40-57
- 4.1 引言40-41
- 4.2 音頻降噪與特征處理41-45
- 4.2.1 音頻降噪41-43
- 4.2.2 特征處理43-45
- 4.3 模型訓(xùn)練45-46
- 4.4 KNN矯正與段內(nèi)打分機(jī)制46-49
- 4.4.1 段內(nèi)打分機(jī)制46
- 4.4.2 KNN矯正46-49
- 4.4.3 KNN矯正-投票打分機(jī)制49
- 4.5 實(shí)驗(yàn)結(jié)果與分析49-56
- 4.5.1 音頻降噪實(shí)驗(yàn)49-50
- 4.5.2 特征離散化與特征選擇實(shí)驗(yàn)50-52
- 4.5.3 KNN矯正實(shí)驗(yàn)52-53
- 4.5.4 暴力音頻場(chǎng)景識(shí)別系統(tǒng)實(shí)現(xiàn)53-56
- 4.6 本章小結(jié)56-57
- 結(jié)論57-58
- 參考文獻(xiàn)58-63
- 攻讀碩士學(xué)位期間發(fā)表的論文及其他成果63-65
- 致謝65
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 王若愚;方芳;葉昭;;流量分類技術(shù)精細(xì)管理網(wǎng)絡(luò)[J];中國(guó)教育網(wǎng)絡(luò);2012年02期
2 馬明成;莫曉俊;姜洪臣;徐波;;音頻分類技術(shù)在廣播質(zhì)量評(píng)估中的應(yīng)用[J];廣播與電視技術(shù);2010年10期
3 黃樹成;曲亞輝;;數(shù)據(jù)流分類技術(shù)研究綜述[J];計(jì)算機(jī)應(yīng)用研究;2009年10期
4 張俊,石功軍,王中平;信息處理過程中的分類技術(shù)[J];聲學(xué)技術(shù);2003年04期
5 張李,涂曉東,何誠(chéng);流分類技術(shù)的研究[J];電子科技大學(xué)學(xué)報(bào);2004年06期
6 李洋;趙驊;;基于信息熵和決策分類技術(shù)的郵件識(shí)別研究[J];計(jì)算機(jī)科學(xué);2008年02期
7 夏雪;肖德寶;顧婷;;基于本體的報(bào)警分類技術(shù)在報(bào)警評(píng)估過程中的應(yīng)用與實(shí)現(xiàn)(英文)[J];北京交通大學(xué)學(xué)報(bào);2008年06期
8 黃敏;何中市;;分類技術(shù)在高職教學(xué)質(zhì)量評(píng)價(jià)分析中的應(yīng)用[J];計(jì)算機(jī)工程與設(shè)計(jì);2012年03期
9 王與;劉洋;;分類技術(shù)在高校教學(xué)管理中的應(yīng)用[J];滁州學(xué)院學(xué)報(bào);2011年05期
10 段巍巍;許海濱;;基于分類技術(shù)的目標(biāo)客戶輔助定位方法研究[J];江蘇通信;2008年03期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前1條
1 梁曉雯;閔友鋼;;音樂情感分類技術(shù)在媒體資產(chǎn)管理中的應(yīng)用[A];中國(guó)新聞技術(shù)工作者聯(lián)合會(huì)2008年學(xué)術(shù)年會(huì)論文集(下)[C];2008年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 畢夏安;高性能包分類技術(shù)及其應(yīng)用研究[D];湖南大學(xué);2012年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 周方;社交網(wǎng)絡(luò)節(jié)點(diǎn)分類技術(shù)研究[D];遼寧大學(xué);2015年
2 李林林;面向不均衡數(shù)據(jù)的半監(jiān)督網(wǎng)絡(luò)流量分類技術(shù)研究與實(shí)現(xiàn)[D];解放軍信息工程大學(xué);2014年
3 董輝;基于混合方法的網(wǎng)絡(luò)流量分類技術(shù)研究[D];哈爾濱理工大學(xué);2014年
4 馮佳軍;暴力音頻場(chǎng)景分類技術(shù)研究與系統(tǒng)實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2016年
5 王小慧;基于單鏈接和期望最大化規(guī)則聚類的包分類技術(shù)[D];湖南師范大學(xué);2016年
6 叢蓉;基于采樣的網(wǎng)絡(luò)流量分類技術(shù)研究[D];北京郵電大學(xué);2012年
7 朱秋香;流分類技術(shù)研究及其原型系統(tǒng)的實(shí)現(xiàn)[D];東南大學(xué);2004年
8 張海笑;數(shù)據(jù)挖掘分類技術(shù)在高校教學(xué)中的應(yīng)用研究[D];廣東工業(yè)大學(xué);2005年
9 ;;分類技術(shù)在稅收管理中的應(yīng)用[D];鄭州大學(xué);2003年
10 蔣杰;基于分類技術(shù)的電子支付平臺(tái)作弊賬戶的識(shí)別模型研究[D];浙江工業(yè)大學(xué);2012年
,本文編號(hào):935554
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/935554.html