基于深層神經(jīng)網(wǎng)絡的音頻特征提取及場景識別研究
本文關鍵詞:基于深層神經(jīng)網(wǎng)絡的音頻特征提取及場景識別研究
更多相關文章: 音頻特征提取 卷積神經(jīng)網(wǎng)絡 解卷積神經(jīng)網(wǎng)絡 音頻場景識別
【摘要】:音頻場景識別(Audio Context Recognition)是人工智能領域重要的研究方向之一,該技術依據(jù)周邊聲音感知環(huán)境動態(tài),對機器作出進一步智能選擇有著非常重要的意義。近年來有較多的學者涉足這一研究方向,他們大多采用先特征提取后分類器分類的研究框架,其中,對如何提取能夠反映音頻場景聲學特性的識別特征方面給與了較多的關注。所采用的聲學特征可以粗略的分為兩大類:短時特征和長時特征。短時特征如單音軌梅爾頻率倒譜系數(shù)、多音軌梅爾頻率倒譜系數(shù)、梅爾頻率倒譜系數(shù)和稀疏特征的聯(lián)合特征等;長時特征多為音頻段的長時統(tǒng)計值或基于語義相關性的特征等。從研究結果上看,目前的聲學特征都有其不足之處,短時特征往往不足以完整地刻畫一個音頻場景的特性,長時特征往往缺乏對音頻段內(nèi)部細節(jié)的描述,而長時統(tǒng)計值中缺失的內(nèi)部結構信息對區(qū)分音頻場景也有重用的價值。本文對既能反映音頻段長時特性又能反映局部結構性的聲學特征的提取方法進行研究,并驗證了它們在音頻場景識別任務中的有效性。深層神經(jīng)網(wǎng)絡能夠通過自學習來發(fā)現(xiàn)適合分類任務的特征向量,這已經(jīng)在圖像尤其是自然圖像的結構性特征分析方面得到了驗證,這些特征提取方法能夠很好地反映出圖像的結構信息,相對于主觀分析方法有著很大的優(yōu)勢。所以,本課題借助深層神經(jīng)網(wǎng)絡的特征分析能力在語譜圖上進行場景長時結構性特征的分析與提取。主要研究內(nèi)容如下:首先研究了基于卷積神經(jīng)網(wǎng)絡的音頻場景特征分析提取方法,卷積神經(jīng)網(wǎng)絡通過卷積和下采樣操作對輸入數(shù)據(jù)進行非線性映射,最終通過重構誤差的反向傳播進行參數(shù)的調(diào)節(jié),從而提取出能夠刻畫音頻場景特性的聲學特征。卷積神經(jīng)網(wǎng)絡在訓練是以輸入數(shù)據(jù)的類別重構誤差最小化為優(yōu)化目標的,所以訓練過程需要大量的有標簽數(shù)據(jù),F(xiàn)實情況下,往往難以得到大量帶標簽的訓練數(shù)據(jù),因為對數(shù)據(jù)進行標注費時費力,所以本文也提出了基于解卷積神經(jīng)網(wǎng)絡的特征提取方法。解卷積神經(jīng)網(wǎng)絡模型在特征分析處理過程中不僅保留了卷積神經(jīng)網(wǎng)絡的卷積操作和下采樣操作,而且還在原來的基礎上有了些改進,其參數(shù)更新過程是基于對輸入數(shù)據(jù)重構誤差的反向傳播進行的,這樣就不需要帶標簽的數(shù)據(jù)。采用這種特征提取方法,音頻場景數(shù)據(jù)的采集相對來說就較為容易,訓練數(shù)據(jù)不足的問題就得到了很好的解決。通過實驗驗證,我們得到的結果是,采用基于卷積神經(jīng)網(wǎng)絡得到的音頻特征,進行場景識別的性能有很大提升;基于解卷積神經(jīng)網(wǎng)絡分析得到的特征雖然對識別性能沒有較大的提升,但是針對訓練數(shù)據(jù)不足的問題它還是有效的。
【關鍵詞】:音頻特征提取 卷積神經(jīng)網(wǎng)絡 解卷積神經(jīng)網(wǎng)絡 音頻場景識別
【學位授予單位】:哈爾濱工業(yè)大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP183;TN912.34
【目錄】:
- 摘要4-6
- ABSTRACT6-10
- 第1章 緒論10-17
- 1.1 課題背景及研究的目的和意義10
- 1.2 國內(nèi)外研究現(xiàn)狀10-15
- 1.2.1 聲學特征分析研究現(xiàn)狀10-12
- 1.2.2 音頻場景識別研究現(xiàn)狀12-13
- 1.2.3 深度神經(jīng)網(wǎng)絡的研究現(xiàn)狀13-15
- 1.3 研究內(nèi)容15-17
- 第2章 基于MFCC和KNN的場景識別基線系統(tǒng)17-28
- 2.1 引言17
- 2.2 基本流程、預處理及特征提取17-19
- 2.2.1 基線系統(tǒng)基本流程17
- 2.2.2 音頻信號預處理及特征提取17-19
- 2.3 場景識別19-25
- 2.3.1 K近鄰算法的理論基礎及算法流程20-21
- 2.3.2 KNN模型及基本要素21-24
- 2.3.3 K近鄰算法應用24-25
- 2.4 實驗結果及分析25-26
- 2.4.1 實驗數(shù)據(jù)25-26
- 2.4.2 實驗參數(shù)調(diào)整及結果分析26
- 2.5 本章小結26-28
- 第3章 基于卷積神經(jīng)網(wǎng)絡的音頻特征提取及場景識別28-47
- 3.1 引言28
- 3.2 現(xiàn)有音頻特征在場景識別方面的適用性分析28-29
- 3.3 基于CNN的深層特征提取原理及學習算法29-34
- 3.3.1 CNN拓撲結構29-30
- 3.3.2 CNN計算方式30-31
- 3.3.3 CNN學習算法31-34
- 3.4 基于CNN的場景特征提取及識別分析34-37
- 3.4.1 語譜圖的特性以及CNN方法的適用性34-36
- 3.4.2 卷積濾波器的設計36-37
- 3.4.3 特征提取及分類37
- 3.5 實驗過程及結果分析37-46
- 3.5.1 實驗數(shù)據(jù)37-38
- 3.5.2 實驗基本網(wǎng)絡結構38
- 3.5.3 實驗參數(shù)調(diào)整及結果分析38-42
- 3.5.4 實驗流程及中間結果分析42-46
- 3.6 本章小結46-47
- 第4章 基于解卷積神經(jīng)網(wǎng)絡的音頻特征提取及場景識別47-59
- 4.1 引言47
- 4.2 基于解卷積神經(jīng)網(wǎng)絡的特征分析47-53
- 4.2.1 解卷積神經(jīng)網(wǎng)絡的拓撲結構48
- 4.2.2 解卷積神經(jīng)網(wǎng)絡的計算方式48-52
- 4.2.3 解卷積神經(jīng)網(wǎng)絡的學習算法52-53
- 4.3 解卷積神經(jīng)網(wǎng)絡用于音頻場景的特征分析及識別算法53-55
- 4.3.1 解卷積神經(jīng)網(wǎng)絡的適用性分析53-55
- 4.3.2 解卷積神經(jīng)網(wǎng)絡用于音頻場景特征提取及識別算法55
- 4.4 實驗結果及分析55-57
- 4.4.1 實驗數(shù)據(jù)預處理55
- 4.4.2 實驗基本網(wǎng)絡結構55-56
- 4.4.3 實驗參數(shù)調(diào)整及結果分析56-57
- 4.5 本章小結57-59
- 結論59-60
- 參考文獻60-65
- 致謝65
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 馬少華,高峰,李敏,吳成東;神經(jīng)網(wǎng)絡分類器的特征提取和優(yōu)選[J];基礎自動化;2000年06期
2 管聰慧,宣國榮;多類問題中的特征提取[J];計算機工程;2002年01期
3 胡威;李建華;陳波;;入侵檢測建模過程中特征提取最優(yōu)化評估[J];計算機工程;2006年12期
4 朱玉蓮;陳松燦;趙國安;;推廣的矩陣模式特征提取方法及其在人臉識別中的應用[J];小型微型計算機系統(tǒng);2007年04期
5 趙振勇;王保華;王力;崔磊;;人臉圖像的特征提取[J];計算機技術與發(fā)展;2007年05期
6 馮海亮;王麗;李見為;;一種新的用于人臉識別的特征提取方法[J];計算機科學;2009年06期
7 朱笑榮;楊德運;;基于入侵檢測的特征提取方法[J];計算機應用與軟件;2010年06期
8 王菲;白潔;;一種基于非線性特征提取的被動聲納目標識別方法研究[J];軟件導刊;2010年05期
9 陳偉;瞿曉;葛丁飛;;主觀引導特征提取法在光譜識別中的應用[J];科技通報;2011年04期
10 王華,李介谷;人臉斜視圖象的特征提取與恢復[J];上海交通大學學報;1997年01期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 尚修剛;蔣慰孫;;模糊特征提取新算法[A];1997中國控制與決策學術年會論文集[C];1997年
2 潘榮江;孟祥旭;楊承磊;王銳;;旋轉體的幾何特征提取方法[A];第一屆建立和諧人機環(huán)境聯(lián)合學術會議(HHME2005)論文集[C];2005年
3 薛燕;李建良;朱學芳;;人臉識別中特征提取的一種改進方法[A];第十三屆全國圖象圖形學學術會議論文集[C];2006年
4 杜栓平;曹正良;;時間—頻率域特征提取及其應用[A];2005年全國水聲學學術會議論文集[C];2005年
5 黃先鋒;韓傳久;陳旭;周劍軍;;運動目標的分割與特征提取[A];全國第二屆信號處理與應用學術會議專刊[C];2008年
6 魏明果;;方言比較的特征提取與矩陣分析[A];2009系統(tǒng)仿真技術及其應用學術會議論文集[C];2009年
7 林土勝;賴聲禮;;視網(wǎng)膜血管特征提取的拆支跟蹤法[A];1999年中國神經(jīng)網(wǎng)絡與信號處理學術會議論文集[C];1999年
8 秦建玲;李軍;;基于核的主成分分析的特征提取方法與樣本篩選[A];2005年中國機械工程學會年會論文集[C];2005年
9 劉紅;陳光,
本文編號:610340
本文鏈接:http://sikaile.net/kejilunwen/wltx/610340.html