基于深層神經(jīng)網(wǎng)絡(luò)的音頻特征提取及場(chǎng)景識(shí)別研究
本文關(guān)鍵詞:基于深層神經(jīng)網(wǎng)絡(luò)的音頻特征提取及場(chǎng)景識(shí)別研究
更多相關(guān)文章: 音頻特征提取 卷積神經(jīng)網(wǎng)絡(luò) 解卷積神經(jīng)網(wǎng)絡(luò) 音頻場(chǎng)景識(shí)別
【摘要】:音頻場(chǎng)景識(shí)別(Audio Context Recognition)是人工智能領(lǐng)域重要的研究方向之一,該技術(shù)依據(jù)周邊聲音感知環(huán)境動(dòng)態(tài),對(duì)機(jī)器作出進(jìn)一步智能選擇有著非常重要的意義。近年來(lái)有較多的學(xué)者涉足這一研究方向,他們大多采用先特征提取后分類(lèi)器分類(lèi)的研究框架,其中,對(duì)如何提取能夠反映音頻場(chǎng)景聲學(xué)特性的識(shí)別特征方面給與了較多的關(guān)注。所采用的聲學(xué)特征可以粗略的分為兩大類(lèi):短時(shí)特征和長(zhǎng)時(shí)特征。短時(shí)特征如單音軌梅爾頻率倒譜系數(shù)、多音軌梅爾頻率倒譜系數(shù)、梅爾頻率倒譜系數(shù)和稀疏特征的聯(lián)合特征等;長(zhǎng)時(shí)特征多為音頻段的長(zhǎng)時(shí)統(tǒng)計(jì)值或基于語(yǔ)義相關(guān)性的特征等。從研究結(jié)果上看,目前的聲學(xué)特征都有其不足之處,短時(shí)特征往往不足以完整地刻畫(huà)一個(gè)音頻場(chǎng)景的特性,長(zhǎng)時(shí)特征往往缺乏對(duì)音頻段內(nèi)部細(xì)節(jié)的描述,而長(zhǎng)時(shí)統(tǒng)計(jì)值中缺失的內(nèi)部結(jié)構(gòu)信息對(duì)區(qū)分音頻場(chǎng)景也有重用的價(jià)值。本文對(duì)既能反映音頻段長(zhǎng)時(shí)特性又能反映局部結(jié)構(gòu)性的聲學(xué)特征的提取方法進(jìn)行研究,并驗(yàn)證了它們?cè)谝纛l場(chǎng)景識(shí)別任務(wù)中的有效性。深層神經(jīng)網(wǎng)絡(luò)能夠通過(guò)自學(xué)習(xí)來(lái)發(fā)現(xiàn)適合分類(lèi)任務(wù)的特征向量,這已經(jīng)在圖像尤其是自然圖像的結(jié)構(gòu)性特征分析方面得到了驗(yàn)證,這些特征提取方法能夠很好地反映出圖像的結(jié)構(gòu)信息,相對(duì)于主觀分析方法有著很大的優(yōu)勢(shì)。所以,本課題借助深層神經(jīng)網(wǎng)絡(luò)的特征分析能力在語(yǔ)譜圖上進(jìn)行場(chǎng)景長(zhǎng)時(shí)結(jié)構(gòu)性特征的分析與提取。主要研究?jī)?nèi)容如下:首先研究了基于卷積神經(jīng)網(wǎng)絡(luò)的音頻場(chǎng)景特征分析提取方法,卷積神經(jīng)網(wǎng)絡(luò)通過(guò)卷積和下采樣操作對(duì)輸入數(shù)據(jù)進(jìn)行非線性映射,最終通過(guò)重構(gòu)誤差的反向傳播進(jìn)行參數(shù)的調(diào)節(jié),從而提取出能夠刻畫(huà)音頻場(chǎng)景特性的聲學(xué)特征。卷積神經(jīng)網(wǎng)絡(luò)在訓(xùn)練是以輸入數(shù)據(jù)的類(lèi)別重構(gòu)誤差最小化為優(yōu)化目標(biāo)的,所以訓(xùn)練過(guò)程需要大量的有標(biāo)簽數(shù)據(jù)�,F(xiàn)實(shí)情況下,往往難以得到大量帶標(biāo)簽的訓(xùn)練數(shù)據(jù),因?yàn)閷?duì)數(shù)據(jù)進(jìn)行標(biāo)注費(fèi)時(shí)費(fèi)力,所以本文也提出了基于解卷積神經(jīng)網(wǎng)絡(luò)的特征提取方法。解卷積神經(jīng)網(wǎng)絡(luò)模型在特征分析處理過(guò)程中不僅保留了卷積神經(jīng)網(wǎng)絡(luò)的卷積操作和下采樣操作,而且還在原來(lái)的基礎(chǔ)上有了些改進(jìn),其參數(shù)更新過(guò)程是基于對(duì)輸入數(shù)據(jù)重構(gòu)誤差的反向傳播進(jìn)行的,這樣就不需要帶標(biāo)簽的數(shù)據(jù)。采用這種特征提取方法,音頻場(chǎng)景數(shù)據(jù)的采集相對(duì)來(lái)說(shuō)就較為容易,訓(xùn)練數(shù)據(jù)不足的問(wèn)題就得到了很好的解決。通過(guò)實(shí)驗(yàn)驗(yàn)證,我們得到的結(jié)果是,采用基于卷積神經(jīng)網(wǎng)絡(luò)得到的音頻特征,進(jìn)行場(chǎng)景識(shí)別的性能有很大提升;基于解卷積神經(jīng)網(wǎng)絡(luò)分析得到的特征雖然對(duì)識(shí)別性能沒(méi)有較大的提升,但是針對(duì)訓(xùn)練數(shù)據(jù)不足的問(wèn)題它還是有效的。
【關(guān)鍵詞】:音頻特征提取 卷積神經(jīng)網(wǎng)絡(luò) 解卷積神經(jīng)網(wǎng)絡(luò) 音頻場(chǎng)景識(shí)別
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類(lèi)號(hào)】:TP183;TN912.34
【目錄】:
- 摘要4-6
- ABSTRACT6-10
- 第1章 緒論10-17
- 1.1 課題背景及研究的目的和意義10
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀10-15
- 1.2.1 聲學(xué)特征分析研究現(xiàn)狀10-12
- 1.2.2 音頻場(chǎng)景識(shí)別研究現(xiàn)狀12-13
- 1.2.3 深度神經(jīng)網(wǎng)絡(luò)的研究現(xiàn)狀13-15
- 1.3 研究?jī)?nèi)容15-17
- 第2章 基于MFCC和KNN的場(chǎng)景識(shí)別基線系統(tǒng)17-28
- 2.1 引言17
- 2.2 基本流程、預(yù)處理及特征提取17-19
- 2.2.1 基線系統(tǒng)基本流程17
- 2.2.2 音頻信號(hào)預(yù)處理及特征提取17-19
- 2.3 場(chǎng)景識(shí)別19-25
- 2.3.1 K近鄰算法的理論基礎(chǔ)及算法流程20-21
- 2.3.2 KNN模型及基本要素21-24
- 2.3.3 K近鄰算法應(yīng)用24-25
- 2.4 實(shí)驗(yàn)結(jié)果及分析25-26
- 2.4.1 實(shí)驗(yàn)數(shù)據(jù)25-26
- 2.4.2 實(shí)驗(yàn)參數(shù)調(diào)整及結(jié)果分析26
- 2.5 本章小結(jié)26-28
- 第3章 基于卷積神經(jīng)網(wǎng)絡(luò)的音頻特征提取及場(chǎng)景識(shí)別28-47
- 3.1 引言28
- 3.2 現(xiàn)有音頻特征在場(chǎng)景識(shí)別方面的適用性分析28-29
- 3.3 基于CNN的深層特征提取原理及學(xué)習(xí)算法29-34
- 3.3.1 CNN拓?fù)浣Y(jié)構(gòu)29-30
- 3.3.2 CNN計(jì)算方式30-31
- 3.3.3 CNN學(xué)習(xí)算法31-34
- 3.4 基于CNN的場(chǎng)景特征提取及識(shí)別分析34-37
- 3.4.1 語(yǔ)譜圖的特性以及CNN方法的適用性34-36
- 3.4.2 卷積濾波器的設(shè)計(jì)36-37
- 3.4.3 特征提取及分類(lèi)37
- 3.5 實(shí)驗(yàn)過(guò)程及結(jié)果分析37-46
- 3.5.1 實(shí)驗(yàn)數(shù)據(jù)37-38
- 3.5.2 實(shí)驗(yàn)基本網(wǎng)絡(luò)結(jié)構(gòu)38
- 3.5.3 實(shí)驗(yàn)參數(shù)調(diào)整及結(jié)果分析38-42
- 3.5.4 實(shí)驗(yàn)流程及中間結(jié)果分析42-46
- 3.6 本章小結(jié)46-47
- 第4章 基于解卷積神經(jīng)網(wǎng)絡(luò)的音頻特征提取及場(chǎng)景識(shí)別47-59
- 4.1 引言47
- 4.2 基于解卷積神經(jīng)網(wǎng)絡(luò)的特征分析47-53
- 4.2.1 解卷積神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)48
- 4.2.2 解卷積神經(jīng)網(wǎng)絡(luò)的計(jì)算方式48-52
- 4.2.3 解卷積神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)算法52-53
- 4.3 解卷積神經(jīng)網(wǎng)絡(luò)用于音頻場(chǎng)景的特征分析及識(shí)別算法53-55
- 4.3.1 解卷積神經(jīng)網(wǎng)絡(luò)的適用性分析53-55
- 4.3.2 解卷積神經(jīng)網(wǎng)絡(luò)用于音頻場(chǎng)景特征提取及識(shí)別算法55
- 4.4 實(shí)驗(yàn)結(jié)果及分析55-57
- 4.4.1 實(shí)驗(yàn)數(shù)據(jù)預(yù)處理55
- 4.4.2 實(shí)驗(yàn)基本網(wǎng)絡(luò)結(jié)構(gòu)55-56
- 4.4.3 實(shí)驗(yàn)參數(shù)調(diào)整及結(jié)果分析56-57
- 4.5 本章小結(jié)57-59
- 結(jié)論59-60
- 參考文獻(xiàn)60-65
- 致謝65
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 馬少華,高峰,李敏,吳成東;神經(jīng)網(wǎng)絡(luò)分類(lèi)器的特征提取和優(yōu)選[J];基礎(chǔ)自動(dòng)化;2000年06期
2 管聰慧,宣國(guó)榮;多類(lèi)問(wèn)題中的特征提取[J];計(jì)算機(jī)工程;2002年01期
3 胡威;李建華;陳波;;入侵檢測(cè)建模過(guò)程中特征提取最優(yōu)化評(píng)估[J];計(jì)算機(jī)工程;2006年12期
4 朱玉蓮;陳松燦;趙國(guó)安;;推廣的矩陣模式特征提取方法及其在人臉識(shí)別中的應(yīng)用[J];小型微型計(jì)算機(jī)系統(tǒng);2007年04期
5 趙振勇;王保華;王力;崔磊;;人臉圖像的特征提取[J];計(jì)算機(jī)技術(shù)與發(fā)展;2007年05期
6 馮海亮;王麗;李見(jiàn)為;;一種新的用于人臉識(shí)別的特征提取方法[J];計(jì)算機(jī)科學(xué);2009年06期
7 朱笑榮;楊德運(yùn);;基于入侵檢測(cè)的特征提取方法[J];計(jì)算機(jī)應(yīng)用與軟件;2010年06期
8 王菲;白潔;;一種基于非線性特征提取的被動(dòng)聲納目標(biāo)識(shí)別方法研究[J];軟件導(dǎo)刊;2010年05期
9 陳偉;瞿曉;葛丁飛;;主觀引導(dǎo)特征提取法在光譜識(shí)別中的應(yīng)用[J];科技通報(bào);2011年04期
10 王華,李介谷;人臉斜視圖象的特征提取與恢復(fù)[J];上海交通大學(xué)學(xué)報(bào);1997年01期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 尚修剛;蔣慰孫;;模糊特征提取新算法[A];1997中國(guó)控制與決策學(xué)術(shù)年會(huì)論文集[C];1997年
2 潘榮江;孟祥旭;楊承磊;王銳;;旋轉(zhuǎn)體的幾何特征提取方法[A];第一屆建立和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2005)論文集[C];2005年
3 薛燕;李建良;朱學(xué)芳;;人臉識(shí)別中特征提取的一種改進(jìn)方法[A];第十三屆全國(guó)圖象圖形學(xué)學(xué)術(shù)會(huì)議論文集[C];2006年
4 杜栓平;曹正良;;時(shí)間—頻率域特征提取及其應(yīng)用[A];2005年全國(guó)水聲學(xué)學(xué)術(shù)會(huì)議論文集[C];2005年
5 黃先鋒;韓傳久;陳旭;周劍軍;;運(yùn)動(dòng)目標(biāo)的分割與特征提取[A];全國(guó)第二屆信號(hào)處理與應(yīng)用學(xué)術(shù)會(huì)議專(zhuān)刊[C];2008年
6 魏明果;;方言比較的特征提取與矩陣分析[A];2009系統(tǒng)仿真技術(shù)及其應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2009年
7 林土勝;賴(lài)聲禮;;視網(wǎng)膜血管特征提取的拆支跟蹤法[A];1999年中國(guó)神經(jīng)網(wǎng)絡(luò)與信號(hào)處理學(xué)術(shù)會(huì)議論文集[C];1999年
8 秦建玲;李軍;;基于核的主成分分析的特征提取方法與樣本篩選[A];2005年中國(guó)機(jī)械工程學(xué)會(huì)年會(huì)論文集[C];2005年
9 劉紅;陳光,
本文編號(hào):610340
本文鏈接:http://sikaile.net/kejilunwen/wltx/610340.html