【摘要】:隨著互聯(lián)網(wǎng)及新媒體平臺(tái)的迅猛發(fā)展,音頻數(shù)據(jù)總量變得越來越龐大。在大數(shù)據(jù)及人工智能的背景下,音頻場(chǎng)景識(shí)別技術(shù)可應(yīng)用的領(lǐng)域越來越廣泛,其重要性不言而喻。音頻場(chǎng)景識(shí)別本質(zhì)上是對(duì)聲音信號(hào)中包含的聲音特征及聲學(xué)事件進(jìn)行感知,并加以處理和分析,從而對(duì)音頻信號(hào)進(jìn)行分類。聲學(xué)特征的選擇直接影響分類結(jié)果的好壞,因此選擇合適的聲學(xué)特征尤其關(guān)鍵。梅爾頻率倒譜系數(shù)(MEL Frequency Cepstrum Coefficient,MFCC)能夠模擬人耳對(duì)聲音處理的特質(zhì),計(jì)算方面較其他聲學(xué)特征更容易,能夠抓取信號(hào)中具有辨識(shí)度的部分。因此,在有關(guān)音頻識(shí)別的分類任務(wù)中,MFCC的抗干擾能力優(yōu)于其他聲學(xué)特征。近年來對(duì)于人工智能的研究漸漸成熟,深度學(xué)習(xí)技術(shù)飛速發(fā)展,在模式識(shí)別、機(jī)器學(xué)習(xí)等領(lǐng)域取得了革命性的突破,使得越來越多的人投身有關(guān)深度學(xué)習(xí)的研究。深度神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)當(dāng)中的一個(gè)重要研究方向,相較于淺層神經(jīng)網(wǎng)絡(luò),其擁有更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),更強(qiáng)大的運(yùn)算組合能力,更細(xì)致的特征分析能力。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)采用深度學(xué)習(xí)構(gòu)架,是深度神經(jīng)網(wǎng)絡(luò)中的一種經(jīng)典網(wǎng)絡(luò)模型,具有權(quán)值共享、局部連接等特性。這使得卷積神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中所需要學(xué)習(xí)的參數(shù)更少、網(wǎng)絡(luò)節(jié)點(diǎn)更少,降低了網(wǎng)絡(luò)復(fù)雜度,減少計(jì)算開銷。卷積神經(jīng)網(wǎng)絡(luò)具有出色的特征提取能力,由于特有的網(wǎng)絡(luò)結(jié)構(gòu),其抗畸變能力更強(qiáng),具有輸入不變性,在分類任務(wù)中表現(xiàn)尤其出色。本課題選用MFCC作為場(chǎng)景音頻所提取的聲學(xué)特征,利用CNN在特征提取及分類方面的優(yōu)越性能對(duì)聲學(xué)特征進(jìn)一步抽取和分析,得到更加高級(jí)、抽象的特征,并對(duì)其進(jìn)行分類,達(dá)到提升分類準(zhǔn)確率的目的。本文主要工作如下:(1)對(duì)音頻場(chǎng)景識(shí)別技術(shù)、深度學(xué)習(xí)、聲學(xué)特征等方面展開深入調(diào)研,整理并總結(jié)各領(lǐng)域國(guó)內(nèi)外發(fā)展現(xiàn)狀,對(duì)深度學(xué)習(xí)及音頻場(chǎng)景識(shí)別技術(shù)的發(fā)展歷程、聲學(xué)特征的分類及其特點(diǎn)進(jìn)行了詳細(xì)介紹。(2)闡述了MFCC的原理并給出提取流程,介紹了K近鄰算法(K-Neighbor Nearest,KNN)的理論基礎(chǔ)及分類流程,設(shè)計(jì)并搭建了使用KNN作為分類器的基線實(shí)驗(yàn)系統(tǒng),調(diào)整重要參數(shù)進(jìn)行多組對(duì)照實(shí)驗(yàn),得到并分析實(shí)驗(yàn)結(jié)果。(3)介紹了CNN的網(wǎng)絡(luò)結(jié)構(gòu)、計(jì)算方式、學(xué)習(xí)算法及應(yīng)用范圍等。設(shè)計(jì)并搭建了基于MFCC和CNN的音頻場(chǎng)景識(shí)別系統(tǒng),給出了實(shí)驗(yàn)整體流程及系統(tǒng)中卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)構(gòu)架。首先,對(duì)場(chǎng)景音頻進(jìn)行聲學(xué)特征的提取,將聲學(xué)特征數(shù)據(jù)集分為訓(xùn)練樣本集及測(cè)試樣本集兩類。接下來利用訓(xùn)練樣本集對(duì)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,使網(wǎng)絡(luò)訓(xùn)練至收斂,使權(quán)值等參數(shù)的學(xué)習(xí)達(dá)到最優(yōu)狀態(tài)。最后,使用完成訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)對(duì)測(cè)試樣本集進(jìn)行音頻場(chǎng)景的識(shí)別,得到場(chǎng)景識(shí)別準(zhǔn)確率。同時(shí),對(duì)CNN中的重要參數(shù):卷積核大小、特征圖數(shù)量、激活函數(shù)等進(jìn)行調(diào)整,對(duì)比在參數(shù)調(diào)整后分類準(zhǔn)確率的變化大小及趨勢(shì)。通過對(duì)兩組實(shí)驗(yàn)結(jié)果的觀察可以得到,基于MFCC和CNN的場(chǎng)景識(shí)別系統(tǒng)的整體識(shí)別率比基線系統(tǒng)高出1.4個(gè)百分點(diǎn),通過調(diào)整卷積核尺寸、特征圖數(shù)量等參數(shù)后,整體識(shí)別率又有小幅度上升。因此,基于MFCC和CNN的實(shí)驗(yàn)系統(tǒng)在整體識(shí)別率方面優(yōu)于基線系統(tǒng)。
【圖文】:
東北石油大學(xué)工程碩士專業(yè)學(xué)位論文的步長(zhǎng)。在一個(gè)卷積層中,卷積核的數(shù)量與特征圖數(shù)量是呈正比的,響著特征抽取的全面性和準(zhǔn)確性。卷積核的尺寸決定著特征圖的大小,則在待處理圖像上可移動(dòng)的距離就越近,相對(duì)應(yīng)的特征圖就越小。多,,需要多層卷積層來進(jìn)行操作,那么在前期設(shè)計(jì)卷積核大小時(shí),需問題,不宜過大,否則將會(huì)影響到特征的提取。步長(zhǎng)這一參數(shù)決定了次數(shù)和特征數(shù)量。卷積運(yùn)算過程如圖 3.1 所示。

圖 3.2 池化過程經(jīng)網(wǎng)絡(luò)的特點(diǎn)經(jīng)網(wǎng)絡(luò)模型相比,卷積神經(jīng)網(wǎng)絡(luò)具有以下特性:神經(jīng)網(wǎng)絡(luò)具有權(quán)值共享的特點(diǎn),即在同一個(gè)神經(jīng)網(wǎng)絡(luò)中,相的任何位置進(jìn)行卷積操作,均使用相同的網(wǎng)絡(luò)權(quán)值和加性偏同樣的權(quán)值按照特定規(guī)則去卷積輸入矩陣,那么在圖像數(shù)據(jù)度相關(guān)的,因此可以形成更加具有辨識(shí)度的局部特征。同時(shí)值參數(shù)更少,使計(jì)算量得到削減。少的權(quán)值意味著卷積神經(jīng)少的訓(xùn)練數(shù)據(jù)集進(jìn)行訓(xùn)練,就可以達(dá)到相同的效果,適用連接是卷積神經(jīng)網(wǎng)絡(luò)的另一個(gè)特性。與其他深度網(wǎng)絡(luò)模型一神經(jīng)元需要和隱含層的神經(jīng)元連接,但并不是將所有輸入神行全連接,而是僅在圖像的某個(gè)局部區(qū)域進(jìn)行部分連接,這感知域。局部連接的方式在圖像處理操作上具有獨(dú)特的局部區(qū)域特征值相對(duì)于其他相鄰區(qū)域具有相似性和關(guān)聯(lián)性,因
【學(xué)位授予單位】:東北石油大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:TP18;TN912.34
【參考文獻(xiàn)】
相關(guān)期刊論文 前5條
1 胡正平;陳俊嶺;王蒙;趙淑歡;;卷積神經(jīng)網(wǎng)絡(luò)分類模型在模式識(shí)別中的新進(jìn)展[J];燕山大學(xué)學(xué)報(bào);2015年04期
2 崔璨;袁英才;;窗函數(shù)在信號(hào)處理中的應(yīng)用[J];北京印刷學(xué)院學(xué)報(bào);2014年04期
3 毛青春;徐分亮;;窗函數(shù)及其應(yīng)用[J];中國(guó)水運(yùn)(學(xué)術(shù)版);2007年02期
4 于明;袁玉倩;董浩;王哲;;一種基于MFCC和LPCC的文本相關(guān)說話人識(shí)別方法[J];計(jì)算機(jī)應(yīng)用;2006年04期
5 宋博,須德;使用支持向量機(jī)進(jìn)行音頻精彩場(chǎng)景的識(shí)別提取[J];微計(jì)算機(jī)應(yīng)用;2004年03期
相關(guān)會(huì)議論文 前1條
1 姜洪臣;梁偉;張樹武;徐波;;音頻場(chǎng)景分類的音頻特征提取和分析[A];第八屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];2005年
相關(guān)碩士學(xué)位論文 前5條
1 彭凡凡;基于多深度模型集成的音頻場(chǎng)景分類方法研究[D];哈爾濱工業(yè)大學(xué);2017年
2 高越;量子K近鄰算法研究[D];東南大學(xué);2015年
3 李曉普;基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分類[D];大連理工大學(xué);2015年
4 周成豪;基于概率潛在語(yǔ)義分析的音頻場(chǎng)景識(shí)別方法[D];哈爾濱工業(yè)大學(xué);2013年
5 王公友;基于內(nèi)容的音頻分析與場(chǎng)景識(shí)別[D];南京大學(xué);2013年
本文編號(hào):
2667918
本文鏈接:http://sikaile.net/kejilunwen/wltx/2667918.html