天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度學習的音頻場景識別研究

發(fā)布時間:2020-05-17 04:18
【摘要】:隨著互聯(lián)網(wǎng)及新媒體平臺的迅猛發(fā)展,音頻數(shù)據(jù)總量變得越來越龐大。在大數(shù)據(jù)及人工智能的背景下,音頻場景識別技術(shù)可應(yīng)用的領(lǐng)域越來越廣泛,其重要性不言而喻。音頻場景識別本質(zhì)上是對聲音信號中包含的聲音特征及聲學事件進行感知,并加以處理和分析,從而對音頻信號進行分類。聲學特征的選擇直接影響分類結(jié)果的好壞,因此選擇合適的聲學特征尤其關(guān)鍵。梅爾頻率倒譜系數(shù)(MEL Frequency Cepstrum Coefficient,MFCC)能夠模擬人耳對聲音處理的特質(zhì),計算方面較其他聲學特征更容易,能夠抓取信號中具有辨識度的部分。因此,在有關(guān)音頻識別的分類任務(wù)中,MFCC的抗干擾能力優(yōu)于其他聲學特征。近年來對于人工智能的研究漸漸成熟,深度學習技術(shù)飛速發(fā)展,在模式識別、機器學習等領(lǐng)域取得了革命性的突破,使得越來越多的人投身有關(guān)深度學習的研究。深度神經(jīng)網(wǎng)絡(luò)是深度學習當中的一個重要研究方向,相較于淺層神經(jīng)網(wǎng)絡(luò),其擁有更復雜的網(wǎng)絡(luò)結(jié)構(gòu),更強大的運算組合能力,更細致的特征分析能力。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)采用深度學習構(gòu)架,是深度神經(jīng)網(wǎng)絡(luò)中的一種經(jīng)典網(wǎng)絡(luò)模型,具有權(quán)值共享、局部連接等特性。這使得卷積神經(jīng)網(wǎng)絡(luò)在訓練過程中所需要學習的參數(shù)更少、網(wǎng)絡(luò)節(jié)點更少,降低了網(wǎng)絡(luò)復雜度,減少計算開銷。卷積神經(jīng)網(wǎng)絡(luò)具有出色的特征提取能力,由于特有的網(wǎng)絡(luò)結(jié)構(gòu),其抗畸變能力更強,具有輸入不變性,在分類任務(wù)中表現(xiàn)尤其出色。本課題選用MFCC作為場景音頻所提取的聲學特征,利用CNN在特征提取及分類方面的優(yōu)越性能對聲學特征進一步抽取和分析,得到更加高級、抽象的特征,并對其進行分類,達到提升分類準確率的目的。本文主要工作如下:(1)對音頻場景識別技術(shù)、深度學習、聲學特征等方面展開深入調(diào)研,整理并總結(jié)各領(lǐng)域國內(nèi)外發(fā)展現(xiàn)狀,對深度學習及音頻場景識別技術(shù)的發(fā)展歷程、聲學特征的分類及其特點進行了詳細介紹。(2)闡述了MFCC的原理并給出提取流程,介紹了K近鄰算法(K-Neighbor Nearest,KNN)的理論基礎(chǔ)及分類流程,設(shè)計并搭建了使用KNN作為分類器的基線實驗系統(tǒng),調(diào)整重要參數(shù)進行多組對照實驗,得到并分析實驗結(jié)果。(3)介紹了CNN的網(wǎng)絡(luò)結(jié)構(gòu)、計算方式、學習算法及應(yīng)用范圍等。設(shè)計并搭建了基于MFCC和CNN的音頻場景識別系統(tǒng),給出了實驗整體流程及系統(tǒng)中卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)構(gòu)架。首先,對場景音頻進行聲學特征的提取,將聲學特征數(shù)據(jù)集分為訓練樣本集及測試樣本集兩類。接下來利用訓練樣本集對卷積神經(jīng)網(wǎng)絡(luò)進行訓練,使網(wǎng)絡(luò)訓練至收斂,使權(quán)值等參數(shù)的學習達到最優(yōu)狀態(tài)。最后,使用完成訓練的卷積神經(jīng)網(wǎng)絡(luò)對測試樣本集進行音頻場景的識別,得到場景識別準確率。同時,對CNN中的重要參數(shù):卷積核大小、特征圖數(shù)量、激活函數(shù)等進行調(diào)整,對比在參數(shù)調(diào)整后分類準確率的變化大小及趨勢。通過對兩組實驗結(jié)果的觀察可以得到,基于MFCC和CNN的場景識別系統(tǒng)的整體識別率比基線系統(tǒng)高出1.4個百分點,通過調(diào)整卷積核尺寸、特征圖數(shù)量等參數(shù)后,整體識別率又有小幅度上升。因此,基于MFCC和CNN的實驗系統(tǒng)在整體識別率方面優(yōu)于基線系統(tǒng)。
【圖文】:

過程圖,卷積運算,過程,卷積核


東北石油大學工程碩士專業(yè)學位論文的步長。在一個卷積層中,卷積核的數(shù)量與特征圖數(shù)量是呈正比的,響著特征抽取的全面性和準確性。卷積核的尺寸決定著特征圖的大小,則在待處理圖像上可移動的距離就越近,相對應(yīng)的特征圖就越小。多,,需要多層卷積層來進行操作,那么在前期設(shè)計卷積核大小時,需問題,不宜過大,否則將會影響到特征的提取。步長這一參數(shù)決定了次數(shù)和特征數(shù)量。卷積運算過程如圖 3.1 所示。

過程圖,過程,權(quán)值


圖 3.2 池化過程經(jīng)網(wǎng)絡(luò)的特點經(jīng)網(wǎng)絡(luò)模型相比,卷積神經(jīng)網(wǎng)絡(luò)具有以下特性:神經(jīng)網(wǎng)絡(luò)具有權(quán)值共享的特點,即在同一個神經(jīng)網(wǎng)絡(luò)中,相的任何位置進行卷積操作,均使用相同的網(wǎng)絡(luò)權(quán)值和加性偏同樣的權(quán)值按照特定規(guī)則去卷積輸入矩陣,那么在圖像數(shù)據(jù)度相關(guān)的,因此可以形成更加具有辨識度的局部特征。同時值參數(shù)更少,使計算量得到削減。少的權(quán)值意味著卷積神經(jīng)少的訓練數(shù)據(jù)集進行訓練,就可以達到相同的效果,適用連接是卷積神經(jīng)網(wǎng)絡(luò)的另一個特性。與其他深度網(wǎng)絡(luò)模型一神經(jīng)元需要和隱含層的神經(jīng)元連接,但并不是將所有輸入神行全連接,而是僅在圖像的某個局部區(qū)域進行部分連接,這感知域。局部連接的方式在圖像處理操作上具有獨特的局部區(qū)域特征值相對于其他相鄰區(qū)域具有相似性和關(guān)聯(lián)性,因
【學位授予單位】:東北石油大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:TP18;TN912.34

【參考文獻】

相關(guān)期刊論文 前5條

1 胡正平;陳俊嶺;王蒙;趙淑歡;;卷積神經(jīng)網(wǎng)絡(luò)分類模型在模式識別中的新進展[J];燕山大學學報;2015年04期

2 崔璨;袁英才;;窗函數(shù)在信號處理中的應(yīng)用[J];北京印刷學院學報;2014年04期

3 毛青春;徐分亮;;窗函數(shù)及其應(yīng)用[J];中國水運(學術(shù)版);2007年02期

4 于明;袁玉倩;董浩;王哲;;一種基于MFCC和LPCC的文本相關(guān)說話人識別方法[J];計算機應(yīng)用;2006年04期

5 宋博,須德;使用支持向量機進行音頻精彩場景的識別提取[J];微計算機應(yīng)用;2004年03期

相關(guān)會議論文 前1條

1 姜洪臣;梁偉;張樹武;徐波;;音頻場景分類的音頻特征提取和分析[A];第八屆全國人機語音通訊學術(shù)會議論文集[C];2005年

相關(guān)碩士學位論文 前5條

1 彭凡凡;基于多深度模型集成的音頻場景分類方法研究[D];哈爾濱工業(yè)大學;2017年

2 高越;量子K近鄰算法研究[D];東南大學;2015年

3 李曉普;基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分類[D];大連理工大學;2015年

4 周成豪;基于概率潛在語義分析的音頻場景識別方法[D];哈爾濱工業(yè)大學;2013年

5 王公友;基于內(nèi)容的音頻分析與場景識別[D];南京大學;2013年



本文編號:2667918

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/wltx/2667918.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶6386d***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com