美爾譜系數(shù)與卷積神經(jīng)網(wǎng)絡相組合的環(huán)境聲音識別方法
發(fā)布時間:2021-02-11 00:34
通過對復雜環(huán)境下聲音識別技術進行研究,本文提出了美爾譜系數(shù)(MFSC)與卷積神經(jīng)網(wǎng)絡(CNN)相組合的環(huán)境聲音識別方法。對聲音事件提取其MFSC特征,將特征參數(shù)作為輸入送入設計好的CNN模型中對聲音事件進行分類。實驗數(shù)據(jù)集采用ESC-10,將構建的卷積神經(jīng)網(wǎng)絡模型與隨機森林、支持向量機(SVM)、深度神經(jīng)網(wǎng)絡(DNN)及DCASE比賽中常用的三種識別模型進行對比實驗。實驗結果表明,在相同數(shù)據(jù)集下,本文所設計的美爾譜系數(shù)與卷積神經(jīng)網(wǎng)絡相組合的環(huán)境聲音識別方法相較傳統(tǒng)的聲音識別方法在識別率上分別有13.1%,18.3%,15.7%的提升,相較于DCASE比賽中的三種常用識別模型,本文所設計識別模型識別率及識別效率均有明顯的優(yōu)勢。
【文章來源】:信號處理. 2020,36(06)北大核心
【文章頁數(shù)】:9 頁
【部分圖文】:
美爾譜系數(shù)與卷積神經(jīng)網(wǎng)絡相組合的
MFSC特征提取過程
(5)輸出層將神經(jīng)網(wǎng)絡模型訓練或測試的結果輸出,使模型與數(shù)據(jù)直觀化,同時可以根據(jù)結果通過調整模型參數(shù)、更換損失函數(shù)、調整優(yōu)化器和模型結構等手段來重新構建訓練模型。本文所構建的模型結構如圖3所示,包括卷積層、池化層、全局平均池化和全連接層。提取的MFSC特征參數(shù)作為輸入層的輸入,將其轉化為矩陣,使用卷積核對其進行卷積,從而得到卷積之后的特征。本模型中第l層卷積層的第i個特征圖是x i l ,前一層卷積層的第j個特征圖為x j l-1 。x i l 的計算如公式(6)所示:
本文編號:3028235
【文章來源】:信號處理. 2020,36(06)北大核心
【文章頁數(shù)】:9 頁
【部分圖文】:
美爾譜系數(shù)與卷積神經(jīng)網(wǎng)絡相組合的
MFSC特征提取過程
(5)輸出層將神經(jīng)網(wǎng)絡模型訓練或測試的結果輸出,使模型與數(shù)據(jù)直觀化,同時可以根據(jù)結果通過調整模型參數(shù)、更換損失函數(shù)、調整優(yōu)化器和模型結構等手段來重新構建訓練模型。本文所構建的模型結構如圖3所示,包括卷積層、池化層、全局平均池化和全連接層。提取的MFSC特征參數(shù)作為輸入層的輸入,將其轉化為矩陣,使用卷積核對其進行卷積,從而得到卷積之后的特征。本模型中第l層卷積層的第i個特征圖是x i l ,前一層卷積層的第j個特征圖為x j l-1 。x i l 的計算如公式(6)所示:
本文編號:3028235
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/3028235.html
最近更新
教材專著