基于深度學(xué)習(xí)的聲目標(biāo)識別方法研究
發(fā)布時間:2021-04-22 16:03
聲目標(biāo)識別是聲音信號處理領(lǐng)域的熱點(diǎn)研究課題,致力于通過分析聲音信號中所包含的復(fù)雜特征,識別其中包含的語義信息,最終實(shí)現(xiàn)聲目標(biāo)的識別。聲音作為信息的主要載體之一,聲目標(biāo)的識別可廣泛用于安全監(jiān)管、醫(yī)療監(jiān)護(hù)、生態(tài)系統(tǒng)調(diào)查和反恐防暴等領(lǐng)域。針對復(fù)雜環(huán)境下多種聲音難以得到有效表征和噪聲環(huán)境下聲目標(biāo)的識別較易誤判且易受噪聲變化影響的問題,以ESC10、ESC50和UrbanSound8K三個常用的環(huán)境聲音分類基準(zhǔn)數(shù)據(jù)庫和自建數(shù)據(jù)庫AUDIO-5作為研究對象,進(jìn)行了噪聲環(huán)境下聲信號的表征和識別研究。本文主要研究內(nèi)容和創(chuàng)新性成果如下:(1)大量閱讀并分析整理了聲目標(biāo)識別的國內(nèi)外相關(guān)研究現(xiàn)狀,發(fā)現(xiàn)基于深度學(xué)習(xí)的聲目標(biāo)識別方法往往具有更好的識別性能,對多類別的聲音具有更好的泛化能力。此外,現(xiàn)有的聲信號特征提取方法對聲音的特征表達(dá)還具有較大的局限性。通過研究有效的聲信號特征表達(dá)和深度學(xué)習(xí)方法,尋找更優(yōu)的特征提取方法和結(jié)構(gòu)化網(wǎng)絡(luò)模型并在聲目標(biāo)識別上進(jìn)行實(shí)踐應(yīng)用。(2)針對現(xiàn)實(shí)環(huán)境中不同場景下的背景噪聲差距較大,采用固定閾值的端點(diǎn)檢測常出現(xiàn)噪聲和聲目標(biāo)有效特征混淆從而導(dǎo)致檢測準(zhǔn)確度較低的問題,提出了自適應(yīng)的單參...
【文章來源】:西南科技大學(xué)四川省
【文章頁數(shù)】:58 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
abstract
1 緒論
1.1 研究背景和意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 本文的研究內(nèi)容及組織結(jié)構(gòu)
1.3.1 主要研究內(nèi)容
1.3.2 組織結(jié)構(gòu)
2 聲信號的樣本獲取及預(yù)處理
2.1 聲信號的樣本獲取
2.1.1 公共數(shù)據(jù)庫
2.1.2 自建數(shù)據(jù)庫
2.2 聲信號的預(yù)處理
2.2.1 預(yù)加重
2.2.2 分幀加窗
2.2.3 端點(diǎn)檢測
2.3 本章小結(jié)
3 聲信號的特征參數(shù)提取方法
3.1 概述
3.2 常用時頻特征
3.2.1 對數(shù)梅爾特征
3.2.2 耳蝸圖特征
3.2.3 恒定Q變換特征
3.3 多頻率分辨率特征
3.3.1 基本原理
3.3.2 參數(shù)選擇依據(jù)
3.3.3 實(shí)驗(yàn)結(jié)果及分析
3.4 本章小結(jié)
4 聲目標(biāo)識別的網(wǎng)絡(luò)模型
4.1 概述
4.2 深度可分離卷積
4.3 具有多特征通道的空間注意力網(wǎng)絡(luò)模型
4.3.1 基本原理
4.3.2 網(wǎng)絡(luò)結(jié)構(gòu)
4.4 實(shí)驗(yàn)平臺及網(wǎng)絡(luò)訓(xùn)練參數(shù)設(shè)置
4.5 實(shí)驗(yàn)結(jié)果及分析
4.6 本章小結(jié)
5 聲目標(biāo)識別系統(tǒng)設(shè)計與實(shí)現(xiàn)
5.1 概述
5.2 聲目標(biāo)識別系統(tǒng)總體設(shè)計
5.3 聲目標(biāo)識別硬件與軟件系統(tǒng)
5.3.1 硬件系統(tǒng)
5.3.2 軟件系統(tǒng)及界面展示
5.3.3 仿真模式
5.3.4 學(xué)習(xí)模式
5.3.5 在線模式
5.4 聲目標(biāo)識別測試方案及結(jié)果
5.4.1 仿真模式測試
5.4.2 學(xué)習(xí)模式測試
5.4.3 在線模式測試
5.5 本章小結(jié)
總結(jié)與展望
論文總結(jié)
研究展望
致謝
參考文獻(xiàn)
攻讀碩士學(xué)位期間取得的研究成果
【參考文獻(xiàn)】:
期刊論文
[1]一種時頻平滑的深度神經(jīng)網(wǎng)絡(luò)語音增強(qiáng)方法[J]. 袁文浩,梁春燕,婁迎曦,房超,王志強(qiáng). 西安電子科技大學(xué)學(xué)報. 2019(04)
[2]基于特征遷移的多物種鳥聲識別方法[J]. 劉昊天,姜海燕,舒欣,徐彥,伍艷蓮,郭小清. 數(shù)據(jù)采集與處理. 2017(06)
[3]公共場所典型異常聲音的特征提取[J]. 欒少文,龔衛(wèi)國. 計算機(jī)工程. 2010(07)
[4]基于MFCC和短時能量混合的異常聲音識別算法[J]. 呂霄云,王宏霞. 計算機(jī)應(yīng)用. 2010(03)
本文編號:3154063
【文章來源】:西南科技大學(xué)四川省
【文章頁數(shù)】:58 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
abstract
1 緒論
1.1 研究背景和意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 本文的研究內(nèi)容及組織結(jié)構(gòu)
1.3.1 主要研究內(nèi)容
1.3.2 組織結(jié)構(gòu)
2 聲信號的樣本獲取及預(yù)處理
2.1 聲信號的樣本獲取
2.1.1 公共數(shù)據(jù)庫
2.1.2 自建數(shù)據(jù)庫
2.2 聲信號的預(yù)處理
2.2.1 預(yù)加重
2.2.2 分幀加窗
2.2.3 端點(diǎn)檢測
2.3 本章小結(jié)
3 聲信號的特征參數(shù)提取方法
3.1 概述
3.2 常用時頻特征
3.2.1 對數(shù)梅爾特征
3.2.2 耳蝸圖特征
3.2.3 恒定Q變換特征
3.3 多頻率分辨率特征
3.3.1 基本原理
3.3.2 參數(shù)選擇依據(jù)
3.3.3 實(shí)驗(yàn)結(jié)果及分析
3.4 本章小結(jié)
4 聲目標(biāo)識別的網(wǎng)絡(luò)模型
4.1 概述
4.2 深度可分離卷積
4.3 具有多特征通道的空間注意力網(wǎng)絡(luò)模型
4.3.1 基本原理
4.3.2 網(wǎng)絡(luò)結(jié)構(gòu)
4.4 實(shí)驗(yàn)平臺及網(wǎng)絡(luò)訓(xùn)練參數(shù)設(shè)置
4.5 實(shí)驗(yàn)結(jié)果及分析
4.6 本章小結(jié)
5 聲目標(biāo)識別系統(tǒng)設(shè)計與實(shí)現(xiàn)
5.1 概述
5.2 聲目標(biāo)識別系統(tǒng)總體設(shè)計
5.3 聲目標(biāo)識別硬件與軟件系統(tǒng)
5.3.1 硬件系統(tǒng)
5.3.2 軟件系統(tǒng)及界面展示
5.3.3 仿真模式
5.3.4 學(xué)習(xí)模式
5.3.5 在線模式
5.4 聲目標(biāo)識別測試方案及結(jié)果
5.4.1 仿真模式測試
5.4.2 學(xué)習(xí)模式測試
5.4.3 在線模式測試
5.5 本章小結(jié)
總結(jié)與展望
論文總結(jié)
研究展望
致謝
參考文獻(xiàn)
攻讀碩士學(xué)位期間取得的研究成果
【參考文獻(xiàn)】:
期刊論文
[1]一種時頻平滑的深度神經(jīng)網(wǎng)絡(luò)語音增強(qiáng)方法[J]. 袁文浩,梁春燕,婁迎曦,房超,王志強(qiáng). 西安電子科技大學(xué)學(xué)報. 2019(04)
[2]基于特征遷移的多物種鳥聲識別方法[J]. 劉昊天,姜海燕,舒欣,徐彥,伍艷蓮,郭小清. 數(shù)據(jù)采集與處理. 2017(06)
[3]公共場所典型異常聲音的特征提取[J]. 欒少文,龔衛(wèi)國. 計算機(jī)工程. 2010(07)
[4]基于MFCC和短時能量混合的異常聲音識別算法[J]. 呂霄云,王宏霞. 計算機(jī)應(yīng)用. 2010(03)
本文編號:3154063
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/3154063.html
最近更新
教材專著