基于CRNN模型的弱標簽城市交通工具聲識別檢測
發(fā)布時間:2021-04-10 06:40
為了實現(xiàn)智慧城市、智能交通等關(guān)鍵技術(shù),對城市中交通工具發(fā)出的聲音進行識別檢測變得日益重要。目前大多數(shù)聲音識別檢測的研究都是基于強標簽數(shù)據(jù)集,但獲取強標簽音頻數(shù)據(jù)比較困難,所以我們需要研究如何在弱標簽數(shù)據(jù)集下對城市交通工具聲進行識別檢測。論文從AudioSet數(shù)據(jù)庫中選取了一個包含17種城市交通工具聲的弱標簽數(shù)據(jù)集進行研究,該數(shù)據(jù)集中每一類聲音的樣本數(shù)分布不平衡,而且數(shù)據(jù)集中的音頻樣本存在弱標簽性、多源性的問題。論文將圍繞這三個問題,就如何在弱標簽數(shù)據(jù)集下提升對城市交通工具聲的識別檢測精度展開研究。數(shù)據(jù)集中聲音的弱標簽性,使得傳統(tǒng)的聲音識別檢測模型不再適用。論文使用聲音的對數(shù)梅爾頻譜系數(shù)(MFSC)組成的時頻圖作為特征,并且針對研究任務(wù)的特點搭建了一種卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(CRNN)作為聲音識別檢測系統(tǒng)的基線模型,該模型由卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)組合而成,可以更充分地利用聲音特征,適用于弱標簽聲音的識別檢測任務(wù)。針對數(shù)據(jù)集中每一類聲音樣本分布不平衡的問題,論文使用了一種按比例選取訓(xùn)練批次數(shù)據(jù)的方法,該方法可以使模型充分學(xué)習(xí)到每一類聲音的特征,緩解了模型訓(xùn)練時的有偏性問題...
【文章來源】:西安電子科技大學(xué)陜西省 211工程院校 教育部直屬院校
【文章頁數(shù)】:93 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
符號對照表
縮略語對照表
第一章 緒論
1.1 研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 研究內(nèi)容及存在問題
1.4 論文結(jié)構(gòu)安排
第二章 聲音識別檢測相關(guān)理論
2.1 支持向量機
2.1.1 SVM分類思想
2.1.2 核函數(shù)
2.1.3 SVM多分類
2.2 多層感知機
2.2.1 前向傳播
2.2.2 反向傳播
2.3 卷積神經(jīng)網(wǎng)絡(luò)
2.3.1 卷積與池化
2.3.2 CNN反向傳播
2.4 循環(huán)神經(jīng)網(wǎng)絡(luò)
2.4.1 RNN前向傳播
2.4.2 RNN反向傳播
2.5 本章小結(jié)
第三章 數(shù)據(jù)處理與特征提取
3.1 數(shù)據(jù)集介紹
3.2 數(shù)據(jù)預(yù)處理和特征提取
3.2.1 MFSC特征提取
3.2.2 MFCC特征提取
3.3 仿真實驗
3.3.1 特征選取
3.3.2 識別任務(wù)評估指標
3.3.3 模型參數(shù)設(shè)置
3.3.4 仿真結(jié)果對比及分析
3.4 本章小結(jié)
第四章 聲音識別檢測模型
4.1 卷積循環(huán)神經(jīng)網(wǎng)絡(luò)
4.1.1 CNN部分
4.1.2 RNN部分
4.2 識別與檢測
4.2.1 傳統(tǒng)聲音識別檢測方法
4.2.2 重要性加權(quán)識別方法
4.3 仿真實驗
4.3.1 數(shù)據(jù)平衡方法
4.3.2 模型結(jié)構(gòu)及參數(shù)設(shè)置
4.3.3 檢測任務(wù)評估指標
4.3.4 仿真結(jié)果及對比分析
4.4 本章小結(jié)
第五章 多尺度注意力融合和多滑窗分幀
5.1 多尺度注意力融合
5.1.1 注意力門控機制
5.1.2 多尺度卷積融合
5.2 多滑窗分幀
5.3 仿真實驗
5.3.1 模型結(jié)構(gòu)及參數(shù)設(shè)置
5.3.2 多模型融合
5.3.3 仿真結(jié)果及對比分析
5.4 本章小結(jié)
第六章 總結(jié)與展望
6.1 工作總結(jié)
6.2 研究展望
參考文獻
致謝
作者簡介
【參考文獻】:
期刊論文
[1]基于EEMD的異常聲音多類識別算法[J]. 韋娟,岳鳳麗,仇鵬,寧方立. 華中科技大學(xué)學(xué)報(自然科學(xué)版). 2018(07)
本文編號:3129158
【文章來源】:西安電子科技大學(xué)陜西省 211工程院校 教育部直屬院校
【文章頁數(shù)】:93 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
符號對照表
縮略語對照表
第一章 緒論
1.1 研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 研究內(nèi)容及存在問題
1.4 論文結(jié)構(gòu)安排
第二章 聲音識別檢測相關(guān)理論
2.1 支持向量機
2.1.1 SVM分類思想
2.1.2 核函數(shù)
2.1.3 SVM多分類
2.2 多層感知機
2.2.1 前向傳播
2.2.2 反向傳播
2.3 卷積神經(jīng)網(wǎng)絡(luò)
2.3.1 卷積與池化
2.3.2 CNN反向傳播
2.4 循環(huán)神經(jīng)網(wǎng)絡(luò)
2.4.1 RNN前向傳播
2.4.2 RNN反向傳播
2.5 本章小結(jié)
第三章 數(shù)據(jù)處理與特征提取
3.1 數(shù)據(jù)集介紹
3.2 數(shù)據(jù)預(yù)處理和特征提取
3.2.1 MFSC特征提取
3.2.2 MFCC特征提取
3.3 仿真實驗
3.3.1 特征選取
3.3.2 識別任務(wù)評估指標
3.3.3 模型參數(shù)設(shè)置
3.3.4 仿真結(jié)果對比及分析
3.4 本章小結(jié)
第四章 聲音識別檢測模型
4.1 卷積循環(huán)神經(jīng)網(wǎng)絡(luò)
4.1.1 CNN部分
4.1.2 RNN部分
4.2 識別與檢測
4.2.1 傳統(tǒng)聲音識別檢測方法
4.2.2 重要性加權(quán)識別方法
4.3 仿真實驗
4.3.1 數(shù)據(jù)平衡方法
4.3.2 模型結(jié)構(gòu)及參數(shù)設(shè)置
4.3.3 檢測任務(wù)評估指標
4.3.4 仿真結(jié)果及對比分析
4.4 本章小結(jié)
第五章 多尺度注意力融合和多滑窗分幀
5.1 多尺度注意力融合
5.1.1 注意力門控機制
5.1.2 多尺度卷積融合
5.2 多滑窗分幀
5.3 仿真實驗
5.3.1 模型結(jié)構(gòu)及參數(shù)設(shè)置
5.3.2 多模型融合
5.3.3 仿真結(jié)果及對比分析
5.4 本章小結(jié)
第六章 總結(jié)與展望
6.1 工作總結(jié)
6.2 研究展望
參考文獻
致謝
作者簡介
【參考文獻】:
期刊論文
[1]基于EEMD的異常聲音多類識別算法[J]. 韋娟,岳鳳麗,仇鵬,寧方立. 華中科技大學(xué)學(xué)報(自然科學(xué)版). 2018(07)
本文編號:3129158
本文鏈接:http://sikaile.net/kejilunwen/daoluqiaoliang/3129158.html