基于稀疏表示和深層神經(jīng)網(wǎng)絡的音頻場景識別研究
發(fā)布時間:2023-04-10 05:41
音頻場景識別是指通過對環(huán)境音的理解來判斷所處的場景,其在現(xiàn)實生活中具有廣闊的應用前景,可以廣泛用于多媒體檢索、智能家居、智能機器人、安全監(jiān)控、智能終端等領域,因而具有重要的研究價值。本文基于稀疏表示和深層神經(jīng)網(wǎng)絡對音頻場景識別展開研究,提出了四種融合方法進行音頻場景識別,具體研究內(nèi)容包括:1)提出了一種前端特征融合方法對于音頻片段內(nèi)的各個音頻幀,前端特征融合方法將基于稀疏表示求得的得分值特征和log-mel頻譜特征進行融合,將特征融合后的音頻片段作為DCNN網(wǎng)絡的輸入,通過DCNN網(wǎng)絡進行音頻場景識別;谙∈璞硎镜牡梅痔卣鲝囊纛l基空間的角度反映了場景類的分布,而log-mel頻譜特征則反映了音頻的聲學特征,這兩組完全不同的特征從不同的角度挖掘音頻信息,兩類特征互補,使得融合后的特征信息量大于每一類特征的單一信息量。2)提出了一種后端特征融合方法后端特征融合方法分別將基于稀疏表示特征求得的得分特征和log-mel頻譜特征作為DCNN網(wǎng)絡的輸入,由DCNN網(wǎng)絡提取深度特征,最后將兩種深度特征融合后通過DCNN網(wǎng)絡進行音頻場景識別。后端特征融合方法的識別性能優(yōu)于融合前的識別方法,且其性能整...
【文章頁數(shù)】:66 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 課題研究背景及意義
1.2 課題研究現(xiàn)狀
1.3 本文的主要工作及內(nèi)容安排
第二章 基于深層神經(jīng)網(wǎng)絡的音頻場景識別
2.1 CNN網(wǎng)絡
2.2 LSTM網(wǎng)絡
2.3 實驗
2.3.1 實驗數(shù)據(jù)及實驗設置
2.3.2 實驗結(jié)果及分析
2.4 本章小節(jié)
第三章 基于稀疏表示和深層神經(jīng)網(wǎng)絡的音頻場景識別
3.1 稀疏表示算法介紹
3.2 本文提出的融合算法
3.2.1 前端特征融合方法
3.2.2 后端特征融合方法
3.2.3 決策值融合方法1
3.2.4 決策值融合方法2
3.3 實驗
3.3.1 實驗數(shù)據(jù)及實驗設置
3.3.2 實驗結(jié)果及分析
3.4 本章小節(jié)
第四章 總結(jié)與展望
參考文獻
攻讀學位期間發(fā)表的學術(shù)成果
致謝
本文編號:3788432
【文章頁數(shù)】:66 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 課題研究背景及意義
1.2 課題研究現(xiàn)狀
1.3 本文的主要工作及內(nèi)容安排
第二章 基于深層神經(jīng)網(wǎng)絡的音頻場景識別
2.1 CNN網(wǎng)絡
2.2 LSTM網(wǎng)絡
2.3 實驗
2.3.1 實驗數(shù)據(jù)及實驗設置
2.3.2 實驗結(jié)果及分析
2.4 本章小節(jié)
第三章 基于稀疏表示和深層神經(jīng)網(wǎng)絡的音頻場景識別
3.1 稀疏表示算法介紹
3.2 本文提出的融合算法
3.2.1 前端特征融合方法
3.2.2 后端特征融合方法
3.2.3 決策值融合方法1
3.2.4 決策值融合方法2
3.3 實驗
3.3.1 實驗數(shù)據(jù)及實驗設置
3.3.2 實驗結(jié)果及分析
3.4 本章小節(jié)
第四章 總結(jié)與展望
參考文獻
攻讀學位期間發(fā)表的學術(shù)成果
致謝
本文編號:3788432
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/3788432.html
最近更新
教材專著