當(dāng)前位置：主頁 > 科技論文 > 網(wǎng)絡(luò)通信論文 >

弱標(biāo)簽環(huán)境下基于多尺度注意力融合的聲音識別檢測

發(fā)布時間：2021-10-24 17:28

　　目前大多數(shù)聲音識別檢測的研究都是基于強標(biāo)簽數(shù)據(jù)集的,但在真實環(huán)境的聲音識別與檢測任務(wù)中,音頻標(biāo)簽不完整并且含有大量噪聲,使得獲取強標(biāo)簽音頻數(shù)據(jù)比較困難,進而影響對聲音的準(zhǔn)確識別與檢測。為此,在卷積循環(huán)神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)上,提出了一種多尺度注意力融合機制。該機制使用注意力門控單元,在降低聲音時頻圖特征中噪聲影響的同時,能夠更多地利用有效特征。同時,通過結(jié)合多個尺寸的卷積核進行特征融合,進一步提升對聲音特征的有效提取。此外,采用一種結(jié)合幀檢測結(jié)果的加權(quán)法對聲音信號進行識別。最后,在弱標(biāo)簽環(huán)境下,從AudioSet數(shù)據(jù)庫中選取一個包含17種城市交通工具聲音的弱標(biāo)簽數(shù)據(jù)集進行檢測識別,所提模型對測試集聲音識別結(jié)果的F1值為58.9%,檢測結(jié)果的F1值為43.7%。結(jié)果表明,在弱標(biāo)簽城市交通工具聲數(shù)據(jù)集下,網(wǎng)絡(luò)模型相比傳統(tǒng)的聲音識別檢測模型具有更高的識別檢測精度;同時,重要性加權(quán)識別方法、多尺度注意力融合方法均可提升模型對聲音識別檢測的精度。

【文章來源】：計算機科學(xué). 2020,47(05)北大核心CSCD

【文章頁數(shù)】：4 頁

【部分圖文】：

CRNN模型結(jié)構(gòu)圖

注意力,多尺度,機制,卷積

借鑒inception結(jié)構(gòu)[15]的創(chuàng)新思想,在門控注意力機制的基礎(chǔ)上使用一種多尺度卷積融合方法,融合過程如圖2所示。對CNN中的每一卷積層使用1*1的卷積核,得到輸出Y1:

注意力,機制,聲音,時頻

為了對聲音事件進行檢測,首先將音頻分幀,得到時頻圖。通過CNN提取時頻圖的高級特征并將其輸入RNN,最后將RNN的輸出輸入至FNN,并經(jīng)過sigmoid激活函數(shù)得到每一幀的檢測結(jié)果。聲音事件檢測與識別的整體模型結(jié)構(gòu)如圖3所示。為了更好地識別聲音,首先將每一幀t的識別結(jié)果Pt進行平均,得到識別結(jié)果O:

本文編號：3455679

資料下載

論文發(fā)表

本文鏈接：http://sikaile.net/kejilunwen/wltx/3455679.html

上一篇：基于LoRa組網(wǎng)的多優(yōu)先級時隙分配算法
下一篇：認知無線攜能通信的關(guān)鍵技術(shù)及其研究進展

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

弱標(biāo)簽環(huán)境下基于多尺度注意力融合的聲音識別檢測