弱標(biāo)簽環(huán)境下基于多尺度注意力融合的聲音識別檢測
發(fā)布時間:2021-10-24 17:28
目前大多數(shù)聲音識別檢測的研究都是基于強標(biāo)簽數(shù)據(jù)集的,但在真實環(huán)境的聲音識別與檢測任務(wù)中,音頻標(biāo)簽不完整并且含有大量噪聲,使得獲取強標(biāo)簽音頻數(shù)據(jù)比較困難,進而影響對聲音的準(zhǔn)確識別與檢測。為此,在卷積循環(huán)神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)上,提出了一種多尺度注意力融合機制。該機制使用注意力門控單元,在降低聲音時頻圖特征中噪聲影響的同時,能夠更多地利用有效特征。同時,通過結(jié)合多個尺寸的卷積核進行特征融合,進一步提升對聲音特征的有效提取。此外,采用一種結(jié)合幀檢測結(jié)果的加權(quán)法對聲音信號進行識別。最后,在弱標(biāo)簽環(huán)境下,從AudioSet數(shù)據(jù)庫中選取一個包含17種城市交通工具聲音的弱標(biāo)簽數(shù)據(jù)集進行檢測識別,所提模型對測試集聲音識別結(jié)果的F1值為58.9%,檢測結(jié)果的F1值為43.7%。結(jié)果表明,在弱標(biāo)簽城市交通工具聲數(shù)據(jù)集下,網(wǎng)絡(luò)模型相比傳統(tǒng)的聲音識別檢測模型具有更高的識別檢測精度;同時,重要性加權(quán)識別方法、多尺度注意力融合方法均可提升模型對聲音識別檢測的精度。
【文章來源】:計算機科學(xué). 2020,47(05)北大核心CSCD
【文章頁數(shù)】:4 頁
【部分圖文】:
CRNN模型結(jié)構(gòu)圖
借鑒inception結(jié)構(gòu)[15]的創(chuàng)新思想,在門控注意力機制的基礎(chǔ)上使用一種多尺度卷積融合方法,融合過程如圖2所示。對CNN中的每一卷積層使用1*1的卷積核,得到輸出Y1:
為了對聲音事件進行檢測,首先將音頻分幀,得到時頻圖。通過CNN提取時頻圖的高級特征并將其輸入RNN,最后將RNN的輸出輸入至FNN,并經(jīng)過sigmoid激活函數(shù)得到每一幀的檢測結(jié)果。聲音事件檢測與識別的整體模型結(jié)構(gòu)如圖3所示。為了更好地識別聲音,首先將每一幀t的識別結(jié)果Pt進行平均,得到識別結(jié)果O:
本文編號:3455679
【文章來源】:計算機科學(xué). 2020,47(05)北大核心CSCD
【文章頁數(shù)】:4 頁
【部分圖文】:
CRNN模型結(jié)構(gòu)圖
借鑒inception結(jié)構(gòu)[15]的創(chuàng)新思想,在門控注意力機制的基礎(chǔ)上使用一種多尺度卷積融合方法,融合過程如圖2所示。對CNN中的每一卷積層使用1*1的卷積核,得到輸出Y1:
為了對聲音事件進行檢測,首先將音頻分幀,得到時頻圖。通過CNN提取時頻圖的高級特征并將其輸入RNN,最后將RNN的輸出輸入至FNN,并經(jīng)過sigmoid激活函數(shù)得到每一幀的檢測結(jié)果。聲音事件檢測與識別的整體模型結(jié)構(gòu)如圖3所示。為了更好地識別聲音,首先將每一幀t的識別結(jié)果Pt進行平均,得到識別結(jié)果O:
本文編號:3455679
本文鏈接:http://sikaile.net/kejilunwen/wltx/3455679.html
最近更新
教材專著