可變形特征圖殘差網絡用于城市聲音識別
發(fā)布時間:2021-02-21 13:19
針對城市聲音識別過程中時頻圖像特征提取較困難的問題,提出一種可變形特征圖殘差網絡用于城市聲音識別.首先設計可變形特征圖殘差模塊,包括偏移層與卷積層.偏移層將輸入特征圖的像素點移位,移位后的特征圖通過快捷連接與卷積層提取到的特征圖疊加,使網絡集中在感興趣的特征圖區(qū)域采樣,并向下級網絡傳遞移位后特征圖信息;其次設計可變形卷積殘差網絡;最后將該網絡提取的特征與城市聲音的梅爾倒譜系數融合,經壓縮激勵模塊重標定后輸入全連接層分類.在城市聲音數據集上進行了實驗,結果表明,與卷積神經網絡的方法相比,該方法用于城市聲音識別準確率提高5%以上.
【文章來源】:計算機輔助設計與圖形學學報. 2020,32(11)北大核心
【文章頁數】:10 頁
【部分圖文】:
0 可變形特征圖殘差網絡識別城市聲音流程圖
實際獲取的城市聲音信噪比未知,通?煞譃楦咝旁氡群偷托旁氡.根據式(1)可得到典型城市聲音對數梅爾譜圖如圖1所示,分圖左右部分分別為較高信噪比與較低信噪比實例.可以看到,雖然信噪比不同,但城市聲音對數梅爾譜圖在一定程度上具有類似的紋理,如圖1l的尖叫聲,圖1m的玻璃破碎聲.但低信噪比下的對數梅爾譜圖的紋理往往更加豐富,如圖1a的空調外機聲,圖1b的小車鳴笛聲,圖1d的狗叫聲,圖1f的發(fā)動機空轉聲及圖1j的街邊音樂聲;從圖1i的汽笛聲對數梅爾譜圖可以看到,它具有類似的條形紋理,顏色十分明亮,這表明對應頻率成分能量高.寬度不固定的橫向條紋代表聲音的頻率成分隨時間變化,寬度不固定的縱向條紋則意味不同頻率成分持續(xù)時間不同;圖1b的小車鳴笛聲,圖1e的鉆孔聲對數梅爾譜圖,可以觀察到明顯的曲線,而曲線灰度值較大,代表聲音的能量高度集中在少數頻率成分上;圖1a的空調外機聲,圖1c的孩子玩耍聲,圖1d的狗叫聲,圖1f的發(fā)動機空轉聲,圖1h的手提鉆聲,圖1j的街邊音樂聲以及圖1l的尖叫聲的對數梅爾譜圖具有明亮顏色的區(qū)域較大,代表城市聲音頻率成分多,與前2類聲音相比,能量分布較分散,紋理豐富,并且能量相對集中區(qū)域結構復雜,也就是城市聲音頻率成分隨時間變化較大;圖1g的槍聲,圖1k的爆炸聲,圖1m的玻璃破碎聲的對數梅爾譜圖中某些區(qū)域能量相對集中,一般為區(qū)域中心顏色十分明亮,向邊緣方向逐漸變灰暗,其輪廓邊緣呈現不規(guī)則的特點,表明該類城市聲音各頻率成分能量衰減速度不同.此外,時間窗長度和滑動步長等參數將影響城市聲音轉換而成的對數梅爾譜圖,然而由于時間窗與滑動距離十分短,對數梅爾譜圖的區(qū)別較小.2 可變形特征圖殘差網絡
近年來,CNN在圖像處理中表現出優(yōu)秀的性能[20-21].Res Net[16]是CNN的經典結構,能較好地解決隨著CNN深度增加,性能迅速下降的問題.Res Net主要由殘差模塊堆疊而成,殘差模塊如圖2所示,其中,identity x稱為快捷連接,x為殘差模塊的輸入;Convolution為卷積層,x經過2個卷積層后的輸出為與快捷連接疊加后輸出F殘差模塊輸出的特征圖大小與輸入x相同,利用2層卷積層擬合輸入與輸出間的殘差,使得殘差模塊有較強的學習能力.因此,Res Net是目前用于自然圖像特征提取很好的選擇.城市聲音對數梅爾譜圖與自然圖像特性截然不同.如自然圖像的背景色彩對比強烈,目標輪廓邊緣清晰,具有一定的規(guī)律.由于背景噪聲的干擾,城市聲音對數梅爾譜圖的能量相對集中區(qū)域即包含目標聲音與背景噪聲信息.相較于自然圖像,對數梅爾譜圖主要體現為紋理豐富,能量集中區(qū)域幾何結構復雜,輪廓邊緣不規(guī)則,類別之間差異較小.因此,傳統(tǒng)的Res Net提取自然圖像特征的方法并不能很好地處理城市聲音對數梅爾譜圖特征提取問題.其主要原因是,殘差模塊卷積層中卷積核大小、形狀和采樣位置固定,在提取城市聲音對數梅爾譜圖特征時,這種固定的卷積核單元往往無法集中在圖像感興趣的區(qū)域采樣.圖3中,黑色的點代表傳統(tǒng)卷積核的采樣的像素點位置,由于傳統(tǒng)卷積核采樣點形狀為固定的矩形,因此,被采樣的像素點形狀也為矩形.圖3a第3行像素點處于較灰暗的區(qū)域,圖3b中只有第2行2個像素點及第3行一個像素點處于較明亮的區(qū)域.同理,圖3c和圖3d采樣的像素點極易處于城市聲音對數梅爾譜圖灰度值低且變化較小的區(qū)域,這些區(qū)域較灰暗,信號的頻率成分極少,無法反映信號的時頻特性,即此時卷積核在譜圖無關緊要或不感興趣的區(qū)域采樣,自然提取的特征信息較少,網絡的特征描述能力較差.
【參考文獻】:
期刊論文
[1]改進的ESMD用于公共場所異常聲音特征提取[J]. 李偉紅,田真真,龔衛(wèi)國,王偉冰. 儀器儀表學報. 2016(11)
本文編號:3044405
【文章來源】:計算機輔助設計與圖形學學報. 2020,32(11)北大核心
【文章頁數】:10 頁
【部分圖文】:
0 可變形特征圖殘差網絡識別城市聲音流程圖
實際獲取的城市聲音信噪比未知,通?煞譃楦咝旁氡群偷托旁氡.根據式(1)可得到典型城市聲音對數梅爾譜圖如圖1所示,分圖左右部分分別為較高信噪比與較低信噪比實例.可以看到,雖然信噪比不同,但城市聲音對數梅爾譜圖在一定程度上具有類似的紋理,如圖1l的尖叫聲,圖1m的玻璃破碎聲.但低信噪比下的對數梅爾譜圖的紋理往往更加豐富,如圖1a的空調外機聲,圖1b的小車鳴笛聲,圖1d的狗叫聲,圖1f的發(fā)動機空轉聲及圖1j的街邊音樂聲;從圖1i的汽笛聲對數梅爾譜圖可以看到,它具有類似的條形紋理,顏色十分明亮,這表明對應頻率成分能量高.寬度不固定的橫向條紋代表聲音的頻率成分隨時間變化,寬度不固定的縱向條紋則意味不同頻率成分持續(xù)時間不同;圖1b的小車鳴笛聲,圖1e的鉆孔聲對數梅爾譜圖,可以觀察到明顯的曲線,而曲線灰度值較大,代表聲音的能量高度集中在少數頻率成分上;圖1a的空調外機聲,圖1c的孩子玩耍聲,圖1d的狗叫聲,圖1f的發(fā)動機空轉聲,圖1h的手提鉆聲,圖1j的街邊音樂聲以及圖1l的尖叫聲的對數梅爾譜圖具有明亮顏色的區(qū)域較大,代表城市聲音頻率成分多,與前2類聲音相比,能量分布較分散,紋理豐富,并且能量相對集中區(qū)域結構復雜,也就是城市聲音頻率成分隨時間變化較大;圖1g的槍聲,圖1k的爆炸聲,圖1m的玻璃破碎聲的對數梅爾譜圖中某些區(qū)域能量相對集中,一般為區(qū)域中心顏色十分明亮,向邊緣方向逐漸變灰暗,其輪廓邊緣呈現不規(guī)則的特點,表明該類城市聲音各頻率成分能量衰減速度不同.此外,時間窗長度和滑動步長等參數將影響城市聲音轉換而成的對數梅爾譜圖,然而由于時間窗與滑動距離十分短,對數梅爾譜圖的區(qū)別較小.2 可變形特征圖殘差網絡
近年來,CNN在圖像處理中表現出優(yōu)秀的性能[20-21].Res Net[16]是CNN的經典結構,能較好地解決隨著CNN深度增加,性能迅速下降的問題.Res Net主要由殘差模塊堆疊而成,殘差模塊如圖2所示,其中,identity x稱為快捷連接,x為殘差模塊的輸入;Convolution為卷積層,x經過2個卷積層后的輸出為與快捷連接疊加后輸出F殘差模塊輸出的特征圖大小與輸入x相同,利用2層卷積層擬合輸入與輸出間的殘差,使得殘差模塊有較強的學習能力.因此,Res Net是目前用于自然圖像特征提取很好的選擇.城市聲音對數梅爾譜圖與自然圖像特性截然不同.如自然圖像的背景色彩對比強烈,目標輪廓邊緣清晰,具有一定的規(guī)律.由于背景噪聲的干擾,城市聲音對數梅爾譜圖的能量相對集中區(qū)域即包含目標聲音與背景噪聲信息.相較于自然圖像,對數梅爾譜圖主要體現為紋理豐富,能量集中區(qū)域幾何結構復雜,輪廓邊緣不規(guī)則,類別之間差異較小.因此,傳統(tǒng)的Res Net提取自然圖像特征的方法并不能很好地處理城市聲音對數梅爾譜圖特征提取問題.其主要原因是,殘差模塊卷積層中卷積核大小、形狀和采樣位置固定,在提取城市聲音對數梅爾譜圖特征時,這種固定的卷積核單元往往無法集中在圖像感興趣的區(qū)域采樣.圖3中,黑色的點代表傳統(tǒng)卷積核的采樣的像素點位置,由于傳統(tǒng)卷積核采樣點形狀為固定的矩形,因此,被采樣的像素點形狀也為矩形.圖3a第3行像素點處于較灰暗的區(qū)域,圖3b中只有第2行2個像素點及第3行一個像素點處于較明亮的區(qū)域.同理,圖3c和圖3d采樣的像素點極易處于城市聲音對數梅爾譜圖灰度值低且變化較小的區(qū)域,這些區(qū)域較灰暗,信號的頻率成分極少,無法反映信號的時頻特性,即此時卷積核在譜圖無關緊要或不感興趣的區(qū)域采樣,自然提取的特征信息較少,網絡的特征描述能力較差.
【參考文獻】:
期刊論文
[1]改進的ESMD用于公共場所異常聲音特征提取[J]. 李偉紅,田真真,龔衛(wèi)國,王偉冰. 儀器儀表學報. 2016(11)
本文編號:3044405
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/3044405.html