結(jié)合深度卷積循環(huán)網(wǎng)絡(luò)和時(shí)頻注意力機(jī)制的單通道語(yǔ)音增強(qiáng)算法
發(fā)布時(shí)間:2021-03-03 09:04
語(yǔ)音增強(qiáng)的目的是從帶有噪聲的語(yǔ)音中分離出純凈語(yǔ)音,實(shí)現(xiàn)語(yǔ)音的質(zhì)量和可懂度的提高。近年來(lái),采用有監(jiān)督學(xué)習(xí)的深度神經(jīng)網(wǎng)絡(luò)已經(jīng)成為了語(yǔ)音增強(qiáng)的主流方法。卷積循環(huán)網(wǎng)絡(luò)是一種新型的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),包含編碼層、中間層、解碼層三個(gè)主要模塊,其已經(jīng)在語(yǔ)音增強(qiáng)任務(wù)中取得了較好的效果。時(shí)頻注意力機(jī)制是一個(gè)由數(shù)個(gè)相連的卷積層通過(guò)跳躍連接構(gòu)成的簡(jiǎn)單網(wǎng)絡(luò)模塊,在訓(xùn)練過(guò)程中可以計(jì)算語(yǔ)音幅度譜特征圖的非鄰域相關(guān)性,從而更加有利于網(wǎng)絡(luò)關(guān)注到語(yǔ)音的諧波特性。本文將時(shí)頻注意力機(jī)制引入卷積循環(huán)網(wǎng)絡(luò)的編碼層和解碼層中,實(shí)驗(yàn)結(jié)果表明,在不同信噪比條件下,該方法相比基線卷積循環(huán)網(wǎng)絡(luò)能夠進(jìn)一步提高語(yǔ)音質(zhì)量和可懂度,且增強(qiáng)后的語(yǔ)音信號(hào)可以保留更多的語(yǔ)譜諧波信息,實(shí)現(xiàn)更低程度的語(yǔ)音失真。
【文章來(lái)源】:信號(hào)處理. 2020,36(06)北大核心
【文章頁(yè)數(shù)】:8 頁(yè)
【部分圖文】:
卷積循環(huán)網(wǎng)絡(luò)模型流程圖
So=Satten?S′ (3)各層輸入的張量維度如圖所示,C表示特征圖的通道數(shù),可以通過(guò)卷積層卷積核的數(shù)量進(jìn)行調(diào)整;T表示輸入語(yǔ)譜特征圖的幀數(shù),即時(shí)間維;F則表示輸入語(yǔ)譜特征的頻點(diǎn)數(shù),即頻率維。
圖3為結(jié)合時(shí)頻注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)的主要結(jié)構(gòu)流程圖,可以劃分為四部分。其中①,③表示加載在CRNN前后的時(shí)頻注意力模塊,其結(jié)構(gòu)和2.2節(jié)所述保持一致,并添加了二維卷積層以進(jìn)行數(shù)據(jù)預(yù)處理和后處理,并通過(guò)補(bǔ)零(same-padding)操作使得特征圖在通過(guò)卷積層前后維度保持一致。②表示2.1節(jié)所述卷積循環(huán)網(wǎng)絡(luò)模塊,圖中對(duì)編碼層和解碼層做了一定的簡(jiǎn)化。主要網(wǎng)絡(luò)模塊的輸入、輸出維度和超參數(shù)設(shè)置如表1所示。表1 網(wǎng)絡(luò)特征維度及參數(shù)設(shè)置Tab.1 Feature size and parameter settings 網(wǎng)絡(luò)層 輸入維度 輸出維度 超參數(shù) Conv2d T×161 1×T×161 k=5×5,s=(1,1),c=1 T-F_Attention_In 1×T×161 1×T×161 1×1conv:k=1×1, s=1, c=4; conv1d: k=5, c=1 CRNN編碼層 1×T×161 256×T×4 k:=2×5, s=(1, 2), c=16, 32, 64, 128, 256 維度重整(Reshape) 256×T×4 T×1024 — LSTM T×1024 T×1024 1024 維度重整(Reshape) T×1024 256×T×4 — CRNN解碼層 512×T×4 1×T×161 k=2×5, s=(1, 2), c=128, 64, 32, 16, 1 T-F_Attention_Out 1×T×161 1×T×161 1×1conv: k=1×1, s=1, c=2; conv1d: k=5, c=1 Conv2d 1×T×161 T×161 k=1×1, s=(1, 1), c=1
【參考文獻(xiàn)】:
期刊論文
[1]基于深度神經(jīng)網(wǎng)絡(luò)的單通道語(yǔ)音增強(qiáng)方法回顧[J]. 鮑長(zhǎng)春,項(xiàng)揚(yáng). 信號(hào)處理. 2019(12)
本文編號(hào):3061002
【文章來(lái)源】:信號(hào)處理. 2020,36(06)北大核心
【文章頁(yè)數(shù)】:8 頁(yè)
【部分圖文】:
卷積循環(huán)網(wǎng)絡(luò)模型流程圖
So=Satten?S′ (3)各層輸入的張量維度如圖所示,C表示特征圖的通道數(shù),可以通過(guò)卷積層卷積核的數(shù)量進(jìn)行調(diào)整;T表示輸入語(yǔ)譜特征圖的幀數(shù),即時(shí)間維;F則表示輸入語(yǔ)譜特征的頻點(diǎn)數(shù),即頻率維。
圖3為結(jié)合時(shí)頻注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)的主要結(jié)構(gòu)流程圖,可以劃分為四部分。其中①,③表示加載在CRNN前后的時(shí)頻注意力模塊,其結(jié)構(gòu)和2.2節(jié)所述保持一致,并添加了二維卷積層以進(jìn)行數(shù)據(jù)預(yù)處理和后處理,并通過(guò)補(bǔ)零(same-padding)操作使得特征圖在通過(guò)卷積層前后維度保持一致。②表示2.1節(jié)所述卷積循環(huán)網(wǎng)絡(luò)模塊,圖中對(duì)編碼層和解碼層做了一定的簡(jiǎn)化。主要網(wǎng)絡(luò)模塊的輸入、輸出維度和超參數(shù)設(shè)置如表1所示。表1 網(wǎng)絡(luò)特征維度及參數(shù)設(shè)置Tab.1 Feature size and parameter settings 網(wǎng)絡(luò)層 輸入維度 輸出維度 超參數(shù) Conv2d T×161 1×T×161 k=5×5,s=(1,1),c=1 T-F_Attention_In 1×T×161 1×T×161 1×1conv:k=1×1, s=1, c=4; conv1d: k=5, c=1 CRNN編碼層 1×T×161 256×T×4 k:=2×5, s=(1, 2), c=16, 32, 64, 128, 256 維度重整(Reshape) 256×T×4 T×1024 — LSTM T×1024 T×1024 1024 維度重整(Reshape) T×1024 256×T×4 — CRNN解碼層 512×T×4 1×T×161 k=2×5, s=(1, 2), c=128, 64, 32, 16, 1 T-F_Attention_Out 1×T×161 1×T×161 1×1conv: k=1×1, s=1, c=2; conv1d: k=5, c=1 Conv2d 1×T×161 T×161 k=1×1, s=(1, 1), c=1
【參考文獻(xiàn)】:
期刊論文
[1]基于深度神經(jīng)網(wǎng)絡(luò)的單通道語(yǔ)音增強(qiáng)方法回顧[J]. 鮑長(zhǎng)春,項(xiàng)揚(yáng). 信號(hào)處理. 2019(12)
本文編號(hào):3061002
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/3061002.html
最近更新
教材專(zhuān)著