結(jié)合卷積平滑耳蝸?zhàn)V和深度網(wǎng)絡(luò)的語音增強(qiáng)技術(shù)
【文章頁數(shù)】:8 頁
【部分圖文】:
圖1不同平滑度耳蝸?zhàn)V增強(qiáng)語音效果
在CSCG特征中,可以看出CG1主要包含了自身時(shí)頻單元所具有的局部語音信息,而CG2和CG3通過不同平滑度的卷積操作,可以給時(shí)頻單元提供不同程度的相鄰時(shí)頻單元的信息。CSCG的構(gòu)成方法,主要是通過固定耳蝸?zhàn)VCG1,逐步拼接不同平滑度耳蝸?zhàn)VCG2和CG3,然后觀察實(shí)驗(yàn)結(jié)果,到實(shí)驗(yàn)效....
圖2CSCG特征圖
CSCG特征的可視化圖如圖2所示,右邊是純凈信號(hào)的耳蝸?zhàn)V特征,左邊是信噪比5dB、噪聲為Babble的帶噪語音耳蝸?zhàn)V特征?梢钥闯,CG1是正常的耳蝸?zhàn)V,CG2、CG3是不同平滑度的耳蝸?zhàn)V。CSCG如果判斷該時(shí)頻單元是語音主導(dǎo),那么它相鄰的時(shí)頻單元也有很大可能是語音主導(dǎo),即語音....
圖3雙向循環(huán)神經(jīng)網(wǎng)絡(luò)
傳統(tǒng)的RNN的缺點(diǎn)就是只能利用以前的語音信息,語音信息的前后具有較強(qiáng)的相關(guān)性,所以有必要采用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(BRNN)來進(jìn)行增強(qiáng)。BRNN通過使用2個(gè)單獨(dú)的隱藏層在2個(gè)方向上處理數(shù)據(jù),然后將其轉(zhuǎn)發(fā)到同一輸出層來實(shí)現(xiàn),結(jié)構(gòu)如圖3所示。但是,在進(jìn)行后向傳播中很容易出現(xiàn)“梯度消失和爆....
圖4長短時(shí)記憶細(xì)胞
但是,在進(jìn)行后向傳播中很容易出現(xiàn)“梯度消失和爆炸”的問題,很難讓RNN得到良好的訓(xùn)練結(jié)果,LSTM很好地緩解了以上問題,通過引入存儲(chǔ)單元和一系列門來動(dòng)態(tài)地控制信息流。單個(gè)LSTM存儲(chǔ)單元如圖4所示。LSTM的實(shí)現(xiàn)公式:
本文編號(hào):3978993
本文鏈接:http://sikaile.net/kejilunwen/wltx/3978993.html