基于卷積編解碼器和門控循環(huán)單元的語(yǔ)音分離算法
發(fā)布時(shí)間:2021-11-23 18:38
在大部分基于深度學(xué)習(xí)的語(yǔ)音分離和語(yǔ)音增強(qiáng)算法中,把傅里葉變換后的頻譜特征作為神經(jīng)網(wǎng)絡(luò)的輸入特征,并未考慮到語(yǔ)音信號(hào)中的相位信息。然而過(guò)去的一些研究表明,尤其是在低信噪比(SNR)條件下,相位信息對(duì)于提高語(yǔ)音質(zhì)量是必不可少的。針對(duì)這個(gè)問(wèn)題,提出了一種基于卷積編解碼器網(wǎng)絡(luò)和門控循環(huán)單元(CED-GRU)的語(yǔ)音分離算法。首先,利用原始波形既包含幅值信息也包含相位信息的特點(diǎn),在輸入端以混合語(yǔ)音信號(hào)的原始波形作為輸入特征;其次,通過(guò)結(jié)合卷積編解碼器(CED)網(wǎng)絡(luò)和門控循環(huán)單元(GRU)網(wǎng)絡(luò),可以有效解決語(yǔ)音信號(hào)中存在的時(shí)序問(wèn)題。提出的改進(jìn)算法在男性和男性、男性和女性、女性和女性的語(yǔ)音質(zhì)量的感知評(píng)價(jià)(PESQ)和短時(shí)目標(biāo)可懂度(STOI)方面,與基于排列不變訓(xùn)練(PIT)算法、基于深度聚類(DC)算法、基于深度吸引網(wǎng)絡(luò)(DAN)算法相比,分別提高了1. 16和0. 29、1. 37和0. 27、1. 08和0. 3;0. 87和0. 21、1. 11和0. 22、0. 81和0. 24;0. 64和0. 24、1. 01和0. 34、0. 73和0. 29個(gè)百分點(diǎn)。實(shí)驗(yàn)結(jié)果表明,基于CED-GRU...
【文章來(lái)源】:計(jì)算機(jī)應(yīng)用. 2020,40(07)北大核心CSCD
【文章頁(yè)數(shù)】:5 頁(yè)
【部分圖文】:
不同算法的SAR平均值
不同算法的SIR平均值
LSTM結(jié)構(gòu)
【參考文獻(xiàn)】:
期刊論文
[1]基于深層聲學(xué)特征的端到端語(yǔ)音分離[J]. 李娟娟,王丹,李子晉. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2019(10)
[2]一種基于卷積神經(jīng)網(wǎng)絡(luò)的端到端語(yǔ)音分離方法[J]. 范存航,劉斌,陶建華,溫正棋,易江燕. 信號(hào)處理. 2019(04)
本文編號(hào):3514441
【文章來(lái)源】:計(jì)算機(jī)應(yīng)用. 2020,40(07)北大核心CSCD
【文章頁(yè)數(shù)】:5 頁(yè)
【部分圖文】:
不同算法的SAR平均值
不同算法的SIR平均值
LSTM結(jié)構(gòu)
【參考文獻(xiàn)】:
期刊論文
[1]基于深層聲學(xué)特征的端到端語(yǔ)音分離[J]. 李娟娟,王丹,李子晉. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2019(10)
[2]一種基于卷積神經(jīng)網(wǎng)絡(luò)的端到端語(yǔ)音分離方法[J]. 范存航,劉斌,陶建華,溫正棋,易江燕. 信號(hào)處理. 2019(04)
本文編號(hào):3514441
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/3514441.html
最近更新
教材專著