面向移動(dòng)通信的單通道語(yǔ)音增強(qiáng)方法研究
發(fā)布時(shí)間:2019-08-04 11:21
【摘要】:近年來(lái),單通道語(yǔ)音增強(qiáng)技術(shù)在移動(dòng)語(yǔ)音通信系統(tǒng)中獲得了廣泛的應(yīng)用,但在復(fù)雜噪聲場(chǎng)景中其性能往往不能達(dá)到實(shí)際應(yīng)用的需求。 本文從噪聲估計(jì)方法的改進(jìn)、現(xiàn)有語(yǔ)音增強(qiáng)技術(shù)的融合、人工神經(jīng)網(wǎng)絡(luò)在語(yǔ)音增強(qiáng)中的應(yīng)用,以及應(yīng)用于移動(dòng)通信系統(tǒng)網(wǎng)絡(luò)設(shè)備中的壓縮域語(yǔ)音增強(qiáng)方法等方面進(jìn)行研究,提出了幾種適用于移動(dòng)通信系統(tǒng)的單通道語(yǔ)音增強(qiáng)方法。 本文的研究成果可以總結(jié)為以下幾個(gè)方面: 1.為提高噪聲估計(jì)方法對(duì)噪聲強(qiáng)度突變的跟蹤能力,本文在最小值控制遞歸平均方法基礎(chǔ)上,提出了一種噪聲估計(jì)加速方法。首先檢測(cè)含噪語(yǔ)音功率譜的突變情況,檢測(cè)到突變后設(shè)定具有自適應(yīng)長(zhǎng)度的拖尾段,并在拖尾段中利用多參數(shù)話音激活檢測(cè)方法判斷語(yǔ)音的存在性,而后結(jié)合噪聲估計(jì)與最小值比例參數(shù),判定是否對(duì)噪聲估計(jì)進(jìn)行強(qiáng)制更新。ITU-T G.160標(biāo)準(zhǔn)下的性能測(cè)試結(jié)果表明,噪聲估計(jì)加速方法不會(huì)對(duì)噪聲強(qiáng)度平穩(wěn)時(shí)的性能產(chǎn)生影響,但噪聲強(qiáng)度突變時(shí)的收斂時(shí)間得到了顯著的降低,同時(shí)有效消除了收斂過(guò)程中的音樂(lè)噪聲現(xiàn)象。 2.為結(jié)合不同語(yǔ)音增強(qiáng)算法的優(yōu)勢(shì),本文提出了一種基于小波融合的語(yǔ)音增強(qiáng)方法。該方法首先利用雙正交小波包變換將含噪語(yǔ)音分解為若干個(gè)子帶;而后分別使用加權(quán)歐氏失真測(cè)度幅度譜估計(jì)器和過(guò)減型小波閾值方法在各子帶中進(jìn)行增強(qiáng);進(jìn)一步,利用基于互相關(guān)和先驗(yàn)信噪比的融合準(zhǔn)則,將兩種方法所得輸出小波系數(shù)結(jié)合起來(lái);最后利用逆小波包變換得到增強(qiáng)語(yǔ)音。利用ITU-T G.160標(biāo)準(zhǔn)進(jìn)行性能測(cè)試,結(jié)果表明,與參考方法相比,所提方法可以獲得更好的客觀語(yǔ)音質(zhì)量。 3.通過(guò)在傳統(tǒng)的去噪自動(dòng)編碼器(Denoising Auto-encoder,DA)中引入加權(quán)重建損失函數(shù),本文提出了一種加權(quán)去噪自動(dòng)編碼器(Weighted DenoisingAuto-encoder,WDA)模型,并用于描述純凈語(yǔ)音和含噪語(yǔ)音功率譜的關(guān)系。在此基礎(chǔ)上,提出一種基于WDA和噪聲分類的維納濾波語(yǔ)音增強(qiáng)方法。所提方法首先利用WDA模型估計(jì)純凈語(yǔ)音的功率譜,而后利用后驗(yàn)信噪比控制的遞歸平均方法估計(jì)先驗(yàn)信噪比,最終使用頻域維納濾波方法獲得增強(qiáng)語(yǔ)音。另外,引入一種基于高斯混合模型的在線噪聲分類方法,改善所提方法在不同噪聲環(huán)境中的適用性。基于ITU-T G.160的性能測(cè)試結(jié)果表明,與傳統(tǒng)的頻域維納濾波方法相比,所提方法在訓(xùn)練集內(nèi)和集外噪聲環(huán)境中都可以獲得更好的客觀語(yǔ)音質(zhì)量。 4.基于ITU-T G.722.2編碼器的比特流,通過(guò)調(diào)整碼書(shū)增益參數(shù),本文提出了一種兼容非連續(xù)傳輸模式和幀擦除情況的壓縮域語(yǔ)音增強(qiáng)方法。在非DTX模式,首先在壓縮域進(jìn)行話音活動(dòng)性檢測(cè)和背景噪聲分類;而后利用代數(shù)碼書(shū)能量估計(jì)噪聲強(qiáng)度,并根據(jù)噪聲類型估計(jì)信噪比;進(jìn)而對(duì)自適應(yīng)碼書(shū)和代數(shù)碼書(shū)增益進(jìn)行聯(lián)合調(diào)整,并重新量化編碼。在非連續(xù)傳輸模式的非語(yǔ)音幀中,對(duì)對(duì)數(shù)幀能量進(jìn)行衰減以消除噪聲的影響,同時(shí)保持譜包絡(luò)參數(shù)不變。在幀擦除發(fā)生時(shí),對(duì)恢復(fù)得到的代數(shù)碼書(shū)增益進(jìn)行指數(shù)衰減,重建代數(shù)碼書(shū)矢量,并對(duì)所有編碼參數(shù)進(jìn)行重新編碼。基于ITU-T G.160標(biāo)準(zhǔn)的性能測(cè)試結(jié)果表明,所提方法可以在低復(fù)雜度前提下,獲得優(yōu)于現(xiàn)有壓縮域語(yǔ)音增強(qiáng)方法的噪聲衰減、信噪比提高和主客觀語(yǔ)音質(zhì)量。
【圖文】:
時(shí)間 (s)0 1 2 3 4 5 6c)圖 2-11 噪聲強(qiáng)度突變時(shí)的語(yǔ)譜圖對(duì)比a) 含噪語(yǔ)音 b) 參考算法增強(qiáng)語(yǔ)音 c) 所提算法增強(qiáng)語(yǔ)音gure 2-11 Spectrogram comparison when the sudden change of noise intensity occursy speech b) enhanced speech of reference method c) enhanced speech of proposed me 2-11給出了白噪聲情況下含噪語(yǔ)音、參考算法增強(qiáng)語(yǔ)音以及所提算的語(yǔ)譜圖對(duì)比。噪聲強(qiáng)度在 3.4s左右發(fā)生突然增大的情況,突變前的8dB,突變后的信噪比為 6dB。可以看到,參考算法在噪聲突變后跟慢,收斂過(guò)程中的殘留噪聲不平穩(wěn),,音樂(lè)噪聲明顯,而所提算法在突可快速的跟蹤噪聲變化,且收斂后殘留噪聲平穩(wěn),語(yǔ)音質(zhì)量較好。外,本文采用對(duì)數(shù)譜失真(Logarithmic Spectral Distortion,LSD)[98]度突變情況下,語(yǔ)音質(zhì)量的客觀評(píng)價(jià)指標(biāo)。測(cè)試中使用的含噪語(yǔ)音是和包含強(qiáng)度突變的噪聲信號(hào)混合得到,突變前含噪語(yǔ)音的信噪比為 18信噪比為 6dB。LSD指標(biāo)在噪聲強(qiáng)度突變后的語(yǔ)音段中計(jì)算得到。2 種噪聲下的LSD測(cè)試結(jié)果如表 2-5所示。
圖 5-8 基于濁音度的 VAD 示例a) 含噪語(yǔ)音波形 b) 平滑濁音度及其閾值 c) VAD 結(jié)果Figure 5-8 An example of voicing factor based VAD methodeform of noisy speech b) smoothed voicing factor and the threshold c) VA提出可以利用噪聲段 LPC 譜包絡(luò)中低頻部分所占的能量比區(qū)分為全帶分布噪聲(例如白噪聲、工廠噪聲等),以及低頻分聲等)。AD 結(jié)果為 0,即語(yǔ)音不存在的幀中,計(jì)算 NFFT= 256 點(diǎn)的 LP段 Nlow= 5 個(gè)頻點(diǎn)的能量占總能量的比例,如下所示:10_ / 20( )( )lowFFTNlpcien low NlpciE iRE i low——譜包絡(luò)低頻能量比參數(shù);——使用含噪語(yǔ)音 ISF 參數(shù)計(jì)算得到的 LPC 譜包絡(luò)。
【學(xué)位授予單位】:北京工業(yè)大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2014
【分類號(hào)】:TN912.3
【圖文】:
時(shí)間 (s)0 1 2 3 4 5 6c)圖 2-11 噪聲強(qiáng)度突變時(shí)的語(yǔ)譜圖對(duì)比a) 含噪語(yǔ)音 b) 參考算法增強(qiáng)語(yǔ)音 c) 所提算法增強(qiáng)語(yǔ)音gure 2-11 Spectrogram comparison when the sudden change of noise intensity occursy speech b) enhanced speech of reference method c) enhanced speech of proposed me 2-11給出了白噪聲情況下含噪語(yǔ)音、參考算法增強(qiáng)語(yǔ)音以及所提算的語(yǔ)譜圖對(duì)比。噪聲強(qiáng)度在 3.4s左右發(fā)生突然增大的情況,突變前的8dB,突變后的信噪比為 6dB。可以看到,參考算法在噪聲突變后跟慢,收斂過(guò)程中的殘留噪聲不平穩(wěn),,音樂(lè)噪聲明顯,而所提算法在突可快速的跟蹤噪聲變化,且收斂后殘留噪聲平穩(wěn),語(yǔ)音質(zhì)量較好。外,本文采用對(duì)數(shù)譜失真(Logarithmic Spectral Distortion,LSD)[98]度突變情況下,語(yǔ)音質(zhì)量的客觀評(píng)價(jià)指標(biāo)。測(cè)試中使用的含噪語(yǔ)音是和包含強(qiáng)度突變的噪聲信號(hào)混合得到,突變前含噪語(yǔ)音的信噪比為 18信噪比為 6dB。LSD指標(biāo)在噪聲強(qiáng)度突變后的語(yǔ)音段中計(jì)算得到。2 種噪聲下的LSD測(cè)試結(jié)果如表 2-5所示。
圖 5-8 基于濁音度的 VAD 示例a) 含噪語(yǔ)音波形 b) 平滑濁音度及其閾值 c) VAD 結(jié)果Figure 5-8 An example of voicing factor based VAD methodeform of noisy speech b) smoothed voicing factor and the threshold c) VA提出可以利用噪聲段 LPC 譜包絡(luò)中低頻部分所占的能量比區(qū)分為全帶分布噪聲(例如白噪聲、工廠噪聲等),以及低頻分聲等)。AD 結(jié)果為 0,即語(yǔ)音不存在的幀中,計(jì)算 NFFT= 256 點(diǎn)的 LP段 Nlow= 5 個(gè)頻點(diǎn)的能量占總能量的比例,如下所示:10_ / 20( )( )lowFFTNlpcien low NlpciE iRE i low——譜包絡(luò)低頻能量比參數(shù);——使用含噪語(yǔ)音 ISF 參數(shù)計(jì)算得到的 LPC 譜包絡(luò)。
【學(xué)位授予單位】:北京工業(yè)大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2014
【分類號(hào)】:TN912.3
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 曲天書(shū),戴逸松,王樹(shù)勛;基于SURE無(wú)偏估計(jì)的自適應(yīng)小波閾值去噪[J];電子學(xué)報(bào);2002年02期
2 歐世峰;趙曉暉;;基于幀間相關(guān)性的最大后驗(yàn)估計(jì)語(yǔ)音增強(qiáng)算法[J];電子學(xué)報(bào);2007年10期
3 戴悟僧;小波變換的頻響特性及其在語(yǔ)音去噪中的應(yīng)用[J];數(shù)據(jù)采集與處理;2000年01期
4 高亞召;李亞安;徐德民;;語(yǔ)音增強(qiáng)中小波收縮參數(shù)選擇分析[J];數(shù)據(jù)采集與處理;2009年03期
5 曹斌芳;李建奇;;基于自適應(yīng)仿生小波變換的語(yǔ)音增強(qiáng)方法[J];數(shù)據(jù)采集與處理;2010年06期
6 李沖泥,胡光銳;一種改進(jìn)的子波域語(yǔ)音增強(qiáng)方法[J];通信學(xué)報(bào);1999年04期
7 金乃高;殷福亮;王冬霞;陳U
本文編號(hào):2522908
本文鏈接:http://sikaile.net/kejilunwen/wltx/2522908.html
最近更新
教材專著