基于深度學習的語音增強算法研究與實現(xiàn)
發(fā)布時間:2021-09-05 06:19
語音增強是指利用音頻信號處理技術(shù)及各種算法提高失真語音信號的可懂度或整體感知質(zhì)量,從而進一步在語音識別、語音通話、軍事竊聽和聽力輔助等場景中改善應(yīng)用效果。本文主要研究基于深度學習的語音增強算法,即憑借深度學習模型學習帶噪語音與純凈語音之間的映射關(guān)系,達到提升帶噪語音信號可懂度和質(zhì)量的目的。通過對現(xiàn)有算法的設(shè)計思路與建模機制進行深入分析后,發(fā)現(xiàn)這些方法存在以下幾個不足:第一,模型訓練目標與評價指標不匹配,一般的損失函數(shù)不能反映人耳聽覺感受,而評價指標圍繞人耳聽覺進行設(shè)計,導(dǎo)致?lián)p失函數(shù)與評價指標的失配,使最優(yōu)模型達不到較好的評價。第二,目前針對低信噪比條件下的語音增強研究較少,而在低信噪比條件下,語音成分稀疏,目前的模型缺少保留語音信息的針對性設(shè)計,使得恢復(fù)完整語音的難度增加,導(dǎo)致增強語音的質(zhì)量與可懂度下降。本文針對上述問題進行研究,提出了相應(yīng)的解決方案,主要貢獻如下:(1)提出基于生成對抗神經(jīng)網(wǎng)絡(luò)的語音增強算法。針對問題一,研究博弈對抗訓練模式,令判別器神經(jīng)網(wǎng)絡(luò)學習純凈的語音與帶噪語音之間的區(qū)別,理想目標是使之學習人類的聽覺感受,并且給予語音增強模型與評價指標相匹配的反饋。實驗結(jié)果表明,...
【文章來源】:電子科技大學四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:69 頁
【學位級別】:碩士
【部分圖文】:
STOI計算過程
第二章相關(guān)技術(shù)背景及算法19語音可懂度正相關(guān),即值越大表示語音可懂度越好。圖2-10STOI計算過程2.5.2主觀語音質(zhì)量評估PESQ該指標的設(shè)計目的是評估語音質(zhì)量,與MOS高度相關(guān),側(cè)重于評估語音的清晰度。其典型的應(yīng)用場景是網(wǎng)絡(luò)電話。它是感知分析測量系統(tǒng)和感知語音質(zhì)量增強版PSQM99(PerceptualSpeechQualityMeasure99)集成的結(jié)果,應(yīng)用范圍廣泛,包括模擬連接、編解碼器、報文丟失、可變延遲。同時它是國際公認的客觀MOS評估方法。其取值范圍在-0.5至4.5之間。圖2-11PESQ模型的結(jié)構(gòu)圖[62]2.5.3語音失真比SDR在語音增強和盲源分離中,信噪比一般是降噪/分離語音質(zhì)量的粗略客觀度量。2010年,Vincent等人提出一種細化的度量方法,通過正交投影,它將一段混合語音s根據(jù)各種因素分解成4個成分,targets、interfe、noisee、artife,分別表示分離的目標語音,非目標的干擾語音成分,噪聲成分,以及算法額外引入的成分。SDR計算:
WSEM的生成器結(jié)構(gòu)
【參考文獻】:
期刊論文
[1]基于小波包與自適應(yīng)維納濾波的語音增強算法[J]. 董胡,徐雨明,馬振中,李列文,任可. 計算機技術(shù)與發(fā)展. 2020(01)
[2]Generative Adversarial Networks:Introduction and Outlook[J]. Kunfeng Wang,Chao Gou,Yanjie Duan,Yilun Lin,Xinhu Zheng,Fei-Yue Wang. IEEE/CAA Journal of Automatica Sinica. 2017(04)
[3]利用深度卷積神經(jīng)網(wǎng)絡(luò)提高未知噪聲下的語音增強性能[J]. 袁文浩,孫文珠,夏斌,歐世峰. 自動化學報. 2018(04)
[4]基于感知掩蔽深度神經(jīng)網(wǎng)絡(luò)的單通道語音增強方法[J]. 韓偉,張雄偉,閔剛,張啟業(yè). 自動化學報. 2017(02)
[5]基于深度學習語音分離技術(shù)的研究現(xiàn)狀與進展[J]. 劉文舉,聶帥,梁山,張學良. 自動化學報. 2016(06)
[6]深度語音信號與信息處理:研究進展與展望[J]. 戴禮榮,張仕良. 數(shù)據(jù)采集與處理. 2014(02)
本文編號:3384846
【文章來源】:電子科技大學四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:69 頁
【學位級別】:碩士
【部分圖文】:
STOI計算過程
第二章相關(guān)技術(shù)背景及算法19語音可懂度正相關(guān),即值越大表示語音可懂度越好。圖2-10STOI計算過程2.5.2主觀語音質(zhì)量評估PESQ該指標的設(shè)計目的是評估語音質(zhì)量,與MOS高度相關(guān),側(cè)重于評估語音的清晰度。其典型的應(yīng)用場景是網(wǎng)絡(luò)電話。它是感知分析測量系統(tǒng)和感知語音質(zhì)量增強版PSQM99(PerceptualSpeechQualityMeasure99)集成的結(jié)果,應(yīng)用范圍廣泛,包括模擬連接、編解碼器、報文丟失、可變延遲。同時它是國際公認的客觀MOS評估方法。其取值范圍在-0.5至4.5之間。圖2-11PESQ模型的結(jié)構(gòu)圖[62]2.5.3語音失真比SDR在語音增強和盲源分離中,信噪比一般是降噪/分離語音質(zhì)量的粗略客觀度量。2010年,Vincent等人提出一種細化的度量方法,通過正交投影,它將一段混合語音s根據(jù)各種因素分解成4個成分,targets、interfe、noisee、artife,分別表示分離的目標語音,非目標的干擾語音成分,噪聲成分,以及算法額外引入的成分。SDR計算:
WSEM的生成器結(jié)構(gòu)
【參考文獻】:
期刊論文
[1]基于小波包與自適應(yīng)維納濾波的語音增強算法[J]. 董胡,徐雨明,馬振中,李列文,任可. 計算機技術(shù)與發(fā)展. 2020(01)
[2]Generative Adversarial Networks:Introduction and Outlook[J]. Kunfeng Wang,Chao Gou,Yanjie Duan,Yilun Lin,Xinhu Zheng,Fei-Yue Wang. IEEE/CAA Journal of Automatica Sinica. 2017(04)
[3]利用深度卷積神經(jīng)網(wǎng)絡(luò)提高未知噪聲下的語音增強性能[J]. 袁文浩,孫文珠,夏斌,歐世峰. 自動化學報. 2018(04)
[4]基于感知掩蔽深度神經(jīng)網(wǎng)絡(luò)的單通道語音增強方法[J]. 韓偉,張雄偉,閔剛,張啟業(yè). 自動化學報. 2017(02)
[5]基于深度學習語音分離技術(shù)的研究現(xiàn)狀與進展[J]. 劉文舉,聶帥,梁山,張學良. 自動化學報. 2016(06)
[6]深度語音信號與信息處理:研究進展與展望[J]. 戴禮榮,張仕良. 數(shù)據(jù)采集與處理. 2014(02)
本文編號:3384846
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/3384846.html
最近更新
教材專著