基于深度神經(jīng)網(wǎng)絡(luò)的語音增強方法研究
發(fā)布時間:2020-08-06 14:46
【摘要】:隨著人工智能領(lǐng)域的快速發(fā)展,語音交互技術(shù)在現(xiàn)實生活中的應(yīng)用越來越廣泛。然而,語音信號非常容易受到周圍環(huán)境中噪聲的干擾,從而導致語音交互中的延時及錯誤識別等問題。語音增強技術(shù)可以有效提升語音質(zhì)量和可懂度,是語音通信、語音識別等技術(shù)的重要前端信號處理技術(shù)。語音增強技術(shù)可大致分為兩類:一是傳統(tǒng)的基于數(shù)字信號處理的增強方法;二是基于有監(jiān)督學習的增強方法。傳統(tǒng)增強方法是語音增強技術(shù)的基礎(chǔ),具有重要研究意義。而基于深度學習的語音增強方法在大數(shù)據(jù)背景下取得了顯著的效果。因此,本文將基于深度神經(jīng)網(wǎng)絡(luò)的語音增強算法作為主要研究對象,同時結(jié)合傳統(tǒng)語音增強方法,旨在提高語音增強算法的性能。主要研究內(nèi)容如下:首先,本文假設(shè)語音信號的傅里葉變換系數(shù)的幅度譜服從Chi分布,提出了Chi分布下改進的基于聽覺感知廣義加權(quán)的貝葉斯估計器,該估計器在去噪效果上優(yōu)于傳統(tǒng)的貝葉斯估計器。但是與平穩(wěn)噪聲相比,改進的貝葉斯估計器對非平穩(wěn)噪聲的處理效果仍不夠理想;谏疃壬窠(jīng)網(wǎng)絡(luò)的語音增強方法雖然針對非平穩(wěn)噪聲效果較好,但是網(wǎng)絡(luò)的訓練過程耗時耗力。有實驗證明,在深度神經(jīng)網(wǎng)絡(luò)訓練階段,使用經(jīng)過增強的特征作為輸入特征,會比原始特征實現(xiàn)更好的效果。而且經(jīng)過貝葉斯估計器增強過的帶噪語音信號殘留的噪聲類型也相對統(tǒng)一,在一定程度上可以減少網(wǎng)絡(luò)訓練時間和數(shù)據(jù)量。所以,本文綜合二者的優(yōu)點,接著提出了改進的貝葉斯估計器與深度神經(jīng)網(wǎng)絡(luò)相結(jié)合的語音增強算法。仿真實驗結(jié)果表明聯(lián)合的新型網(wǎng)絡(luò)結(jié)構(gòu)比單獨兩種算法增強效果更佳。最后,針對深度神經(jīng)網(wǎng)絡(luò)訓練階段使用的最小均方誤差(Minimum Mean Square Error,MMSE)代價函數(shù)對非平穩(wěn)噪聲處理效果不理想的不足,本文提出采用最小誤差熵(Minimum Error Entropy,MEE)代價函數(shù)代替?zhèn)鹘y(tǒng)MMSE代價函數(shù)。將MEE代價函數(shù)加入之前改進的語音增強算法,進而提出了一種基于MEE優(yōu)化準則的聯(lián)合Chi分布下基于聽覺感知廣義加權(quán)的貝葉斯估計器與深度神經(jīng)網(wǎng)絡(luò)的語音增強方法。通過對比實驗證明了此改進方法的有效性。
【學位授予單位】:重慶郵電大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:TN912.35;TP183
【圖文】:
耳的感知特性來選擇最具有針對性的語音增強方法。這就是本課題需要進行研的重點內(nèi)容。1.2 語音增強技術(shù)的研究現(xiàn)狀與發(fā)展趨勢語音增強作為數(shù)字信號處理的一個分支,已經(jīng)有了 50 多年的歷史。雖然語增強技術(shù)看似只是一個簡單的純凈語音恢復(fù)過程,但是其中涉及的知識和算法廣泛而又多樣的。對于語音增強方法的分類,可以按照其運用方法的不同進行成如下兩大類:傳統(tǒng)無監(jiān)督基于數(shù)字信號處理的語音增強方法和有監(jiān)督語音增方法[5]。其中,基于數(shù)字信號處理的語音增強方法是主流方法,歷史悠久,且擁很深的技術(shù)積淀,是目前工程界進行語音降噪的主要工作路線。而在傳統(tǒng)的數(shù)信號處理的方法中,按照其通道數(shù)目的不同,又可以進一步劃分為:單通道語增強方法與麥克風陣列語音增強方法。
圖 2.2 窗函數(shù)波形與頻響圖 2.2 描繪了三種窗函數(shù)的時域波形與頻域響應(yīng)。窗函數(shù)的寬度越大,語音信平滑。矩形窗的第一旁瓣最窄,所以其不能改善頻譜泄露,但其非常適合分態(tài)信號即幅值變化較快的信號。海明窗和漢寧窗的主瓣寬度都比較大,但是會使語音信號在時域上衰減。所以具體選擇何種窗函數(shù)還需要考慮語音信號的具體情況。3 端點檢測語音增強算法常常需要估計噪聲,而噪聲估計的重點就是在整段語音信號中語音的起止點,區(qū)分靜音段和語音段,這就是端點檢測的目的。在語音端點技術(shù)中,基于短時能量的語音活動性檢測(Voice Activity Detection, VAD)算法為經(jīng)典。它能夠排除噪聲環(huán)境的不利影響,提高噪聲估計的準確性和極大地
重慶郵電大學碩士學位論文 第 3 章 聯(lián)合貝葉斯估計與深度神經(jīng)網(wǎng)絡(luò)的語音增強方法512。測試噪聲是來自 NOISEX-92[66]噪聲庫白噪聲、粉紅噪聲、babble 噪聲和工廠噪聲。測試三種算法在 0、5、10、15dB 四種不同噪聲下的分段信噪比和 PESQ 值。
本文編號:2782555
【學位授予單位】:重慶郵電大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:TN912.35;TP183
【圖文】:
耳的感知特性來選擇最具有針對性的語音增強方法。這就是本課題需要進行研的重點內(nèi)容。1.2 語音增強技術(shù)的研究現(xiàn)狀與發(fā)展趨勢語音增強作為數(shù)字信號處理的一個分支,已經(jīng)有了 50 多年的歷史。雖然語增強技術(shù)看似只是一個簡單的純凈語音恢復(fù)過程,但是其中涉及的知識和算法廣泛而又多樣的。對于語音增強方法的分類,可以按照其運用方法的不同進行成如下兩大類:傳統(tǒng)無監(jiān)督基于數(shù)字信號處理的語音增強方法和有監(jiān)督語音增方法[5]。其中,基于數(shù)字信號處理的語音增強方法是主流方法,歷史悠久,且擁很深的技術(shù)積淀,是目前工程界進行語音降噪的主要工作路線。而在傳統(tǒng)的數(shù)信號處理的方法中,按照其通道數(shù)目的不同,又可以進一步劃分為:單通道語增強方法與麥克風陣列語音增強方法。
圖 2.2 窗函數(shù)波形與頻響圖 2.2 描繪了三種窗函數(shù)的時域波形與頻域響應(yīng)。窗函數(shù)的寬度越大,語音信平滑。矩形窗的第一旁瓣最窄,所以其不能改善頻譜泄露,但其非常適合分態(tài)信號即幅值變化較快的信號。海明窗和漢寧窗的主瓣寬度都比較大,但是會使語音信號在時域上衰減。所以具體選擇何種窗函數(shù)還需要考慮語音信號的具體情況。3 端點檢測語音增強算法常常需要估計噪聲,而噪聲估計的重點就是在整段語音信號中語音的起止點,區(qū)分靜音段和語音段,這就是端點檢測的目的。在語音端點技術(shù)中,基于短時能量的語音活動性檢測(Voice Activity Detection, VAD)算法為經(jīng)典。它能夠排除噪聲環(huán)境的不利影響,提高噪聲估計的準確性和極大地
重慶郵電大學碩士學位論文 第 3 章 聯(lián)合貝葉斯估計與深度神經(jīng)網(wǎng)絡(luò)的語音增強方法512。測試噪聲是來自 NOISEX-92[66]噪聲庫白噪聲、粉紅噪聲、babble 噪聲和工廠噪聲。測試三種算法在 0、5、10、15dB 四種不同噪聲下的分段信噪比和 PESQ 值。
【參考文獻】
相關(guān)期刊論文 前3條
1 虞泓波;馮大政;解虎;;相位響應(yīng)固定幅度響應(yīng)約束的穩(wěn)健波束形成方法[J];電子與信息學報;2015年07期
2 李如瑋;鮑長春;竇慧晶;;基于小波變換的語音增強算法綜述[J];數(shù)據(jù)采集與處理;2009年03期
3 韓英臣;趙興錄;趙國慶;;自適應(yīng)波束形成技術(shù)的發(fā)展與現(xiàn)狀研究[J];航天電子對抗;2009年02期
相關(guān)博士學位論文 前1條
1 董婧;魯棒語音識別技術(shù)的研究[D];吉林大學;2007年
相關(guān)碩士學位論文 前1條
1 譚喬來;語音增強方法研究及應(yīng)用[D];湖南師范大學;2008年
本文編號:2782555
本文鏈接:http://sikaile.net/kejilunwen/wltx/2782555.html
最近更新
教材專著