基于深度神經(jīng)網(wǎng)絡(luò)的語音增強方法研究

發(fā)布時間：2020-08-06 14:46

【摘要】：隨著人工智能領(lǐng)域的快速發(fā)展,語音交互技術(shù)在現(xiàn)實生活中的應(yīng)用越來越廣泛。然而,語音信號非常容易受到周圍環(huán)境中噪聲的干擾,從而導致語音交互中的延時及錯誤識別等問題。語音增強技術(shù)可以有效提升語音質(zhì)量和可懂度,是語音通信、語音識別等技術(shù)的重要前端信號處理技術(shù)。語音增強技術(shù)可大致分為兩類:一是傳統(tǒng)的基于數(shù)字信號處理的增強方法;二是基于有監(jiān)督學習的增強方法。傳統(tǒng)增強方法是語音增強技術(shù)的基礎(chǔ),具有重要研究意義。而基于深度學習的語音增強方法在大數(shù)據(jù)背景下取得了顯著的效果。因此,本文將基于深度神經(jīng)網(wǎng)絡(luò)的語音增強算法作為主要研究對象,同時結(jié)合傳統(tǒng)語音增強方法,旨在提高語音增強算法的性能。主要研究內(nèi)容如下:首先,本文假設(shè)語音信號的傅里葉變換系數(shù)的幅度譜服從Chi分布,提出了Chi分布下改進的基于聽覺感知廣義加權(quán)的貝葉斯估計器,該估計器在去噪效果上優(yōu)于傳統(tǒng)的貝葉斯估計器。但是與平穩(wěn)噪聲相比,改進的貝葉斯估計器對非平穩(wěn)噪聲的處理效果仍不夠理想�；谏疃壬窠�(jīng)網(wǎng)絡(luò)的語音增強方法雖然針對非平穩(wěn)噪聲效果較好,但是網(wǎng)絡(luò)的訓練過程耗時耗力。有實驗證明,在深度神經(jīng)網(wǎng)絡(luò)訓練階段,使用經(jīng)過增強的特征作為輸入特征,會比原始特征實現(xiàn)更好的效果。而且經(jīng)過貝葉斯估計器增強過的帶噪語音信號殘留的噪聲類型也相對統(tǒng)一,在一定程度上可以減少網(wǎng)絡(luò)訓練時間和數(shù)據(jù)量。所以,本文綜合二者的優(yōu)點,接著提出了改進的貝葉斯估計器與深度神經(jīng)網(wǎng)絡(luò)相結(jié)合的語音增強算法。仿真實驗結(jié)果表明聯(lián)合的新型網(wǎng)絡(luò)結(jié)構(gòu)比單獨兩種算法增強效果更佳。最后,針對深度神經(jīng)網(wǎng)絡(luò)訓練階段使用的最小均方誤差(Minimum Mean Square Error,MMSE)代價函數(shù)對非平穩(wěn)噪聲處理效果不理想的不足,本文提出采用最小誤差熵(Minimum Error Entropy,MEE)代價函數(shù)代替?zhèn)鹘y(tǒng)MMSE代價函數(shù)。將MEE代價函數(shù)加入之前改進的語音增強算法,進而提出了一種基于MEE優(yōu)化準則的聯(lián)合Chi分布下基于聽覺感知廣義加權(quán)的貝葉斯估計器與深度神經(jīng)網(wǎng)絡(luò)的語音增強方法。通過對比實驗證明了此改進方法的有效性。
【學位授予單位】：重慶郵電大學
【學位級別】：碩士
【學位授予年份】：2018
【分類號】：TN912.35;TP183
【圖文】：

語音增強

耳的感知特性來選擇最具有針對性的語音增強方法。這就是本課題需要進行研的重點內(nèi)容。1.2 語音增強技術(shù)的研究現(xiàn)狀與發(fā)展趨勢語音增強作為數(shù)字信號處理的一個分支，已經(jīng)有了 50 多年的歷史。雖然語增強技術(shù)看似只是一個簡單的純凈語音恢復(fù)過程，但是其中涉及的知識和算法廣泛而又多樣的。對于語音增強方法的分類，可以按照其運用方法的不同進行成如下兩大類：傳統(tǒng)無監(jiān)督基于數(shù)字信號處理的語音增強方法和有監(jiān)督語音增方法[5]。其中，基于數(shù)字信號處理的語音增強方法是主流方法，歷史悠久，且擁很深的技術(shù)積淀，是目前工程界進行語音降噪的主要工作路線。而在傳統(tǒng)的數(shù)信號處理的方法中，按照其通道數(shù)目的不同，又可以進一步劃分為：單通道語增強方法與麥克風陣列語音增強方法。

窗函數(shù),樣點數(shù),頻響,波形

圖 2.2 窗函數(shù)波形與頻響圖 2.2 描繪了三種窗函數(shù)的時域波形與頻域響應(yīng)。窗函數(shù)的寬度越大，語音信平滑。矩形窗的第一旁瓣最窄，所以其不能改善頻譜泄露，但其非常適合分態(tài)信號即幅值變化較快的信號。海明窗和漢寧窗的主瓣寬度都比較大，但是會使語音信號在時域上衰減。所以具體選擇何種窗函數(shù)還需要考慮語音信號的具體情況。3 端點檢測語音增強算法常常需要估計噪聲，而噪聲估計的重點就是在整段語音信號中語音的起止點，區(qū)分靜音段和語音段，這就是端點檢測的目的。在語音端點技術(shù)中，基于短時能量的語音活動性檢測(Voice Activity Detection, VAD)算法為經(jīng)典。它能夠排除噪聲環(huán)境的不利影響，提高噪聲估計的準確性和極大地

信噪比,算法,噪聲,工廠噪聲

重慶郵電大學碩士學位論文第 3 章聯(lián)合貝葉斯估計與深度神經(jīng)網(wǎng)絡(luò)的語音增強方法512。測試噪聲是來自 NOISEX-92[66]噪聲庫白噪聲、粉紅噪聲、babble 噪聲和工廠噪聲。測試三種算法在 0、5、10、15dB 四種不同噪聲下的分段信噪比和 PESQ 值。

【參考文獻】

相關(guān)期刊論文前3條

1 虞泓波;馮大政;解虎;;相位響應(yīng)固定幅度響應(yīng)約束的穩(wěn)健波束形成方法[J];電子與信息學報;2015年07期

2 李如瑋;鮑長春;竇慧晶;;基于小波變換的語音增強算法綜述[J];數(shù)據(jù)采集與處理;2009年03期

3 韓英臣;趙興錄;趙國慶;;自適應(yīng)波束形成技術(shù)的發(fā)展與現(xiàn)狀研究[J];航天電子對抗;2009年02期

相關(guān)博士學位論文前1條

1 董婧;魯棒語音識別技術(shù)的研究[D];吉林大學;2007年

相關(guān)碩士學位論文前1條

1 譚喬來;語音增強方法研究及應(yīng)用[D];湖南師范大學;2008年

本文編號：2782555

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/wltx/2782555.html

上一篇：物聯(lián)網(wǎng)環(huán)境下的智能交通信息采集系統(tǒng)設(shè)計與實現(xiàn)
下一篇：手機殼三維特征尺寸及曲屏測量系統(tǒng)

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度神經(jīng)網(wǎng)絡(luò)的語音增強方法研究