復(fù)雜環(huán)境下基于深度學(xué)習(xí)的語音信號預(yù)處理方法研究

發(fā)布時間：2020-07-03 00:18

【摘要】：近年來,由深度學(xué)習(xí)引發(fā)的人工智能熱潮正在影響和改變著人們的生活方式,人們不再滿足單一文本、指令的人機(jī)交互,而是期待語音交互這種更加方便、快捷的交流方式。語音則成為其中不可或缺的信息媒介。然而語音在實(shí)際的傳輸過程中,背景噪聲和人聲干擾都會對語音造成一定的影響,使得語音的質(zhì)量和可懂度下降,同時也給后續(xù)的應(yīng)用帶來挑戰(zhàn),比如語音識別、說話人識別等。在復(fù)雜的應(yīng)用環(huán)境下,作為語音類應(yīng)用的前端接口,語音信號預(yù)處理顯得尤為重要,其可以細(xì)分出處理噪聲干擾的語音增強(qiáng)和處理人聲干擾的語音分離。語音增強(qiáng)是指語音信號被噪聲干擾時,對噪聲進(jìn)行抑制,從混合信號中提取有用的語音信號的技術(shù)。一般的,語音增強(qiáng)所考慮的噪聲類型是不涵蓋類人聲的干擾信號的。語音分離則是用來處理人聲干擾的前端處理技術(shù),旨在多說話人的場景下提取出目標(biāo)說話人的語音信號而去除其他說話人的語音信號,應(yīng)用場景如“雞尾酒會問題”。對于語音增強(qiáng)任務(wù)來說,可分為傳統(tǒng)語音增強(qiáng)算法和基于深度學(xué)習(xí)的語音增強(qiáng)算法。傳統(tǒng)語音增強(qiáng)算法多是無監(jiān)督的,通常需要對語音信號和噪聲信號各自的特性及彼此之間的作用關(guān)系做出一定的假設(shè)。傳統(tǒng)的無監(jiān)督語音增強(qiáng)算法可以較好地處理平穩(wěn)噪聲,但是卻難以處理非平穩(wěn)噪聲。近幾年來,深度學(xué)習(xí)技術(shù)在多個領(lǐng)域得到了成功應(yīng)用,也在語音增強(qiáng)領(lǐng)域得到了較多的關(guān)注和研究。早期研究發(fā)現(xiàn),基于DNN(Deep Neural Network)的語音增強(qiáng)算法相較于傳統(tǒng)語音增強(qiáng)算法可以取得很大的性能提升,尤其是在處理非平穩(wěn)噪聲的情況下。然而,基于DNN的有監(jiān)督語音增強(qiáng)算法在實(shí)際應(yīng)用中面對真實(shí)噪聲場景、說話風(fēng)格差異、低信噪比(Signal-to-NoiseRatio)時存在著推廣性問題,如語音丟失、低可懂度等。針對這些問題,本文將圍繞著訓(xùn)練數(shù)據(jù)構(gòu)造、模型融合和新型模型結(jié)構(gòu)設(shè)計來提升基于深度學(xué)習(xí)的語音增強(qiáng)算法在復(fù)雜的實(shí)際環(huán)境下的推廣能力,著力解決低信噪比下的語音失真問題和對噪聲類型的泛化問題。首先,在己有的DNN語音增強(qiáng)算法框架下,基于對低信噪比下訓(xùn)練數(shù)據(jù)的分析,利用語音端點(diǎn)檢測(Voice Activity Detection,VAD)算法對訓(xùn)練數(shù)據(jù)進(jìn)行處理,得到側(cè)重點(diǎn)不同的兩個DNN語音增強(qiáng)模型。測試階段基于不同增強(qiáng)模型之間的互補(bǔ)性,通過VAD對兩個DNN增強(qiáng)模型進(jìn)行融合,來提升低信噪比下的語音增強(qiáng)性能,使得模型既能消除噪聲又能保留必要的目標(biāo)語音。其次,針對基于深度學(xué)習(xí)的語音增強(qiáng)模型的推廣性問題,本文提出了全新的漸進(jìn)式語音增強(qiáng)框架。該框架下的漸進(jìn)式學(xué)習(xí)能夠按照信噪比逐步遞增的方式對語音增強(qiáng)問題進(jìn)行分解,使得網(wǎng)絡(luò)內(nèi)部的功能得以明確,這有別于傳統(tǒng)的“黑箱子”式的神經(jīng)網(wǎng)絡(luò)訓(xùn)練。在漸進(jìn)式學(xué)習(xí)框架下,近一步提出密集連接的網(wǎng)絡(luò)結(jié)構(gòu)來提升模型的學(xué)習(xí)能力,使之能夠訓(xùn)練出更深層、更好的語音增強(qiáng)模型。漸進(jìn)式學(xué)習(xí)在DNN和長短時記憶網(wǎng)絡(luò)(Long Short-Term Memory)兩種網(wǎng)絡(luò)結(jié)構(gòu)中都取得了成功應(yīng)用,提升了語音增強(qiáng)模型在實(shí)際應(yīng)用場景下的推廣能力。對于語音分離任務(wù)來說,也可分為傳統(tǒng)的語音分離算法和基于深度學(xué)習(xí)的語音分離算法。傳統(tǒng)的語音分離算法多是基于計算聽覺場景分析(CASA),CASA是建立在聽覺場景分析的感知理論基礎(chǔ)上,利用聚類約束(grouping cue)如基音頻率(pitch)等特征線索對同一說話人的語音進(jìn)行追蹤�；谏疃葘W(xué)習(xí)的語音分離算法可以細(xì)分為說話人相關(guān)的語音分離和說話人無關(guān)的語音分離。基于深度學(xué)習(xí)的說話人相關(guān)模型具有較好的分離效果,本文在說話人相關(guān)的場景下研究噪聲環(huán)境下的語音分離和目標(biāo)說話人訓(xùn)練數(shù)據(jù)受限情況下的語音分離。首先,在噪聲環(huán)境下,基于深度學(xué)習(xí)的說話人相關(guān)語音分離模型把噪聲干擾和人聲干擾統(tǒng)一看作是對目標(biāo)語音的干擾,利用神經(jīng)網(wǎng)絡(luò)對二者聯(lián)合建模處理,實(shí)驗(yàn)過程中發(fā)現(xiàn)兩個干擾之間存在互補(bǔ)性。其次,針對目標(biāo)說話人訓(xùn)練數(shù)據(jù)不足的應(yīng)用場景,本文提出兩階段的語音分離方案來解決數(shù)據(jù)問題,并在CHiME-5比賽的真實(shí)數(shù)據(jù)上進(jìn)行了實(shí)驗(yàn)驗(yàn)證。
【學(xué)位授予單位】：中國科學(xué)技術(shù)大學(xué)
【學(xué)位級別】：博士
【學(xué)位授予年份】：2018
【分類號】：TN912.3
【圖文】：

增強(qiáng)算法,淺層,神經(jīng)網(wǎng)絡(luò),頻域特征

更新網(wǎng)絡(luò)參數(shù)。由于語音和噪聲在頻域上更具有區(qū)分性，有學(xué)者在后續(xù)的研究中逡逑使用淺層神經(jīng)網(wǎng)絡(luò)以頻域特征為輸入去預(yù)測干凈語音（Ｓｏｒｅｎｓｅｎ，邋１９９１；邋Ｗａｎ邋ｅｔａｌ．，逡逑１９９９；邋Ｘｉｅｅｔａｌ．，邋１９９４），如圖１．４所示。在訓(xùn)練階段，先對帶噪語音和干凈語音提逡逑取頻域特征，基于最小均方誤差準(zhǔn)則，以帶噪語音的頻域特征為輸入，以干凈語逡逑音的頻域特征為目標(biāo)，利用反向錯誤傳播算法來更新網(wǎng)絡(luò)參數(shù)；在增強(qiáng)測試階逡逑段，訓(xùn)練好的模型以帶噪語音的頻域特征為輸入，得到的模型輸出即為對干凈語逡逑音的頻域特征的估計。有了頻域特征估計之后，結(jié)合原始語音的相位信息進(jìn)行逆逡逑傅里葉變換（ＩＤＦＴ），最后使用重疊相加法（Ａｌｌｅｎ，邋１９７７）得到降噪后的時域語音逡逑信號。逡逑干凈語音逡逑…逡逑ＩＤＦＴ＆重疊相加邋＾邐－ｊ逡逑邐１：邋＿邋Ｉ逡逑淺層神經(jīng)網(wǎng)絡(luò)邋｜相位逡逑邐邋邋Ｉ逡逑ｎ邐｜逡逑Ｉ逡逑邐邋邋邋ａ逡逑加窗分幀＆ＤＦＴ邋邐＂逡逑ｔｔｔｔｉ邋－邋ｍｉ邋丨逡逑帶噪語音逡逑圖１．４基于淺層神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)算法（王青，２０１８）。逡逑１０逡逑

系統(tǒng)框圖,音分,系統(tǒng)框圖,頻域特征

【相似文獻(xiàn)】

相關(guān)期刊論文前10條

1 石玲;;基于計算機(jī)聲卡的譜相減語音增強(qiáng)系統(tǒng)分析[J];信息與電腦(理論版);2010年02期

2 孫濤;;基于計算機(jī)聲卡的譜相減語音增強(qiáng)系統(tǒng)分析[J];南昌教育學(xué)院學(xué)報;2010年05期

3 張曉雷;;基于深度學(xué)習(xí)的語音增強(qiáng)簡述[J];網(wǎng)絡(luò)新媒體技術(shù);2019年02期

4 李璐君;屈丹;;一種基于組合深層模型的語音增強(qiáng)方法[J];信息工程大學(xué)學(xué)報;2018年04期

5 袁文浩;婁迎曦;梁春燕;夏斌;;利用生成噪聲提高語音增強(qiáng)方法的泛化能力[J];電子學(xué)報;2019年04期

6 陰法明;唐於烽;;基于深度置信網(wǎng)絡(luò)的語音增強(qiáng)算法[J];電子器件;2018年05期

7 余華;唐於烽;趙力;;基于改進(jìn)深度置信網(wǎng)絡(luò)的語音增強(qiáng)算法[J];數(shù)據(jù)采集與處理;2018年05期

8 薛慧君;李盛;路國華;張楊;焦騰;王健琪;荊西京;;提升小波用于非接觸語音增強(qiáng)算法的研究[J];醫(yī)療衛(wèi)生裝備;2013年05期

9 胡海波;劉柏森;許銀;;基于小波變換的語音增強(qiáng)研究[J];黑龍江工程學(xué)院學(xué)報(自然科學(xué)版);2011年01期

10 褚偉;;基于條件深度卷積生成對抗網(wǎng)絡(luò)的語音增強(qiáng)研究[J];智能計算機(jī)與應(yīng)用;2019年04期

相關(guān)會議論文前10條

1 王世偉;胡笑滸;鄭成詩;李曉東;;一種改進(jìn)的基于能量差語音增強(qiáng)算法[A];中國聲學(xué)學(xué)會第九屆青年學(xué)術(shù)會議論文集[C];2011年

2 江峰;李曉東;;適用于抑制非平穩(wěn)背景噪聲的語音增強(qiáng)算法[A];中國聲學(xué)學(xué)會2003年青年學(xué)術(shù)會議[CYCA'03]論文集[C];2003年

3 閻兆立;杜利民;;維納后濾波語音增強(qiáng)算法研究[A];中國聲學(xué)學(xué)會2005年青年學(xué)術(shù)會議[CYCA'05]論文集[C];2005年

4 童峰;許肖梅;洪青陽;;一種帶階數(shù)估計的語音增強(qiáng)算法[A];第八屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集[C];2005年

5 袁榕嶸;吳鳴;楊軍;;雙麥克風(fēng)語音增強(qiáng)快速算法[A];泛在信息社會中的聲學(xué)——中國聲學(xué)學(xué)會2010年全國會員代表大會暨學(xué)術(shù)會議論文集[C];2010年

6 國雁萌;;一種極低信噪比條件下的語音增強(qiáng)方法[A];第六屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集[C];2001年

7 李海峰;韓紀(jì)慶;鄭鐵然;;元音、輔音粗判自適應(yīng)電話語音增強(qiáng)方法[A];第七屆全國人機(jī)語音通訊學(xué)術(shù)會議（NCMMSC7）論文集[C];2003年

8 高登峰;楊波;郭東岳;;基于深度神經(jīng)網(wǎng)絡(luò)的地空通話語音增強(qiáng)方法[A];第一屆空中交通管理系統(tǒng)技術(shù)學(xué)術(shù)年會論文集[C];2018年

9 樓廈廈;鄭成詩;李曉東;;濾波器權(quán)值約束對自適應(yīng)零限波束形成語音增強(qiáng)算法魯棒性影響分析[A];中國聲學(xué)學(xué)會2007年青年學(xué)術(shù)會議論文集（上）[C];2007年

10 任玉寶;;基于聯(lián)合字典學(xué)習(xí)的語音增強(qiáng)算法[A];中國聲學(xué)學(xué)會水聲學(xué)分會2019年學(xué)術(shù)會議論文集[C];2019年

相關(guān)重要報紙文章前3條

1 ;NMS Sonata Ⅲ/Studio Sound級語音增強(qiáng)系統(tǒng)話音更清晰[N];中國計算機(jī)報;2003年

2 本報記者馬楠;NMS市場目標(biāo)轉(zhuǎn)向無線服務(wù)提供商[N];通信產(chǎn)業(yè)報;2001年

3 ;VoIP服務(wù)不只是便宜的通話[N];網(wǎng)絡(luò)世界;2002年

相關(guān)博士學(xué)位論文前10條

1 高天;復(fù)雜環(huán)境下基于深度學(xué)習(xí)的語音信號預(yù)處理方法研究[D];中國科學(xué)技術(shù)大學(xué);2018年

2 童仁杰;基于信號稀疏特性的語音增強(qiáng)算法研究[D];中國科學(xué)技術(shù)大學(xué);2018年

3 王青;基于深層神經(jīng)網(wǎng)絡(luò)的多目標(biāo)學(xué)習(xí)和融合的語音增強(qiáng)研究[D];中國科學(xué)技術(shù)大學(xué);2018年

4 王冬霞;麥克風(fēng)陣列語音增強(qiáng)的若干方法研究[D];大連理工大學(xué);2007年

5 歐世峰;變換域語音增強(qiáng)算法的研究[D];吉林大學(xué);2008年

6 孫琦;基于子空間的低計算復(fù)雜度語音增強(qiáng)算法研究[D];吉林大學(xué);2017年

7 夏丙寅;面向移動通信的單通道語音增強(qiáng)方法研究[D];北京工業(yè)大學(xué);2014年

8 姚峰英;語音增強(qiáng)系統(tǒng)的研究與實(shí)現(xiàn)[D];中國科學(xué)院上海冶金研究所;2001年

9 張龍;有監(jiān)督學(xué)習(xí)條件下的單通道語音增強(qiáng)算法研究[D];中國科學(xué)技術(shù)大學(xué);2017年

10 劉威;單通道語音水印與語音增強(qiáng)算法研究[D];東南大學(xué);2017年

相關(guān)碩士學(xué)位論文前10條

1 曲耀文;家庭環(huán)境中的語音增強(qiáng)系統(tǒng)設(shè)計[D];西南科技大學(xué);2018年

2 吳佳雯;基于表示學(xué)習(xí)的語音增強(qiáng)算法研究[D];廈門大學(xué);2017年

3 曾帆;遠(yuǎn)距離麥克風(fēng)陣列語音增強(qiáng)及系統(tǒng)實(shí)現(xiàn)[D];廈門大學(xué);2018年

4 許銘;車載環(huán)境下語音處理關(guān)鍵技術(shù)的研究[D];遼寧工業(yè)大學(xué);2019年

5 賈翔宇;基于張量模型的語音增強(qiáng)算法研究[D];中國科學(xué)技術(shù)大學(xué);2019年

6 吉慧芳;改進(jìn)相位譜信息及相位重構(gòu)的語音增強(qiáng)算法研究[D];太原理工大學(xué);2019年

7 王雁;基于深度神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)算法[D];太原理工大學(xué);2019年

8 武正平;基于稀疏編碼的語音增強(qiáng)算法研究[D];太原理工大學(xué);2019年

9 閆寧;基于多標(biāo)準(zhǔn)融合的快速盲聲源分離算法研究[D];山東大學(xué);2019年

10 白爽冉;基于深度神經(jīng)網(wǎng)絡(luò)的有監(jiān)督語音增強(qiáng)研究[D];山東大學(xué);2019年

本文編號：2738883

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/xinxigongchenglunwen/2738883.html

上一篇：基于CDD的多天線雙向協(xié)作中繼傳輸方案的研究
下一篇：面向不確定頻譜需求的動態(tài)頻譜租賃和服務(wù)選擇研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

復(fù)雜環(huán)境下基于深度學(xué)習(xí)的語音信號預(yù)處理方法研究