天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 信息工程論文 >

復(fù)雜環(huán)境下基于深度學(xué)習(xí)的語音信號預(yù)處理方法研究

發(fā)布時間:2020-07-03 00:18
【摘要】:近年來,由深度學(xué)習(xí)引發(fā)的人工智能熱潮正在影響和改變著人們的生活方式,人們不再滿足單一文本、指令的人機交互,而是期待語音交互這種更加方便、快捷的交流方式。語音則成為其中不可或缺的信息媒介。然而語音在實際的傳輸過程中,背景噪聲和人聲干擾都會對語音造成一定的影響,使得語音的質(zhì)量和可懂度下降,同時也給后續(xù)的應(yīng)用帶來挑戰(zhàn),比如語音識別、說話人識別等。在復(fù)雜的應(yīng)用環(huán)境下,作為語音類應(yīng)用的前端接口,語音信號預(yù)處理顯得尤為重要,其可以細分出處理噪聲干擾的語音增強和處理人聲干擾的語音分離。語音增強是指語音信號被噪聲干擾時,對噪聲進行抑制,從混合信號中提取有用的語音信號的技術(shù)。一般的,語音增強所考慮的噪聲類型是不涵蓋類人聲的干擾信號的。語音分離則是用來處理人聲干擾的前端處理技術(shù),旨在多說話人的場景下提取出目標說話人的語音信號而去除其他說話人的語音信號,應(yīng)用場景如“雞尾酒會問題”。對于語音增強任務(wù)來說,可分為傳統(tǒng)語音增強算法和基于深度學(xué)習(xí)的語音增強算法。傳統(tǒng)語音增強算法多是無監(jiān)督的,通常需要對語音信號和噪聲信號各自的特性及彼此之間的作用關(guān)系做出一定的假設(shè)。傳統(tǒng)的無監(jiān)督語音增強算法可以較好地處理平穩(wěn)噪聲,但是卻難以處理非平穩(wěn)噪聲。近幾年來,深度學(xué)習(xí)技術(shù)在多個領(lǐng)域得到了成功應(yīng)用,也在語音增強領(lǐng)域得到了較多的關(guān)注和研究。早期研究發(fā)現(xiàn),基于DNN(Deep Neural Network)的語音增強算法相較于傳統(tǒng)語音增強算法可以取得很大的性能提升,尤其是在處理非平穩(wěn)噪聲的情況下。然而,基于DNN的有監(jiān)督語音增強算法在實際應(yīng)用中面對真實噪聲場景、說話風(fēng)格差異、低信噪比(Signal-to-NoiseRatio)時存在著推廣性問題,如語音丟失、低可懂度等。針對這些問題,本文將圍繞著訓(xùn)練數(shù)據(jù)構(gòu)造、模型融合和新型模型結(jié)構(gòu)設(shè)計來提升基于深度學(xué)習(xí)的語音增強算法在復(fù)雜的實際環(huán)境下的推廣能力,著力解決低信噪比下的語音失真問題和對噪聲類型的泛化問題。首先,在己有的DNN語音增強算法框架下,基于對低信噪比下訓(xùn)練數(shù)據(jù)的分析,利用語音端點檢測(Voice Activity Detection,VAD)算法對訓(xùn)練數(shù)據(jù)進行處理,得到側(cè)重點不同的兩個DNN語音增強模型。測試階段基于不同增強模型之間的互補性,通過VAD對兩個DNN增強模型進行融合,來提升低信噪比下的語音增強性能,使得模型既能消除噪聲又能保留必要的目標語音。其次,針對基于深度學(xué)習(xí)的語音增強模型的推廣性問題,本文提出了全新的漸進式語音增強框架。該框架下的漸進式學(xué)習(xí)能夠按照信噪比逐步遞增的方式對語音增強問題進行分解,使得網(wǎng)絡(luò)內(nèi)部的功能得以明確,這有別于傳統(tǒng)的“黑箱子”式的神經(jīng)網(wǎng)絡(luò)訓(xùn)練。在漸進式學(xué)習(xí)框架下,近一步提出密集連接的網(wǎng)絡(luò)結(jié)構(gòu)來提升模型的學(xué)習(xí)能力,使之能夠訓(xùn)練出更深層、更好的語音增強模型。漸進式學(xué)習(xí)在DNN和長短時記憶網(wǎng)絡(luò)(Long Short-Term Memory)兩種網(wǎng)絡(luò)結(jié)構(gòu)中都取得了成功應(yīng)用,提升了語音增強模型在實際應(yīng)用場景下的推廣能力。對于語音分離任務(wù)來說,也可分為傳統(tǒng)的語音分離算法和基于深度學(xué)習(xí)的語音分離算法。傳統(tǒng)的語音分離算法多是基于計算聽覺場景分析(CASA),CASA是建立在聽覺場景分析的感知理論基礎(chǔ)上,利用聚類約束(grouping cue)如基音頻率(pitch)等特征線索對同一說話人的語音進行追蹤;谏疃葘W(xué)習(xí)的語音分離算法可以細分為說話人相關(guān)的語音分離和說話人無關(guān)的語音分離;谏疃葘W(xué)習(xí)的說話人相關(guān)模型具有較好的分離效果,本文在說話人相關(guān)的場景下研究噪聲環(huán)境下的語音分離和目標說話人訓(xùn)練數(shù)據(jù)受限情況下的語音分離。首先,在噪聲環(huán)境下,基于深度學(xué)習(xí)的說話人相關(guān)語音分離模型把噪聲干擾和人聲干擾統(tǒng)一看作是對目標語音的干擾,利用神經(jīng)網(wǎng)絡(luò)對二者聯(lián)合建模處理,實驗過程中發(fā)現(xiàn)兩個干擾之間存在互補性。其次,針對目標說話人訓(xùn)練數(shù)據(jù)不足的應(yīng)用場景,本文提出兩階段的語音分離方案來解決數(shù)據(jù)問題,并在CHiME-5比賽的真實數(shù)據(jù)上進行了實驗驗證。
【學(xué)位授予單位】:中國科學(xué)技術(shù)大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2018
【分類號】:TN912.3
【圖文】:

增強算法,淺層,神經(jīng)網(wǎng)絡(luò),頻域特征


更新網(wǎng)絡(luò)參數(shù)。由于語音和噪聲在頻域上更具有區(qū)分性,有學(xué)者在后續(xù)的研究中逡逑使用淺層神經(jīng)網(wǎng)絡(luò)以頻域特征為輸入去預(yù)測干凈語音(Sorensen,邋1991;邋Wan邋etal.,逡逑1999;邋Xieetal.,邋1994),如圖1.4所示。在訓(xùn)練階段,先對帶噪語音和干凈語音提逡逑取頻域特征,基于最小均方誤差準則,以帶噪語音的頻域特征為輸入,以干凈語逡逑音的頻域特征為目標,利用反向錯誤傳播算法來更新網(wǎng)絡(luò)參數(shù);在增強測試階逡逑段,訓(xùn)練好的模型以帶噪語音的頻域特征為輸入,得到的模型輸出即為對干凈語逡逑音的頻域特征的估計。有了頻域特征估計之后,結(jié)合原始語音的相位信息進行逆逡逑傅里葉變換(IDFT),最后使用重疊相加法(Allen,邋1977)得到降噪后的時域語音逡逑信號。逡逑干凈語音逡逑…逡逑IDFT&重疊相加邋^邐-j逡逑邐1:邋_邋I逡逑淺層神經(jīng)網(wǎng)絡(luò)邋|相位逡逑邐邋邋I逡逑n邐|逡逑I逡逑邐邋邋邋a逡逑加窗分幀&DFT邋邐"逡逑tttti邋-邋mi邋丨逡逑帶噪語音逡逑圖1.4基于淺層神經(jīng)網(wǎng)絡(luò)的語音增強算法(王青,2018)。逡逑10逡逑

系統(tǒng)框圖,音分,系統(tǒng)框圖,頻域特征


更新網(wǎng)絡(luò)參數(shù)。由于語音和噪聲在頻域上更具有區(qū)分性,有學(xué)者在后續(xù)的研究中逡逑使用淺層神經(jīng)網(wǎng)絡(luò)以頻域特征為輸入去預(yù)測干凈語音(Sorensen,邋1991;邋Wan邋etal.,逡逑1999;邋Xieetal.,邋1994),如圖1.4所示。在訓(xùn)練階段,先對帶噪語音和干凈語音提逡逑取頻域特征,基于最小均方誤差準則,以帶噪語音的頻域特征為輸入,以干凈語逡逑音的頻域特征為目標,利用反向錯誤傳播算法來更新網(wǎng)絡(luò)參數(shù);在增強測試階逡逑段,訓(xùn)練好的模型以帶噪語音的頻域特征為輸入,得到的模型輸出即為對干凈語逡逑音的頻域特征的估計。有了頻域特征估計之后,結(jié)合原始語音的相位信息進行逆逡逑傅里葉變換(IDFT),最后使用重疊相加法(Allen,邋1977)得到降噪后的時域語音逡逑信號。逡逑干凈語音逡逑…逡逑IDFT&重疊相加邋^邐-j逡逑邐1:邋_邋I逡逑淺層神經(jīng)網(wǎng)絡(luò)邋|相位逡逑邐邋邋I逡逑n邐|逡逑I逡逑邐邋邋邋a逡逑加窗分幀&DFT邋邐"逡逑tttti邋-邋mi邋丨逡逑帶噪語音逡逑圖1.4基于淺層神經(jīng)網(wǎng)絡(luò)的語音增強算法(王青,2018)。逡逑10逡逑

【相似文獻】

相關(guān)期刊論文 前10條

1 石玲;;基于計算機聲卡的譜相減語音增強系統(tǒng)分析[J];信息與電腦(理論版);2010年02期

2 孫濤;;基于計算機聲卡的譜相減語音增強系統(tǒng)分析[J];南昌教育學(xué)院學(xué)報;2010年05期

3 張曉雷;;基于深度學(xué)習(xí)的語音增強簡述[J];網(wǎng)絡(luò)新媒體技術(shù);2019年02期

4 李璐君;屈丹;;一種基于組合深層模型的語音增強方法[J];信息工程大學(xué)學(xué)報;2018年04期

5 袁文浩;婁迎曦;梁春燕;夏斌;;利用生成噪聲提高語音增強方法的泛化能力[J];電子學(xué)報;2019年04期

6 陰法明;唐於烽;;基于深度置信網(wǎng)絡(luò)的語音增強算法[J];電子器件;2018年05期

7 余華;唐於烽;趙力;;基于改進深度置信網(wǎng)絡(luò)的語音增強算法[J];數(shù)據(jù)采集與處理;2018年05期

8 薛慧君;李盛;路國華;張楊;焦騰;王健琪;荊西京;;提升小波用于非接觸語音增強算法的研究[J];醫(yī)療衛(wèi)生裝備;2013年05期

9 胡海波;劉柏森;許銀;;基于小波變換的語音增強研究[J];黑龍江工程學(xué)院學(xué)報(自然科學(xué)版);2011年01期

10 褚偉;;基于條件深度卷積生成對抗網(wǎng)絡(luò)的語音增強研究[J];智能計算機與應(yīng)用;2019年04期

相關(guān)會議論文 前10條

1 王世偉;胡笑滸;鄭成詩;李曉東;;一種改進的基于能量差語音增強算法[A];中國聲學(xué)學(xué)會第九屆青年學(xué)術(shù)會議論文集[C];2011年

2 江峰;李曉東;;適用于抑制非平穩(wěn)背景噪聲的語音增強算法[A];中國聲學(xué)學(xué)會2003年青年學(xué)術(shù)會議[CYCA'03]論文集[C];2003年

3 閻兆立;杜利民;;維納后濾波語音增強算法研究[A];中國聲學(xué)學(xué)會2005年青年學(xué)術(shù)會議[CYCA'05]論文集[C];2005年

4 童峰;許肖梅;洪青陽;;一種帶階數(shù)估計的語音增強算法[A];第八屆全國人機語音通訊學(xué)術(shù)會議論文集[C];2005年

5 袁榕嶸;吳鳴;楊軍;;雙麥克風(fēng)語音增強快速算法[A];泛在信息社會中的聲學(xué)——中國聲學(xué)學(xué)會2010年全國會員代表大會暨學(xué)術(shù)會議論文集[C];2010年

6 國雁萌;;一種極低信噪比條件下的語音增強方法[A];第六屆全國人機語音通訊學(xué)術(shù)會議論文集[C];2001年

7 李海峰;韓紀慶;鄭鐵然;;元音、輔音粗判自適應(yīng)電話語音增強方法[A];第七屆全國人機語音通訊學(xué)術(shù)會議(NCMMSC7)論文集[C];2003年

8 高登峰;楊波;郭東岳;;基于深度神經(jīng)網(wǎng)絡(luò)的地空通話語音增強方法[A];第一屆空中交通管理系統(tǒng)技術(shù)學(xué)術(shù)年會論文集[C];2018年

9 樓廈廈;鄭成詩;李曉東;;濾波器權(quán)值約束對自適應(yīng)零限波束形成語音增強算法魯棒性影響分析[A];中國聲學(xué)學(xué)會2007年青年學(xué)術(shù)會議論文集(上)[C];2007年

10 任玉寶;;基于聯(lián)合字典學(xué)習(xí)的語音增強算法[A];中國聲學(xué)學(xué)會水聲學(xué)分會2019年學(xué)術(shù)會議論文集[C];2019年

相關(guān)重要報紙文章 前3條

1 ;NMS Sonata Ⅲ/Studio Sound級語音增強系統(tǒng)話音更清晰[N];中國計算機報;2003年

2 本報記者 馬楠;NMS市場目標轉(zhuǎn)向無線服務(wù)提供商[N];通信產(chǎn)業(yè)報;2001年

3 ;VoIP服務(wù)不只是便宜的通話[N];網(wǎng)絡(luò)世界;2002年

相關(guān)博士學(xué)位論文 前10條

1 高天;復(fù)雜環(huán)境下基于深度學(xué)習(xí)的語音信號預(yù)處理方法研究[D];中國科學(xué)技術(shù)大學(xué);2018年

2 童仁杰;基于信號稀疏特性的語音增強算法研究[D];中國科學(xué)技術(shù)大學(xué);2018年

3 王青;基于深層神經(jīng)網(wǎng)絡(luò)的多目標學(xué)習(xí)和融合的語音增強研究[D];中國科學(xué)技術(shù)大學(xué);2018年

4 王冬霞;麥克風(fēng)陣列語音增強的若干方法研究[D];大連理工大學(xué);2007年

5 歐世峰;變換域語音增強算法的研究[D];吉林大學(xué);2008年

6 孫琦;基于子空間的低計算復(fù)雜度語音增強算法研究[D];吉林大學(xué);2017年

7 夏丙寅;面向移動通信的單通道語音增強方法研究[D];北京工業(yè)大學(xué);2014年

8 姚峰英;語音增強系統(tǒng)的研究與實現(xiàn)[D];中國科學(xué)院上海冶金研究所;2001年

9 張龍;有監(jiān)督學(xué)習(xí)條件下的單通道語音增強算法研究[D];中國科學(xué)技術(shù)大學(xué);2017年

10 劉威;單通道語音水印與語音增強算法研究[D];東南大學(xué);2017年

相關(guān)碩士學(xué)位論文 前10條

1 曲耀文;家庭環(huán)境中的語音增強系統(tǒng)設(shè)計[D];西南科技大學(xué);2018年

2 吳佳雯;基于表示學(xué)習(xí)的語音增強算法研究[D];廈門大學(xué);2017年

3 曾帆;遠距離麥克風(fēng)陣列語音增強及系統(tǒng)實現(xiàn)[D];廈門大學(xué);2018年

4 許銘;車載環(huán)境下語音處理關(guān)鍵技術(shù)的研究[D];遼寧工業(yè)大學(xué);2019年

5 賈翔宇;基于張量模型的語音增強算法研究[D];中國科學(xué)技術(shù)大學(xué);2019年

6 吉慧芳;改進相位譜信息及相位重構(gòu)的語音增強算法研究[D];太原理工大學(xué);2019年

7 王雁;基于深度神經(jīng)網(wǎng)絡(luò)的語音增強算法[D];太原理工大學(xué);2019年

8 武正平;基于稀疏編碼的語音增強算法研究[D];太原理工大學(xué);2019年

9 閆寧;基于多標準融合的快速盲聲源分離算法研究[D];山東大學(xué);2019年

10 白爽冉;基于深度神經(jīng)網(wǎng)絡(luò)的有監(jiān)督語音增強研究[D];山東大學(xué);2019年



本文編號:2738883

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/2738883.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶df0e2***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com