基于深度學習的單通道語音增強研究

發(fā)布時間：2021-08-26 16:08

　　語音增強技術的目的是對帶噪語音中的噪聲部分進行抑制,同時盡量保留純凈語音部分。近幾年,語音增強開始作為監(jiān)督性學習問題來解決,模型直接從訓練數(shù)據(jù)中學習到語音和噪聲的區(qū)別。特別是最近基于深度學習的語音增強算法,表現(xiàn)出了可觀的性能。本文在監(jiān)督性語音增強的框架下,從兩個方面展開了研究:（1）基于膠囊網(wǎng)絡的語音增強:深度神經(jīng)網(wǎng)絡（DNN）在語音增強任務上取得了很好的性能,但是對噪聲的泛化性依然存在問題。為了提高模型的泛化性能,我們提出使用膠囊網(wǎng)絡進行語音增強。膠囊網(wǎng)絡最開始在圖像處理領域提出,表現(xiàn)出了對輸入的仿射變換具有魯棒性,并且膠囊網(wǎng)絡擅長識別重疊物體。我們認為帶噪語音就是語音和噪聲的重疊,因此膠囊網(wǎng)絡也適合處理語音增強問題。實驗表明,基于膠囊網(wǎng)絡的方法表現(xiàn)出比DNN更好的對噪聲的泛化性能。（2）基于時序卷積循環(huán)神經(jīng)網(wǎng)絡的語音增強:大多數(shù)基于深度學習的語音增強方法,都是在時頻域上進行。由于目標的相位很難使用模型進行直接估計,因此一般只估計頻譜的幅值,而保留混合語音的相位,這會降低語音增強系統(tǒng)的性能。在本文的工作中,我們提出使用時序卷積循環(huán)神經(jīng)網(wǎng)絡（TCRN）進行語音增強,直接將帶噪語音波形映...

【文章來源】：內(nèi)蒙古大學內(nèi)蒙古自治區(qū) 211工程院校

【文章頁數(shù)】：55 頁

【學位級別】：碩士

【部分圖文】：

基于深度學習的單通道語音增強研究

加窗示意圖

結構框圖,語音增強,結構框圖,語音

內(nèi)蒙古大學碩士學位論文9第三章深度學習框架下的語音增強概述現(xiàn)實環(huán)境中帶噪語音()生成的過程可以形式化描述為：()=()+()(3.1)其中()代表純凈語音，()代表環(huán)境噪聲，不考慮混響的情況下，可以認為噪聲和語音通過加性疊加生成了帶噪語音。語音增強的目的就是在已知()的情況下，求解()。由于實際環(huán)境中的語音和噪聲的統(tǒng)計特性有所區(qū)別，所以這個問題仍然是可解的。使用深度學習解決語音增強問題，就是從數(shù)據(jù)中直接學習語音和噪聲的區(qū)別，從而得到純凈語音。將語音增強放在深度學習的框架來解決，可以分為訓練和測試兩個階段[11]。在訓練階段，通過使用監(jiān)督性學習算法對大量訓練數(shù)據(jù)進行挖掘和學習，模型就會獲得去除語音中噪聲的能力。在測試階段，將帶噪語音輸入訓練好的增強模型，就可以得到降噪后的語音。圖3.1給出了整體的結構框圖。圖3.1基于深度學習的語音增強系統(tǒng)的結構框圖Figure3.1Ablockdiagramofthedeeplearningbasedspeechenhancementsystem3.1訓練數(shù)據(jù)生成深度學習的模型需要在大量的數(shù)據(jù)上進行迭代[12]，訓練需要的數(shù)據(jù)包括兩部分：輸入數(shù)據(jù)和輸出目標。在語音增強中，輸入數(shù)據(jù)是帶噪語音，輸出目標是純凈語音特征或者各種時頻掩蔽。無論是哪種輸出目標，需要準確的純凈語音數(shù)據(jù)進行一系列變換得到。對于實錄的

基于深度學習的單通道語音增強研究

理想二值掩蔽Figure3.2Idealbinarymask,IBM

本文編號：3364548

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/shoufeilunwen/xixikjs/3364548.html

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度學習的單通道語音增強研究