天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度學習的單通道語音增強研究

發(fā)布時間:2021-08-26 16:08
  語音增強技術的目的是對帶噪語音中的噪聲部分進行抑制,同時盡量保留純凈語音部分。近幾年,語音增強開始作為監(jiān)督性學習問題來解決,模型直接從訓練數(shù)據(jù)中學習到語音和噪聲的區(qū)別。特別是最近基于深度學習的語音增強算法,表現(xiàn)出了可觀的性能。本文在監(jiān)督性語音增強的框架下,從兩個方面展開了研究:(1)基于膠囊網(wǎng)絡的語音增強:深度神經(jīng)網(wǎng)絡(DNN)在語音增強任務上取得了很好的性能,但是對噪聲的泛化性依然存在問題。為了提高模型的泛化性能,我們提出使用膠囊網(wǎng)絡進行語音增強。膠囊網(wǎng)絡最開始在圖像處理領域提出,表現(xiàn)出了對輸入的仿射變換具有魯棒性,并且膠囊網(wǎng)絡擅長識別重疊物體。我們認為帶噪語音就是語音和噪聲的重疊,因此膠囊網(wǎng)絡也適合處理語音增強問題。實驗表明,基于膠囊網(wǎng)絡的方法表現(xiàn)出比DNN更好的對噪聲的泛化性能。(2)基于時序卷積循環(huán)神經(jīng)網(wǎng)絡的語音增強:大多數(shù)基于深度學習的語音增強方法,都是在時頻域上進行。由于目標的相位很難使用模型進行直接估計,因此一般只估計頻譜的幅值,而保留混合語音的相位,這會降低語音增強系統(tǒng)的性能。在本文的工作中,我們提出使用時序卷積循環(huán)神經(jīng)網(wǎng)絡(TCRN)進行語音增強,直接將帶噪語音波形映... 

【文章來源】:內(nèi)蒙古大學內(nèi)蒙古自治區(qū) 211工程院校

【文章頁數(shù)】:55 頁

【學位級別】:碩士

【部分圖文】:

基于深度學習的單通道語音增強研究


加窗示意圖

結構框圖,語音增強,結構框圖,語音


內(nèi)蒙古大學碩士學位論文9第三章深度學習框架下的語音增強概述現(xiàn)實環(huán)境中帶噪語音()生成的過程可以形式化描述為:()=()+()(3.1)其中()代表純凈語音,()代表環(huán)境噪聲,不考慮混響的情況下,可以認為噪聲和語音通過加性疊加生成了帶噪語音。語音增強的目的就是在已知()的情況下,求解()。由于實際環(huán)境中的語音和噪聲的統(tǒng)計特性有所區(qū)別,所以這個問題仍然是可解的。使用深度學習解決語音增強問題,就是從數(shù)據(jù)中直接學習語音和噪聲的區(qū)別,從而得到純凈語音。將語音增強放在深度學習的框架來解決,可以分為訓練和測試兩個階段[11]。在訓練階段,通過使用監(jiān)督性學習算法對大量訓練數(shù)據(jù)進行挖掘和學習,模型就會獲得去除語音中噪聲的能力。在測試階段,將帶噪語音輸入訓練好的增強模型,就可以得到降噪后的語音。圖3.1給出了整體的結構框圖。圖3.1基于深度學習的語音增強系統(tǒng)的結構框圖Figure3.1Ablockdiagramofthedeeplearningbasedspeechenhancementsystem3.1訓練數(shù)據(jù)生成深度學習的模型需要在大量的數(shù)據(jù)上進行迭代[12],訓練需要的數(shù)據(jù)包括兩部分:輸入數(shù)據(jù)和輸出目標。在語音增強中,輸入數(shù)據(jù)是帶噪語音,輸出目標是純凈語音特征或者各種時頻掩蔽。無論是哪種輸出目標,需要準確的純凈語音數(shù)據(jù)進行一系列變換得到。對于實錄的

基于深度學習的單通道語音增強研究


理想二值掩蔽Figure3.2Idealbinarymask,IBM


本文編號:3364548

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3364548.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶5c630***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com