基于深度學(xué)習(xí)的單通道語(yǔ)音增強(qiáng)研究
發(fā)布時(shí)間:2021-08-26 16:08
語(yǔ)音增強(qiáng)技術(shù)的目的是對(duì)帶噪語(yǔ)音中的噪聲部分進(jìn)行抑制,同時(shí)盡量保留純凈語(yǔ)音部分。近幾年,語(yǔ)音增強(qiáng)開始作為監(jiān)督性學(xué)習(xí)問題來(lái)解決,模型直接從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到語(yǔ)音和噪聲的區(qū)別。特別是最近基于深度學(xué)習(xí)的語(yǔ)音增強(qiáng)算法,表現(xiàn)出了可觀的性能。本文在監(jiān)督性語(yǔ)音增強(qiáng)的框架下,從兩個(gè)方面展開了研究:(1)基于膠囊網(wǎng)絡(luò)的語(yǔ)音增強(qiáng):深度神經(jīng)網(wǎng)絡(luò)(DNN)在語(yǔ)音增強(qiáng)任務(wù)上取得了很好的性能,但是對(duì)噪聲的泛化性依然存在問題。為了提高模型的泛化性能,我們提出使用膠囊網(wǎng)絡(luò)進(jìn)行語(yǔ)音增強(qiáng)。膠囊網(wǎng)絡(luò)最開始在圖像處理領(lǐng)域提出,表現(xiàn)出了對(duì)輸入的仿射變換具有魯棒性,并且膠囊網(wǎng)絡(luò)擅長(zhǎng)識(shí)別重疊物體。我們認(rèn)為帶噪語(yǔ)音就是語(yǔ)音和噪聲的重疊,因此膠囊網(wǎng)絡(luò)也適合處理語(yǔ)音增強(qiáng)問題。實(shí)驗(yàn)表明,基于膠囊網(wǎng)絡(luò)的方法表現(xiàn)出比DNN更好的對(duì)噪聲的泛化性能。(2)基于時(shí)序卷積循環(huán)神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng):大多數(shù)基于深度學(xué)習(xí)的語(yǔ)音增強(qiáng)方法,都是在時(shí)頻域上進(jìn)行。由于目標(biāo)的相位很難使用模型進(jìn)行直接估計(jì),因此一般只估計(jì)頻譜的幅值,而保留混合語(yǔ)音的相位,這會(huì)降低語(yǔ)音增強(qiáng)系統(tǒng)的性能。在本文的工作中,我們提出使用時(shí)序卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(TCRN)進(jìn)行語(yǔ)音增強(qiáng),直接將帶噪語(yǔ)音波形映...
【文章來(lái)源】:內(nèi)蒙古大學(xué)內(nèi)蒙古自治區(qū) 211工程院校
【文章頁(yè)數(shù)】:55 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
加窗示意圖
內(nèi)蒙古大學(xué)碩士學(xué)位論文9第三章深度學(xué)習(xí)框架下的語(yǔ)音增強(qiáng)概述現(xiàn)實(shí)環(huán)境中帶噪語(yǔ)音()生成的過(guò)程可以形式化描述為:()=()+()(3.1)其中()代表純凈語(yǔ)音,()代表環(huán)境噪聲,不考慮混響的情況下,可以認(rèn)為噪聲和語(yǔ)音通過(guò)加性疊加生成了帶噪語(yǔ)音。語(yǔ)音增強(qiáng)的目的就是在已知()的情況下,求解()。由于實(shí)際環(huán)境中的語(yǔ)音和噪聲的統(tǒng)計(jì)特性有所區(qū)別,所以這個(gè)問題仍然是可解的。使用深度學(xué)習(xí)解決語(yǔ)音增強(qiáng)問題,就是從數(shù)據(jù)中直接學(xué)習(xí)語(yǔ)音和噪聲的區(qū)別,從而得到純凈語(yǔ)音。將語(yǔ)音增強(qiáng)放在深度學(xué)習(xí)的框架來(lái)解決,可以分為訓(xùn)練和測(cè)試兩個(gè)階段[11]。在訓(xùn)練階段,通過(guò)使用監(jiān)督性學(xué)習(xí)算法對(duì)大量訓(xùn)練數(shù)據(jù)進(jìn)行挖掘和學(xué)習(xí),模型就會(huì)獲得去除語(yǔ)音中噪聲的能力。在測(cè)試階段,將帶噪語(yǔ)音輸入訓(xùn)練好的增強(qiáng)模型,就可以得到降噪后的語(yǔ)音。圖3.1給出了整體的結(jié)構(gòu)框圖。圖3.1基于深度學(xué)習(xí)的語(yǔ)音增強(qiáng)系統(tǒng)的結(jié)構(gòu)框圖Figure3.1Ablockdiagramofthedeeplearningbasedspeechenhancementsystem3.1訓(xùn)練數(shù)據(jù)生成深度學(xué)習(xí)的模型需要在大量的數(shù)據(jù)上進(jìn)行迭代[12],訓(xùn)練需要的數(shù)據(jù)包括兩部分:輸入數(shù)據(jù)和輸出目標(biāo)。在語(yǔ)音增強(qiáng)中,輸入數(shù)據(jù)是帶噪語(yǔ)音,輸出目標(biāo)是純凈語(yǔ)音特征或者各種時(shí)頻掩蔽。無(wú)論是哪種輸出目標(biāo),需要準(zhǔn)確的純凈語(yǔ)音數(shù)據(jù)進(jìn)行一系列變換得到。對(duì)于實(shí)錄的
理想二值掩蔽Figure3.2Idealbinarymask,IBM
本文編號(hào):3364548
【文章來(lái)源】:內(nèi)蒙古大學(xué)內(nèi)蒙古自治區(qū) 211工程院校
【文章頁(yè)數(shù)】:55 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
加窗示意圖
內(nèi)蒙古大學(xué)碩士學(xué)位論文9第三章深度學(xué)習(xí)框架下的語(yǔ)音增強(qiáng)概述現(xiàn)實(shí)環(huán)境中帶噪語(yǔ)音()生成的過(guò)程可以形式化描述為:()=()+()(3.1)其中()代表純凈語(yǔ)音,()代表環(huán)境噪聲,不考慮混響的情況下,可以認(rèn)為噪聲和語(yǔ)音通過(guò)加性疊加生成了帶噪語(yǔ)音。語(yǔ)音增強(qiáng)的目的就是在已知()的情況下,求解()。由于實(shí)際環(huán)境中的語(yǔ)音和噪聲的統(tǒng)計(jì)特性有所區(qū)別,所以這個(gè)問題仍然是可解的。使用深度學(xué)習(xí)解決語(yǔ)音增強(qiáng)問題,就是從數(shù)據(jù)中直接學(xué)習(xí)語(yǔ)音和噪聲的區(qū)別,從而得到純凈語(yǔ)音。將語(yǔ)音增強(qiáng)放在深度學(xué)習(xí)的框架來(lái)解決,可以分為訓(xùn)練和測(cè)試兩個(gè)階段[11]。在訓(xùn)練階段,通過(guò)使用監(jiān)督性學(xué)習(xí)算法對(duì)大量訓(xùn)練數(shù)據(jù)進(jìn)行挖掘和學(xué)習(xí),模型就會(huì)獲得去除語(yǔ)音中噪聲的能力。在測(cè)試階段,將帶噪語(yǔ)音輸入訓(xùn)練好的增強(qiáng)模型,就可以得到降噪后的語(yǔ)音。圖3.1給出了整體的結(jié)構(gòu)框圖。圖3.1基于深度學(xué)習(xí)的語(yǔ)音增強(qiáng)系統(tǒng)的結(jié)構(gòu)框圖Figure3.1Ablockdiagramofthedeeplearningbasedspeechenhancementsystem3.1訓(xùn)練數(shù)據(jù)生成深度學(xué)習(xí)的模型需要在大量的數(shù)據(jù)上進(jìn)行迭代[12],訓(xùn)練需要的數(shù)據(jù)包括兩部分:輸入數(shù)據(jù)和輸出目標(biāo)。在語(yǔ)音增強(qiáng)中,輸入數(shù)據(jù)是帶噪語(yǔ)音,輸出目標(biāo)是純凈語(yǔ)音特征或者各種時(shí)頻掩蔽。無(wú)論是哪種輸出目標(biāo),需要準(zhǔn)確的純凈語(yǔ)音數(shù)據(jù)進(jìn)行一系列變換得到。對(duì)于實(shí)錄的
理想二值掩蔽Figure3.2Idealbinarymask,IBM
本文編號(hào):3364548
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3364548.html
最近更新
教材專著