基于噪聲基的語音增強(qiáng)方法及其魯棒性問題的研究
本文選題:語音增強(qiáng) 切入點(diǎn):噪聲基 出處:《中國(guó)科學(xué)技術(shù)大學(xué)》2017年碩士論文
【摘要】:在語音通信過程中,由于受到背景噪聲和混響的干擾,導(dǎo)致語音的可懂度下降和聽感變差。因此在語音通信中,通常需要使用語音增強(qiáng)技術(shù)。傳統(tǒng)語音增強(qiáng)方法中,基于無監(jiān)督學(xué)習(xí)的語音增強(qiáng)方法存在不合理的假設(shè)限制了其性能,近年來隨著語音數(shù)據(jù)規(guī)模的增大和硬件性能的提高,基于深層神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)方法展現(xiàn)了相對(duì)無監(jiān)督學(xué)習(xí)方法的極大優(yōu)勢(shì)。首先,我們介紹了基于深層神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)方法。但是傳統(tǒng)基于深層神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)方法在收集真實(shí)噪聲的時(shí)候,無法在覆蓋度方面對(duì)噪聲進(jìn)行度量和控制,也就是說,這類方法側(cè)重于數(shù)據(jù)規(guī)模,并沒有對(duì)數(shù)據(jù)進(jìn)行細(xì)致的分析。在數(shù)據(jù)量較大之后,噪聲數(shù)據(jù)通常存在較大的冗余。此外,對(duì)于一般實(shí)驗(yàn)者來說,獲取真實(shí)噪聲通常需要支付較高的成本。針對(duì)以上問題,我們提出了基于噪聲基的深層神經(jīng)網(wǎng)絡(luò)語音增強(qiáng)方法,并針對(duì)噪聲魯棒性問題開展了系統(tǒng)性的研究。其次,考慮到噪聲的多樣性和緊湊性,我們提出了一種基于噪聲基的深層神經(jīng)網(wǎng)絡(luò)語音增強(qiáng)方法。因?yàn)樯窠?jīng)網(wǎng)絡(luò)的輸入和輸出及學(xué)習(xí)均是在幀這一級(jí)別進(jìn)行,這給我們?cè)诟〉膯卧仙钊敕治鲈肼暤恼Z譜結(jié)構(gòu)帶來了可能。因此,首先我們驗(yàn)證了基于深層神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)方法的對(duì)噪聲學(xué)習(xí)的原理。通過合理地構(gòu)造一組完備的具有表征性和區(qū)分性的噪聲基,在不使用任何真實(shí)噪聲訓(xùn)練的條件下,基于噪聲基的深層神經(jīng)網(wǎng)絡(luò)語音增強(qiáng)的方法能夠獲得與傳統(tǒng)使用真實(shí)噪聲的方法相當(dāng)?shù)男阅?同時(shí)證明了這組噪聲基和真實(shí)噪聲存在互補(bǔ)性。再次,為了在有限的訓(xùn)練數(shù)據(jù)規(guī)模的條件下,讓每句語音組合到更多的噪聲基,同時(shí)為了讓噪聲基覆蓋到類型更豐富的真實(shí)噪聲,我們提出了一種基于噪聲基并結(jié)合線性組合的噪聲信號(hào)的構(gòu)造方法。首先,我們介紹了通過噪聲基的線性組合可以覆蓋到更多噪聲類型的原理。其次,根據(jù)這一原理,通過將基于噪聲基并結(jié)合線性組合的噪聲信號(hào)直接作為訓(xùn)練噪聲,可以進(jìn)一步提升噪聲基的性能。然后,針對(duì)窄帶噪聲這一細(xì)分類型進(jìn)行定制,可以獲得比50種真實(shí)噪聲更好的性能。此外,噪聲基比真實(shí)噪聲訓(xùn)練效率提高了一倍。最后,使用基于漸進(jìn)學(xué)習(xí)的語音增強(qiáng)方法和基于多信息源融合的語音增強(qiáng)方法這兩種新的框架,在豐富的訓(xùn)練集外的窄帶/寬帶噪聲類型和訓(xùn)練集外的語音上驗(yàn)證了我們的結(jié)論,即在不使用任何真實(shí)噪聲訓(xùn)練的條件下,噪聲基在新的框架下仍然能夠獲得與傳統(tǒng)使用真實(shí)噪聲的方法相當(dāng)?shù)男阅?展現(xiàn)了噪聲基對(duì)豐富類型集外噪聲的泛化能力。
[Abstract]:In the process of speech communication, due to background noise and reverberation, the intelligibility of speech decreases and the sense of hearing becomes worse. Therefore, speech enhancement technology is usually used in speech communication. The performance of speech enhancement based on unsupervised learning is limited by unreasonable assumptions. In recent years, with the increase of the scale of speech data and the improvement of hardware performance, The speech enhancement method based on the deep neural network shows the great advantage of the unsupervised learning method. First of all, We introduce the speech enhancement method based on deep neural network, but the traditional speech enhancement method based on deep neural network can not measure and control the noise in terms of coverage when collecting real noise. This approach focuses on the size of the data and does not provide a detailed analysis of the data. After a large amount of data, the noise data is usually redundant. In addition, for the general experimenter, To obtain real noise, we usually pay a high cost. To solve the above problems, we propose a speech enhancement method based on deep neural networks based on noise basis, and carry out systematic research on noise robustness. Secondly, Considering the diversity and compactness of noise, we propose a speech enhancement method based on noise basis for deep neural networks, because the input, output and learning of neural networks are carried out at the frame level. This makes it possible for us to further analyze the spectral structure of noise on smaller units. First of all, we verify the principle of noise learning in speech enhancement based on deep neural network. By constructing a complete set of representative and discriminative noise bases reasonably, we do not use any real noise training condition. The speech enhancement method of deep neural network based on noise base can achieve the same performance as the traditional method of using real noise. It also proves that the noise base and the real noise are complementary. In order to combine each sentence into more noise bases under the condition of limited training data scale, and to cover the noise base to more types of real noise, We propose a method of constructing noise signals based on noise base and linear combination. Firstly, we introduce the principle that the linear combination of noise bases can cover more noise types. Secondly, according to this principle, The performance of the noise base can be further improved by taking the noise signal based on the noise base and combining the linear combination directly as the training noise. You can get better performance than 50 kinds of real noise. In addition, the noise base is twice as efficient as the real noise training. Finally, Two new frameworks, progressive learning based speech enhancement method and multi-source fusion based speech enhancement method, are used to verify our conclusion on the narrowband / wideband noise types outside the rich training set and the speech outside the training set. That is, without using any real noise training, the noise base can still achieve the same performance as the traditional method of using real noise under the new framework, which shows the generalization ability of the noise base to the off-set noise of rich types.
【學(xué)位授予單位】:中國(guó)科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TN912.3
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 李倩,王讓定,陳金兒;基于改進(jìn)閾值的小波域語音增強(qiáng)算法[J];寧波大學(xué)學(xué)報(bào)(理工版);2005年03期
2 胡光銳,虞曉;基于二階前向結(jié)構(gòu)和信息最大理論的語音增強(qiáng)算法[J];上海交通大學(xué)學(xué)報(bào);2000年07期
3 姚峰英,張敏;用于語音增強(qiáng)的高頻信噪比度量[J];聲學(xué)學(xué)報(bào);2002年05期
4 彭煊,劉金福,王炳錫;基于獨(dú)立分量分析的語音增強(qiáng)[J];信號(hào)處理;2002年05期
5 王金明,張雄偉;一種基于自適應(yīng)模糊濾波的語音增強(qiáng)方法[J];解放軍理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2003年01期
6 楊匯軍,鄭海英,王立紅;語音增強(qiáng)方法的研究[J];遼寧工學(xué)院學(xué)報(bào);2003年05期
7 徐爽,韓芳芳,鄭德忠;基于閾值的小波域語音增強(qiáng)新算法[J];傳感技術(shù)學(xué)報(bào);2004年01期
8 孫新德;一種改進(jìn)的語音增強(qiáng)方法及實(shí)現(xiàn)[J];鄭州航空工業(yè)管理學(xué)院學(xué)報(bào)(社會(huì)科學(xué)版);2005年04期
9 錢國(guó)青;趙鶴鳴;;基于改進(jìn)譜減算法的語音增強(qiáng)新方法[J];計(jì)算機(jī)工程與應(yīng)用;2005年35期
10 王晶,傅豐林,張運(yùn)偉;語音增強(qiáng)算法綜述[J];聲學(xué)與電子工程;2005年01期
相關(guān)會(huì)議論文 前10條
1 陳凱;俞蒙槐;胡上序;付強(qiáng);;語音增強(qiáng)系統(tǒng)性能評(píng)測(cè)方法綜述[A];第四屆全國(guó)人機(jī)語音通訊學(xué)術(shù)會(huì)議論文集[C];1996年
2 王建波;林本浩;田春明;劉睿;;語音增強(qiáng)及其相關(guān)技術(shù)研究[A];2009通信理論與技術(shù)新發(fā)展——第十四屆全國(guó)青年通信學(xué)術(shù)會(huì)議論文集[C];2009年
3 徐舒;孫洪;;基于融合迭代的語音增強(qiáng)方法[A];第十四屆全國(guó)信號(hào)處理學(xué)術(shù)年會(huì)(CCSP-2009)論文集[C];2009年
4 牛剛;任新智;吳國(guó)慶;;諧波能量匯集度在語音增強(qiáng)中的應(yīng)用[A];第六屆全國(guó)信息獲取與處理學(xué)術(shù)會(huì)議論文集(2)[C];2008年
5 國(guó)雁萌;;一種極低信噪比條件下的語音增強(qiáng)方法[A];第六屆全國(guó)人機(jī)語音通訊學(xué)術(shù)會(huì)議論文集[C];2001年
6 江峰;李曉東;;適用于抑制非平穩(wěn)背景噪聲的語音增強(qiáng)算法[A];中國(guó)聲學(xué)學(xué)會(huì)2003年青年學(xué)術(shù)會(huì)議[CYCA'03]論文集[C];2003年
7 閻兆立;杜利民;;維納后濾波語音增強(qiáng)算法研究[A];中國(guó)聲學(xué)學(xué)會(huì)2005年青年學(xué)術(shù)會(huì)議[CYCA'05]論文集[C];2005年
8 劉淑華;胡強(qiáng);覃團(tuán)發(fā);萬海斌;;語音增強(qiáng)算法的研究[A];2005通信理論與技術(shù)新進(jìn)展——第十屆全國(guó)青年通信學(xué)術(shù)會(huì)議論文集[C];2005年
9 魏臻;張景達(dá);陸陽(yáng);;嵌入式系統(tǒng)中語音增強(qiáng)改進(jìn)算法的研究[A];2007'中國(guó)儀器儀表與測(cè)控技術(shù)交流大會(huì)論文集(一)[C];2007年
10 楊威明;;基于閾值的小波變換語音增強(qiáng)方法[A];2007北京地區(qū)高校研究生學(xué)術(shù)交流會(huì)通信與信息技術(shù)會(huì)議論文集(上冊(cè))[C];2008年
相關(guān)博士學(xué)位論文 前10條
1 張龍;有監(jiān)督學(xué)習(xí)條件下的單通道語音增強(qiáng)算法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2017年
2 歐世峰;變換域語音增強(qiáng)算法的研究[D];吉林大學(xué);2008年
3 尹偉;基于模型的語音增強(qiáng)方法及質(zhì)量評(píng)估研究[D];武漢大學(xué);2009年
4 王海艷;基于統(tǒng)計(jì)模型的語音增強(qiáng)算法研究[D];吉林大學(xué);2011年
5 方瑜;語音增強(qiáng)相關(guān)問題研究[D];北京郵電大學(xué);2012年
6 姚峰英;語音增強(qiáng)系統(tǒng)的研究與實(shí)現(xiàn)[D];中國(guó)科學(xué)院上海冶金研究所;2001年
7 夏丙寅;面向移動(dòng)通信的單通道語音增強(qiáng)方法研究[D];北京工業(yè)大學(xué);2014年
8 徐勇;基于深層神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)方法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2015年
9 陶智;低信噪比環(huán)境下語音增強(qiáng)的研究[D];蘇州大學(xué);2011年
10 王娜;基于小波變換與約束方差噪聲譜估計(jì)的語音增強(qiáng)算法研究[D];燕山大學(xué);2011年
相關(guān)碩士學(xué)位論文 前10條
1 肖佩霖;雙通道語音增強(qiáng)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2011年
2 陳成斌;針對(duì)于家居環(huán)境的語音增強(qiáng)系統(tǒng)的研究與開發(fā)[D];華南理工大學(xué);2015年
3 魏有權(quán);基于噪聲估計(jì)的語音增強(qiáng)算法研究[D];昆明理工大學(xué);2015年
4 胡勇;麥克風(fēng)陣列語音增強(qiáng)算法研究[D];電子科技大學(xué);2014年
5 曹后斌;有色背景噪聲環(huán)境下語音增強(qiáng)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2014年
6 馬小惠;陣列語音增強(qiáng)在車載環(huán)境中的應(yīng)用[D];大連理工大學(xué);2015年
7 李達(dá);無線聲學(xué)傳感器網(wǎng)絡(luò)中分布式語音增強(qiáng)方法研究[D];大連理工大學(xué);2015年
8 高珍珍;基于梅爾頻譜域HMM的語音增強(qiáng)方法研究[D];北京工業(yè)大學(xué);2015年
9 宋環(huán)宇;全數(shù)字助聽器語音增強(qiáng)算法研究[D];哈爾濱工業(yè)大學(xué);2014年
10 王永杰;基于麥克風(fēng)陣列的語音增強(qiáng)算法研究[D];西安電子科技大學(xué);2014年
,本文編號(hào):1655574
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/1655574.html