有監(jiān)督學習條件下的單通道語音增強算法研究
本文選題:單通道語音增強 + 有監(jiān)督學習條件。 參考:《中國科學技術大學》2017年博士論文
【摘要】:語言是實現(xiàn)人與人甚至機器之間便捷交流的信息工具,而語音信號是實現(xiàn)這種工具功能的介質(zhì)。然而在現(xiàn)實生活生產(chǎn)中,語音信號經(jīng)常會被各種類型的干擾噪聲甚至是自身的反射信號所污染。受污染的語音,由于破壞了信號的結(jié)構(gòu)、增添了干擾成分,就一方面會導致人類主觀聽覺感受質(zhì)量的下降甚至疲勞和厭惡,另一方面嚴重影響語音內(nèi)容的可懂度。語音增強所要實現(xiàn)的就是要抑制和消除接收信號中的干擾、噪聲以及反射成分,恢復出干凈的語音信號,從而提高語音的聽覺質(zhì)量和可懂度?梢愿鶕(jù)污染噪聲源的不同,將語音增強大體分為語音解混響、分離和降噪等三個問題,分別對應著污染源為自身反射產(chǎn)生的干擾成分、其他說話人的干擾語音以及環(huán)境中的干擾噪聲。一般根據(jù)算法所使用通道麥克風數(shù)目可以將語音增強算法又大致分為單通道和多通道兩大類。顯然,單通道增強算法是語音增強的基礎和基本方式,也常?梢院投嗤ǖ兰夹g結(jié)合,所以擁有廣泛的研究基礎和非常重要的研究價值。近些年來互聯(lián)網(wǎng)尤其是移動互聯(lián)網(wǎng)和智能設備的快速普及,使得語音數(shù)據(jù)的收集越來越方便和大量,這為各種訓練學習類算法的實現(xiàn)提供了豐富的數(shù)據(jù)原料。基于此,也由于傳統(tǒng)語音解混響和降噪方法的局限性和對非平穩(wěn)干擾噪聲的處理能力有限,本文研究了有監(jiān)督學習條件下的單通道語音增強技術。結(jié)合近些年來興起并迅速發(fā)展的字典學習和稀疏表示理論和方法,本文針對單通道語音降噪以及解混響和降噪問題進行了研究,提出了三種新的算法應用于語音增強中。其中主要的工作和創(chuàng)新點列舉如下:首先,提出了基于區(qū)分性聯(lián)合字典學習的單通道語音降噪算法。針對字典學習和稀疏表示類算法運用于語音降噪過程中遇到的兩個重要問題:一、如何提高學習得到的語音和噪聲字典之間的區(qū)分性;二、如何保持訓練學習和增強測試兩個階段的稀疏表示的一致性。創(chuàng)新性地提出了結(jié)合約束交叉稀疏表示誤差項和不同字典原子間相關性項的區(qū)分性聯(lián)合字典優(yōu)化訓練方法,促進不同字典間的區(qū)分和判別力,從而提高稀疏表示的準確性。此外,通過訓練階段對混合信號的利用,統(tǒng)一了訓練學習和增強測試兩階段的稀疏表示方式,保持了一致性。通過這兩點的改進本文實現(xiàn)了更好的語音增強算法。其次,針對一般字典學習和稀疏表示類單通道降噪算法只是利用了信號時頻幅度譜信息,沒有充分挖掘出帶噪信號中語音和噪聲信號的其他聯(lián)系。本文提出了比率掩碼和掩碼字典的概念,主要是充分利用帶噪信號中的時頻幅度譜中隱含的語音和噪聲的比率掩碼和近似為1的條件,這是由語音和噪聲在時頻譜域上的稀疏性近似保證的。然后,基于字典學習和稀疏表示方法,提出了聯(lián)合語音時頻幅度譜和比率掩碼信息的聯(lián)合字典學習算法,接著利用訓練得到的信號字典和掩碼字典組成的復合字典對帶噪信號和混合比率掩碼進行聯(lián)合稀疏表示得到稀疏表示系數(shù)。將得到的稀疏表示系數(shù)結(jié)合對應的信號字典和掩碼字典構(gòu)建不同的掩碼濾波器完成最終的語音降噪。實驗結(jié)果驗證了算法的有效性。最后,本文研究了單通道語音解混響和降噪問題,指出了之前的基于非負矩陣分解或者非負卷積模型的單通道語音解混響和降噪算法存在對房間沖激響應比較長情況下的收斂性和計算復雜度問題,創(chuàng)造性地提出了一種基于兩步序貫的非負矩陣分解模型的語音解混響和降噪算法。該算法的關鍵之處是將一個較長的房間沖激響應分解為兩個較短的沖激響應的卷積,然后實現(xiàn)分步序貫處理兩個沖激響應下模型下的參數(shù)迭代更新求解問題。最后,利用求得的參數(shù)設計不同的濾波器實現(xiàn)語音增強。此外,本文借鑒集成學習和融合算法優(yōu)勢,設計了兩種不同的融合算法實現(xiàn)更好的增強效果。實驗結(jié)果驗證了算法有效性。
[Abstract]:Language is an information tool for realizing convenient communication between people and even machines, and voice signals are the medium to realize the function of this tool. However, in real life production, voice signals are often polluted by various types of noise and even their own reflection signals. Adding interference components, on the one hand, will lead to a decline in the quality of human subjective auditory sensation, even fatigue and disgust. On the other hand, it seriously affects the intelligibility of the speech content. The speech enhancement is to suppress and eliminate interference, noise and reflection in the received signal, and restore clean voice signals, thus improving the language. According to the different sources of pollution noise, the speech enhancement can be divided into three problems, such as speech reverberation, separation and noise reduction, which correspond to the interference components produced by the source of the pollution, the interfering speech of the other speakers and the noise in the environment. The number of microphone can be roughly divided into two categories: single channel and multi channel. Obviously, single channel enhancement algorithm is the basic and basic way of speech enhancement. It also can often be combined with multi-channel technology, so it has a wide research base and very important research value. In recent years, the Internet is especially mobile and mutual. The rapid popularization of networking and intelligent equipment makes the collection of voice data more and more convenient and large, which provides rich data materials for the implementation of various training learning algorithms. Based on this, the limitations of the traditional speech reverberation and noise reduction methods and the limited ability to deal with non-stationary interference noise are also studied in this paper. Single channel speech enhancement technology under the condition of governor learning. Combined with the theory and method of dictionary learning and sparse representation which has developed rapidly in recent years, this paper studies the noise reduction of single channel and the problem of solution reverberation and noise reduction. Three new algorithms are applied to speech enhancement. The main work and innovation are the main work and the innovation point. The following are listed as follows: first, a single channel speech denoising algorithm based on discriminative joint dictionary learning is proposed. Two important problems encountered in the process of speech denoising are used in dictionary learning and sparse representation. One, how to improve the distinction between speech and noise dictionaries; and two, how to keep training and learn and increase. The consistency of the sparse representation of the two phases is tested. An innovative approach is put forward to optimize the training method of the discriminative joint dictionary combining the constraint cross sparse representation of the error terms and the correlation items between different dictionaries to promote the distinction and discrimination among different dictionaries, thus improving the accuracy of the sparse representation. With the use of the combined signal, the sparse representation of the two stages of training and testing is unified, and the consistency is maintained. Through the improvement of these two points, a better speech enhancement algorithm is realized. Secondly, the single channel noise reduction algorithm for the general dictionary learning and the sparse representation class only uses the signal time frequency amplitude spectrum information, which is not sufficient. The concept of ratio mask and mask dictionary is proposed in this paper, which is mainly used to make full use of the ratio mask and approximate 1 of the implied speech and noise in the time-frequency amplitude spectrum of the noisy signal. This is the approximate guarantee of the sparsity of the speech and noise on the time-frequency domain. Then, based on dictionary learning and sparse representation, a joint dictionary learning algorithm for joint speech frequency amplitude spectrum and ratio mask information is proposed. Then, a composite dictionary consisting of a trained signal dictionary and a mask dictionary is used to sparse representation coefficients of the band noise signal and mixed ratio mask. The sparse representation coefficients are combined with the corresponding signal dictionary and the mask dictionary to construct different mask filters to complete the final speech noise reduction. The experimental results verify the effectiveness of the algorithm. Finally, this paper studies the problem of single channel speech solution reverberation and noise reduction, and points out the previous based on the non negative matrix decomposition or the non negative convolution model. The single channel speech solution reverberation and noise reduction algorithm has the convergence and computational complexity of the room impulse response long, and creatively proposes a speech solution reverberation and noise reduction algorithm based on the two step sequential nonnegative matrix decomposition model. The key point of this algorithm is to decompose a longer room impulse response into the algorithm. Two short impulse response convolutions, and then step sequential processing to solve the problem of iterative updating of the parameters under the two impulse response model. Finally, using the obtained parameters to design different filters to achieve speech enhancement. In addition, this paper draws on the advantages of integrated learning and fusion algorithm, and designs two different fusion algorithms. The experimental results verify the effectiveness of the algorithm.
【學位授予單位】:中國科學技術大學
【學位級別】:博士
【學位授予年份】:2017
【分類號】:TN912.3
【相似文獻】
相關期刊論文 前10條
1 李倩,王讓定,陳金兒;基于改進閾值的小波域語音增強算法[J];寧波大學學報(理工版);2005年03期
2 胡光銳,虞曉;基于二階前向結(jié)構(gòu)和信息最大理論的語音增強算法[J];上海交通大學學報;2000年07期
3 姚峰英,張敏;用于語音增強的高頻信噪比度量[J];聲學學報;2002年05期
4 彭煊,劉金福,王炳錫;基于獨立分量分析的語音增強[J];信號處理;2002年05期
5 王金明,張雄偉;一種基于自適應模糊濾波的語音增強方法[J];解放軍理工大學學報(自然科學版);2003年01期
6 楊匯軍,鄭海英,王立紅;語音增強方法的研究[J];遼寧工學院學報;2003年05期
7 徐爽,韓芳芳,鄭德忠;基于閾值的小波域語音增強新算法[J];傳感技術學報;2004年01期
8 孫新德;一種改進的語音增強方法及實現(xiàn)[J];鄭州航空工業(yè)管理學院學報(社會科學版);2005年04期
9 錢國青;趙鶴鳴;;基于改進譜減算法的語音增強新方法[J];計算機工程與應用;2005年35期
10 王晶,傅豐林,張運偉;語音增強算法綜述[J];聲學與電子工程;2005年01期
相關會議論文 前10條
1 陳凱;俞蒙槐;胡上序;付強;;語音增強系統(tǒng)性能評測方法綜述[A];第四屆全國人機語音通訊學術會議論文集[C];1996年
2 王建波;林本浩;田春明;劉睿;;語音增強及其相關技術研究[A];2009通信理論與技術新發(fā)展——第十四屆全國青年通信學術會議論文集[C];2009年
3 徐舒;孫洪;;基于融合迭代的語音增強方法[A];第十四屆全國信號處理學術年會(CCSP-2009)論文集[C];2009年
4 牛剛;任新智;吳國慶;;諧波能量匯集度在語音增強中的應用[A];第六屆全國信息獲取與處理學術會議論文集(2)[C];2008年
5 國雁萌;;一種極低信噪比條件下的語音增強方法[A];第六屆全國人機語音通訊學術會議論文集[C];2001年
6 江峰;李曉東;;適用于抑制非平穩(wěn)背景噪聲的語音增強算法[A];中國聲學學會2003年青年學術會議[CYCA'03]論文集[C];2003年
7 閻兆立;杜利民;;維納后濾波語音增強算法研究[A];中國聲學學會2005年青年學術會議[CYCA'05]論文集[C];2005年
8 劉淑華;胡強;覃團發(fā);萬海斌;;語音增強算法的研究[A];2005通信理論與技術新進展——第十屆全國青年通信學術會議論文集[C];2005年
9 魏臻;張景達;陸陽;;嵌入式系統(tǒng)中語音增強改進算法的研究[A];2007'中國儀器儀表與測控技術交流大會論文集(一)[C];2007年
10 楊威明;;基于閾值的小波變換語音增強方法[A];2007北京地區(qū)高校研究生學術交流會通信與信息技術會議論文集(上冊)[C];2008年
相關博士學位論文 前10條
1 張龍;有監(jiān)督學習條件下的單通道語音增強算法研究[D];中國科學技術大學;2017年
2 歐世峰;變換域語音增強算法的研究[D];吉林大學;2008年
3 尹偉;基于模型的語音增強方法及質(zhì)量評估研究[D];武漢大學;2009年
4 王海艷;基于統(tǒng)計模型的語音增強算法研究[D];吉林大學;2011年
5 方瑜;語音增強相關問題研究[D];北京郵電大學;2012年
6 姚峰英;語音增強系統(tǒng)的研究與實現(xiàn)[D];中國科學院上海冶金研究所;2001年
7 夏丙寅;面向移動通信的單通道語音增強方法研究[D];北京工業(yè)大學;2014年
8 徐勇;基于深層神經(jīng)網(wǎng)絡的語音增強方法研究[D];中國科學技術大學;2015年
9 陶智;低信噪比環(huán)境下語音增強的研究[D];蘇州大學;2011年
10 王娜;基于小波變換與約束方差噪聲譜估計的語音增強算法研究[D];燕山大學;2011年
相關碩士學位論文 前10條
1 肖佩霖;雙通道語音增強系統(tǒng)設計與實現(xiàn)[D];哈爾濱工業(yè)大學;2011年
2 陳成斌;針對于家居環(huán)境的語音增強系統(tǒng)的研究與開發(fā)[D];華南理工大學;2015年
3 魏有權;基于噪聲估計的語音增強算法研究[D];昆明理工大學;2015年
4 胡勇;麥克風陣列語音增強算法研究[D];電子科技大學;2014年
5 曹后斌;有色背景噪聲環(huán)境下語音增強系統(tǒng)的設計與實現(xiàn)[D];電子科技大學;2014年
6 馬小惠;陣列語音增強在車載環(huán)境中的應用[D];大連理工大學;2015年
7 李達;無線聲學傳感器網(wǎng)絡中分布式語音增強方法研究[D];大連理工大學;2015年
8 高珍珍;基于梅爾頻譜域HMM的語音增強方法研究[D];北京工業(yè)大學;2015年
9 宋環(huán)宇;全數(shù)字助聽器語音增強算法研究[D];哈爾濱工業(yè)大學;2014年
10 王永杰;基于麥克風陣列的語音增強算法研究[D];西安電子科技大學;2014年
,本文編號:1801149
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/1801149.html