基于稀疏表示的語音增強方法研究

發(fā)布時間：2018-05-10 23:13

本文選題：語音增強 + 稀疏表示��；參考：《吉林大學》2014年博士論文

【摘要】：語音在通信過程中不可避免的受到周圍環(huán)境噪聲的干擾，噪聲過大時不僅使人們聽不清對方的談話內容，還容易使人們疲勞，產生煩躁的情緒。所以在接收端要進行去噪聲處理，這就是語音增強技術或噪聲抑制技術。在不引入新的噪聲前提下如何有效的去除噪聲又能保持語音不失真是語音增強的目的，從而提高語音信號的質量和可懂度。提高語音質量可以減少聽者的疲勞，提高可懂度可以減少失真。語音增強廣泛應用于語音識別、語音編碼等系統(tǒng)中。在免提設備、助聽器等領域的應用也越來越多。除此之外，在人機對話、機器翻譯、藍牙、智能家居等方面也發(fā)揮著越來越大的作用。經過幾十年的發(fā)展，語音增強已經有許多成熟有效的算法，這些算法大致可分為基于譜減的語音增強方法、基于統(tǒng)計模型的語音增強方法、基于信號子空間的語音增強方法以及基于維納濾波的語音增強方法。由于經傅里葉變換后的語音信號能量大多集中在低頻部分，并且具有良好的去相關特性，語音增強方法中大部分算法都是在短時傅里葉變換域實現的。而有些方面的應用，如在語音編碼中，功率譜估計器比幅度譜估計器能獲得更好的性能。無論功率譜減法還是幅度平方譜估計器都假設帶噪語音信號的功率譜可以表示為純凈語音和噪聲功率譜之和，并且功率譜由幅度平方譜近似估計。基于這一假設，本文提出了基于功率譜稀疏表示的語音增強方法。稀疏表示是從一個過完備字典中選擇少數原子以線性組合的形式來表示一個信號的全部或大部分信息，可以應用非負矩陣分解或壓縮感知等技術獲得最稀疏的線性組合。本文利用加非負限制的近似K奇異值分解（K-singular Value Decomposition，K-SVD）方法訓練純凈語音的功率譜字典，然后利用最小角回歸（LeastAngle Regression，LARS）算法獲得純凈語音功率譜的稀疏表示，再把重構的功率譜應用于基于短時幅度譜的信號子空間方法（Signal SubspaceApproach Based on Short-time Spectral Amplitude，SSB-STSA）中，最后結合帶噪語音信號的相位和傅里葉逆變換得到純凈語音信號的時域估計。LARS算法是根據估計的噪聲功率譜設定一個合理參數作為終止準則的。帶噪語音功率譜和稀疏重構得到的功率譜之差的l2范數如果小于設定的參數，算法就終止。由于該方法的噪聲功率譜利用帶噪語音初始段和靜音部分，采用直接判決方法估計，所以只在平穩(wěn)白噪聲環(huán)境中可取得較好的增強效果。因為純凈信號與噪聲信號譜之間的相關項不為零，所以把帶噪語音信號的功率譜表示為純凈語音和噪聲功率譜之和假設是不準確的。利用帶噪語音、純凈語音和噪聲譜之間的向量關系可以得到相關項的估計，這一估計可以表示為瞬時先驗信噪比和瞬時后驗信噪比的函數。本文基于相關項不為零的模型提出了新的基于功率譜稀疏表示的語音增強方法。采用最小控制遞歸平均（Minima Controlled Recursive Averaging，MCRA）方法對噪聲的功率譜進行估計。把估計的噪聲功率譜和相關項估計之和的l2范數作為LARS算法的終止準則，從而得到純凈語音功率譜的稀疏表示。字典仍然采用加非負限制的K-SVD算法訓練得到。而且我們提出了一種利用當前幀而不是前一幀語音功率譜估計瞬時信噪比的方法。由于語音信號在前一幀和當前幀之間是時變的，對語音增強來說利用當前幀來估計瞬時信噪比是非常重要的。新的語音增強方法應用了更合理的語音模型和終止準則，所以適用于更多的噪聲類型，尤其在低信噪比環(huán)境中獲得了更好的估計性能。大多數語音增強方法都是在頻域通過應用增益函數實現的，需要同時估計語音信號功率譜和噪聲功率譜。這意味著語音增強系統(tǒng)的性能一部分取決于噪聲功率譜估計的準確程度。傳統(tǒng)的噪聲功率譜估計方法通常利用帶噪語音信號起始段或靜音部分進行估計，而靜音部分需要使用語音活動性檢測算法進行檢測。語音活動性檢測算法只對平穩(wěn)噪聲檢測結果較好，，然而在低信噪比時誤差較大。對于非平穩(wěn)噪聲，功率譜變化較快，所以在估計噪聲功率譜時要及時對其進行更新。噪聲功率估計過高或過低會產生降低可懂度或引入音樂噪聲的不良影響。本文基于低復雜度低時延的無偏最小均方誤差噪聲功率譜估計方法，提出了基于語音存在概率的噪聲功率譜估計方法。該方法基于幅度平方譜語音信號模型，利用由后驗信噪比不確定性決定的后驗語音存在概率來更新噪聲功率譜的估計。該方法得到的噪聲功率譜估計的最大值和無偏噪聲功率譜估計方法接近，但提高了低估計值，所以很好地估計了噪聲又避免了過高估計導致的信號失真。同時該方法又能快速跟蹤噪聲功率譜的變化，對平穩(wěn)噪聲和非平穩(wěn)噪聲都具有良好的估計效果。一般認為人耳對正弦信號的相位改變或相對相位的改變不敏感，也有學者認為語音信號中正弦成分相位變化或相位的突然變化會導致語音質量的下降，信號的相位包含了大量的信息。但是基于幅度譜的語音增強算法認為相位信息不能提高語音質量，因而只對幅度譜進行估計，忽略了相位信息。近年來，越來越多的學者關注語音增強中相位的重要性。本文在給定相位的最小均方誤差（Minimum Mean-Square Error，MMSE）幅度譜估計器的基礎上，提出了一種相位估計方法。該方法利用瞬時先驗信噪比和瞬時后驗信噪比推導出了相位差的特定表達式，進而利用反余弦函數和帶噪語音的相位，得到了純凈語音的相位估計。本文算法是給定相位的MMSE幅度譜估計器補充和擴展，并且這一相位估計算法可以和其它幅度譜估計器相結合，從而提高增強后語音信號的質量。
[Abstract]:Speech enhancement is widely used in speech recognition , speech coding and so on .

This paper proposes a speech enhancement method based on power spectral sparse representation , which is based on the assumption that the power spectrum of the noisy speech signal can be expressed as the sum of pure speech and noise power spectrum .

In this paper , the estimation of the instantaneous signal - to - noise ratio is obtained by using the vector relationship between the pure speech and the noise spectrum , which can be expressed as a function of instantaneous prior signal - to - noise ratio and instantaneous post - test signal - to - noise ratio .

A noise power spectrum estimation method based on the low complexity and low time delay is used to estimate the noise power spectrum .

This paper presents a phase estimation method based on the minimum mean square error ( MMSE ) amplitude spectrum estimator of a given phase , and then uses the inverse cosine function and the phase of the noisy speech to obtain the phase estimate of the pure speech .

【學位授予單位】：吉林大學
【學位級別】：博士
【學位授予年份】：2014
【分類號】：TN912.35

【參考文獻】

相關期刊論文前3條

1 王天荊;鄭寶玉;楊震;;基于自適應冗余字典的語音信號稀疏表示算法[J];電子與信息學報;2011年10期

2 歐世峰;趙曉暉;;改進型先驗信噪比估計語音增強算法[J];吉林大學學報(工學版);2009年03期

3 孫林慧;楊震;;基于數據驅動字典和稀疏表示的語音增強[J];信號處理;2011年12期

本文編號：1871337

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/wltx/1871337.html

上一篇：隧道復雜多徑環(huán)境下基于OFDM系統(tǒng)的信道估計
下一篇：移動自組織網絡中基于朋友網絡的概率資源查找機制

論文發(fā)表

·知網|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于稀疏表示的語音增強方法研究