基于稀疏表示的語音增強(qiáng)方法研究
發(fā)布時間:2018-05-10 23:13
本文選題:語音增強(qiáng) + 稀疏表示; 參考:《吉林大學(xué)》2014年博士論文
【摘要】:語音在通信過程中不可避免的受到周圍環(huán)境噪聲的干擾,噪聲過大時不僅使人們聽不清對方的談話內(nèi)容,還容易使人們疲勞,產(chǎn)生煩躁的情緒。所以在接收端要進(jìn)行去噪聲處理,這就是語音增強(qiáng)技術(shù)或噪聲抑制技術(shù)。在不引入新的噪聲前提下如何有效的去除噪聲又能保持語音不失真是語音增強(qiáng)的目的,從而提高語音信號的質(zhì)量和可懂度。提高語音質(zhì)量可以減少聽者的疲勞,提高可懂度可以減少失真。語音增強(qiáng)廣泛應(yīng)用于語音識別、語音編碼等系統(tǒng)中。在免提設(shè)備、助聽器等領(lǐng)域的應(yīng)用也越來越多。除此之外,在人機(jī)對話、機(jī)器翻譯、藍(lán)牙、智能家居等方面也發(fā)揮著越來越大的作用。經(jīng)過幾十年的發(fā)展,語音增強(qiáng)已經(jīng)有許多成熟有效的算法,這些算法大致可分為基于譜減的語音增強(qiáng)方法、基于統(tǒng)計模型的語音增強(qiáng)方法、基于信號子空間的語音增強(qiáng)方法以及基于維納濾波的語音增強(qiáng)方法。 由于經(jīng)傅里葉變換后的語音信號能量大多集中在低頻部分,并且具有良好的去相關(guān)特性,語音增強(qiáng)方法中大部分算法都是在短時傅里葉變換域?qū)崿F(xiàn)的。而有些方面的應(yīng)用,如在語音編碼中,功率譜估計器比幅度譜估計器能獲得更好的性能。無論功率譜減法還是幅度平方譜估計器都假設(shè)帶噪語音信號的功率譜可以表示為純凈語音和噪聲功率譜之和,并且功率譜由幅度平方譜近似估計;谶@一假設(shè),本文提出了基于功率譜稀疏表示的語音增強(qiáng)方法。稀疏表示是從一個過完備字典中選擇少數(shù)原子以線性組合的形式來表示一個信號的全部或大部分信息,可以應(yīng)用非負(fù)矩陣分解或壓縮感知等技術(shù)獲得最稀疏的線性組合。本文利用加非負(fù)限制的近似K奇異值分解(K-singular Value Decomposition,K-SVD)方法訓(xùn)練純凈語音的功率譜字典,然后利用最小角回歸(LeastAngle Regression,LARS)算法獲得純凈語音功率譜的稀疏表示,再把重構(gòu)的功率譜應(yīng)用于基于短時幅度譜的信號子空間方法(Signal SubspaceApproach Based on Short-time Spectral Amplitude,SSB-STSA)中,最后結(jié)合帶噪語音信號的相位和傅里葉逆變換得到純凈語音信號的時域估計。LARS算法是根據(jù)估計的噪聲功率譜設(shè)定一個合理參數(shù)作為終止準(zhǔn)則的。帶噪語音功率譜和稀疏重構(gòu)得到的功率譜之差的l2范數(shù)如果小于設(shè)定的參數(shù),算法就終止。由于該方法的噪聲功率譜利用帶噪語音初始段和靜音部分,采用直接判決方法估計,所以只在平穩(wěn)白噪聲環(huán)境中可取得較好的增強(qiáng)效果。 因?yàn)榧儍粜盘柵c噪聲信號譜之間的相關(guān)項(xiàng)不為零,所以把帶噪語音信號的功率譜表示為純凈語音和噪聲功率譜之和假設(shè)是不準(zhǔn)確的。利用帶噪語音、純凈語音和噪聲譜之間的向量關(guān)系可以得到相關(guān)項(xiàng)的估計,這一估計可以表示為瞬時先驗(yàn)信噪比和瞬時后驗(yàn)信噪比的函數(shù)。本文基于相關(guān)項(xiàng)不為零的模型提出了新的基于功率譜稀疏表示的語音增強(qiáng)方法。采用最小控制遞歸平均(Minima Controlled Recursive Averaging,MCRA)方法對噪聲的功率譜進(jìn)行估計。把估計的噪聲功率譜和相關(guān)項(xiàng)估計之和的l2范數(shù)作為LARS算法的終止準(zhǔn)則,從而得到純凈語音功率譜的稀疏表示。字典仍然采用加非負(fù)限制的K-SVD算法訓(xùn)練得到。而且我們提出了一種利用當(dāng)前幀而不是前一幀語音功率譜估計瞬時信噪比的方法。由于語音信號在前一幀和當(dāng)前幀之間是時變的,對語音增強(qiáng)來說利用當(dāng)前幀來估計瞬時信噪比是非常重要的。新的語音增強(qiáng)方法應(yīng)用了更合理的語音模型和終止準(zhǔn)則,所以適用于更多的噪聲類型,尤其在低信噪比環(huán)境中獲得了更好的估計性能。 大多數(shù)語音增強(qiáng)方法都是在頻域通過應(yīng)用增益函數(shù)實(shí)現(xiàn)的,需要同時估計語音信號功率譜和噪聲功率譜。這意味著語音增強(qiáng)系統(tǒng)的性能一部分取決于噪聲功率譜估計的準(zhǔn)確程度。傳統(tǒng)的噪聲功率譜估計方法通常利用帶噪語音信號起始段或靜音部分進(jìn)行估計,而靜音部分需要使用語音活動性檢測算法進(jìn)行檢測。語音活動性檢測算法只對平穩(wěn)噪聲檢測結(jié)果較好,,然而在低信噪比時誤差較大。對于非平穩(wěn)噪聲,功率譜變化較快,所以在估計噪聲功率譜時要及時對其進(jìn)行更新。噪聲功率估計過高或過低會產(chǎn)生降低可懂度或引入音樂噪聲的不良影響。本文基于低復(fù)雜度低時延的無偏最小均方誤差噪聲功率譜估計方法,提出了基于語音存在概率的噪聲功率譜估計方法。該方法基于幅度平方譜語音信號模型,利用由后驗(yàn)信噪比不確定性決定的后驗(yàn)語音存在概率來更新噪聲功率譜的估計。該方法得到的噪聲功率譜估計的最大值和無偏噪聲功率譜估計方法接近,但提高了低估計值,所以很好地估計了噪聲又避免了過高估計導(dǎo)致的信號失真。同時該方法又能快速跟蹤噪聲功率譜的變化,對平穩(wěn)噪聲和非平穩(wěn)噪聲都具有良好的估計效果。 一般認(rèn)為人耳對正弦信號的相位改變或相對相位的改變不敏感,也有學(xué)者認(rèn)為語音信號中正弦成分相位變化或相位的突然變化會導(dǎo)致語音質(zhì)量的下降,信號的相位包含了大量的信息。但是基于幅度譜的語音增強(qiáng)算法認(rèn)為相位信息不能提高語音質(zhì)量,因而只對幅度譜進(jìn)行估計,忽略了相位信息。近年來,越來越多的學(xué)者關(guān)注語音增強(qiáng)中相位的重要性。本文在給定相位的最小均方誤差(Minimum Mean-Square Error,MMSE)幅度譜估計器的基礎(chǔ)上,提出了一種相位估計方法。該方法利用瞬時先驗(yàn)信噪比和瞬時后驗(yàn)信噪比推導(dǎo)出了相位差的特定表達(dá)式,進(jìn)而利用反余弦函數(shù)和帶噪語音的相位,得到了純凈語音的相位估計。本文算法是給定相位的MMSE幅度譜估計器補(bǔ)充和擴(kuò)展,并且這一相位估計算法可以和其它幅度譜估計器相結(jié)合,從而提高增強(qiáng)后語音信號的質(zhì)量。
[Abstract]:Speech enhancement is widely used in speech recognition , speech coding and so on .
This paper proposes a speech enhancement method based on power spectral sparse representation , which is based on the assumption that the power spectrum of the noisy speech signal can be expressed as the sum of pure speech and noise power spectrum .
In this paper , the estimation of the instantaneous signal - to - noise ratio is obtained by using the vector relationship between the pure speech and the noise spectrum , which can be expressed as a function of instantaneous prior signal - to - noise ratio and instantaneous post - test signal - to - noise ratio .
A noise power spectrum estimation method based on the low complexity and low time delay is used to estimate the noise power spectrum .
This paper presents a phase estimation method based on the minimum mean square error ( MMSE ) amplitude spectrum estimator of a given phase , and then uses the inverse cosine function and the phase of the noisy speech to obtain the phase estimate of the pure speech .
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2014
【分類號】:TN912.35
【參考文獻(xiàn)】
相關(guān)期刊論文 前3條
1 王天荊;鄭寶玉;楊震;;基于自適應(yīng)冗余字典的語音信號稀疏表示算法[J];電子與信息學(xué)報;2011年10期
2 歐世峰;趙曉暉;;改進(jìn)型先驗(yàn)信噪比估計語音增強(qiáng)算法[J];吉林大學(xué)學(xué)報(工學(xué)版);2009年03期
3 孫林慧;楊震;;基于數(shù)據(jù)驅(qū)動字典和稀疏表示的語音增強(qiáng)[J];信號處理;2011年12期
本文編號:1871337
本文鏈接:http://sikaile.net/kejilunwen/wltx/1871337.html
最近更新
教材專著