復(fù)雜噪聲環(huán)境下語音識別研究
發(fā)布時間:2020-12-18 21:21
人機交互的不斷發(fā)展,要求自動語音識別(ASR)能夠在真實世界的各種噪聲和其他聲學(xué)干擾條件下保持魯棒性。復(fù)雜噪聲環(huán)境下語音識別的低準(zhǔn)確性引起了學(xué)者們的廣泛關(guān)注。當(dāng)前主流方法可大致分為三類:基于尋找新特征的、基于噪聲環(huán)境分類的、基于語音增強的。本文使用伽馬通濾波器倒譜系數(shù)作為復(fù)雜噪聲環(huán)境下的語音特征,并設(shè)計一種基于卷積神經(jīng)網(wǎng)絡(luò)與長短時記憶網(wǎng)絡(luò)相結(jié)合的語音識別方法,提取訓(xùn)練語音的譜圖,利用注意力網(wǎng)絡(luò)進(jìn)行自適應(yīng)特征細(xì)化。然后將注意圖與輸入特征圖相乘,實現(xiàn)噪聲環(huán)境下的語音識別。本文主要論述了:(1)語音信號處理的基本任務(wù)。將處理任務(wù)分類為三大類,包括語音識別、自然語言處理、語音合成,并著重介紹了與本文相關(guān)的語音識別問題,闡述了其所包含的文本識別、聲紋識別、情感識別三個子問題所運用的聲學(xué)模型。(2)語音識別問題的處理方法。對語音信號進(jìn)行預(yù)濾波、預(yù)加重、分幀、端點檢測等處理的目的,并介紹常用語音信號的特征以及各特征在噪聲環(huán)境的表現(xiàn),藉此引入噪聲對語音識別的影響。(3)不同特征在噪聲環(huán)境中的識別能力有所差異。GFCC特征相比傳統(tǒng)主流特征具有更好的抗噪性能,在不同噪聲環(huán)境中表現(xiàn)均優(yōu)于MFCC特征。(4)...
【文章來源】:武漢郵電科學(xué)研究院湖北省
【文章頁數(shù)】:56 頁
【學(xué)位級別】:碩士
【部分圖文】:
語音識別系統(tǒng)框圖
調(diào)整,更多的是針對穩(wěn)定噪聲環(huán)境,最典型的應(yīng)用便是降噪處理,如小波降噪、自適應(yīng)濾波等。小波降噪是一類廣泛使用的降噪手段,語音信號是一種非平穩(wěn)信號,通常的傅里葉變換只能得知一段信號總體上包含哪些頻率分量,而不能得知各個頻率分量出現(xiàn)的時刻。其結(jié)果可能導(dǎo)致兩個在時域相差較大的信號,在頻域具有相同的變換結(jié)果。而小波變換能將信號的頻譜分解到不同的頻率范圍從而得到其子帶信號,因此可以使用正交小波變換,把信號的能量集中到某些頻帶的少數(shù)系數(shù)上,將其他頻帶上的小波系數(shù)置零,以達(dá)到抑制噪聲的目的[52]。圖2-3為小波變換的三層分解示意圖,cA1、cA2、cA3為分解各層的基信號,cD1、cD2、cD3為分解各層的細(xì)節(jié)信號,即高頻部分,無序的噪聲通常包含其中。將cD1、cD2、cD3的分解系數(shù)置零或以門限閾值形式對該小波系數(shù)進(jìn)行處理,然后重構(gòu)小波,即得到降噪之后的信號。自適應(yīng)濾波是指利用前一時刻已獲得的濾波器參數(shù)等結(jié)果,自動調(diào)節(jié)現(xiàn)時刻濾波器參數(shù),以適應(yīng)信號和噪聲未知的或隨機變化的統(tǒng)計特性,從而實現(xiàn)最優(yōu)濾波的手段[53],具有計算量孝不依賴輸入信號長時特性的優(yōu)點,因而適合于實時處理任務(wù)。最小均方(LeastMeanSquare,LMS)自適應(yīng)濾波器是一種廣泛使用的針對平穩(wěn)信號設(shè)計的濾波器,與非平穩(wěn)信號一樣,平穩(wěn)信號也是一種隨機信號,不同之處在于平穩(wěn)信號的分布參數(shù)或者分布律等統(tǒng)計特性不隨時間發(fā)生變化,若一段平穩(wěn)信號為nX)(,則圖2-3小波分解結(jié)構(gòu)示意圖
武漢郵電科學(xué)研究院碩士學(xué)位論文16)(|)(|)()()1(2kXkxkekkWW+=+(2-27)其濾波效果如圖2-5所示:圖的左列為疊加了白噪聲的語音信號,從上到下依次信號的信噪比依次為20dB、10dB、5dB、0dB,圖的右列為濾波后的結(jié)果,可以看出,自適應(yīng)濾波在濾波初始都有震蕩,但震蕩收斂快,因此可以較好地還原語音信號。譜減法是一種基于噪聲能量,在語音信號中減去噪聲干擾的常用降噪手段。其具體實現(xiàn)步驟如下:首先,完成對語音信號的分幀,獲得幀長為N的語音片段,對當(dāng)前幀進(jìn)行離散傅里葉變換(DiscreteFourierTransformation,DFT),獲得其幅值和相位。然后,在語音的開端或結(jié)尾,尋找純凈的噪聲語音片段,使用下式獲得該幀信號的平均能量,具體表達(dá)式見式(2-28)。==NiikXkND12|)(|1)((2-28)其中kX)(i即為當(dāng)前幀的離散傅里葉變換結(jié)果。最后,對所有幀語音信號減去噪聲平均能量與一個修正因子的乘積,保留當(dāng)前幀的相位,使用快速傅里葉逆變換(InverseFastFourierTramsform,IFFT)獲得譜減法降噪后的語音信號。圖2-6所示的是使用譜減法的濾波效果,左列為疊加了白噪聲的語音信號,從上到圖2-5不同信噪比下的語音信號及NLMS濾波效果
【參考文獻(xiàn)】:
期刊論文
[1]口語理解中改進(jìn)循環(huán)神經(jīng)網(wǎng)絡(luò)的應(yīng)用[J]. 張晶晶,黃浩,胡英,吾守爾·斯拉木. 計算機工程與應(yīng)用. 2019(18)
[2]一種改進(jìn)的DNN-HMM的語音識別方法[J]. 李云紅,梁思程,賈凱莉,張秋銘,宋鵬,何琛,王剛毅,李禹萱. 應(yīng)用聲學(xué). 2019(03)
[3]融合非線性冪函數(shù)和譜減法的CFCC特征提取[J]. 白靜,史燕燕,薛珮蕓,郭倩巖. 西安電子科技大學(xué)學(xué)報. 2019(01)
[4]多噪聲環(huán)境下的層級語音識別模型[J]. 曹晶晶,許潔萍,邵聖淇. 計算機應(yīng)用. 2018(06)
[5]語音識別技術(shù)的研究進(jìn)展與展望[J]. 王海坤,潘嘉,劉聰. 電信科學(xué). 2018(02)
[6]聯(lián)合HMM-UBM與RVM的聲紋密碼識別算法[J]. 胡志隆,文暢,謝凱,賀建飚. 計算機工程. 2018(11)
[7]情感語音數(shù)據(jù)庫優(yōu)化及PAD情感模型量化標(biāo)注[J]. 張雪英,張婷,孫穎,張衛(wèi),暢江. 太原理工大學(xué)學(xué)報. 2017(03)
[8]一種新的聽覺特征提取算法研究[J]. 林海波,王可佳. 南京郵電大學(xué)學(xué)報(自然科學(xué)版). 2017(02)
[9]卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J]. 李彥冬,郝宗波,雷航. 計算機應(yīng)用. 2016(09)
[10]基于PAD情緒模型的情感語音識別[J]. 宋靜,張雪英,孫穎,張衛(wèi). 微電子學(xué)與計算機. 2016(09)
博士論文
[1]基于深度神經(jīng)網(wǎng)絡(luò)的語音識別模型研究[D]. 張仕良.中國科學(xué)技術(shù)大學(xué) 2017
碩士論文
[1]面向語音識別的抗噪聽覺特征提取及優(yōu)化[D]. 史燕燕.太原理工大學(xué) 2019
[2]基于小波包分解的MFCC在復(fù)雜環(huán)境聲音識別中的應(yīng)用[D]. 俞頌華.南寧師范大學(xué) 2019
[3]基于HMM的非特定人語音識別系統(tǒng)研究[D]. 趙碩.安徽大學(xué) 2019
[4]基于深度神經(jīng)網(wǎng)絡(luò)的連續(xù)語音識別研究[D]. 李明浩.吉林大學(xué) 2018
[5]融合LPCC和MFCC特征參數(shù)的語音識別技術(shù)的研究[D]. 張文克.湘潭大學(xué) 2016
[6]基于GMM-HMM的聲學(xué)模型訓(xùn)練研究[D]. 王為凱.華南理工大學(xué) 2016
[7]深度神經(jīng)網(wǎng)絡(luò)在中文語音識別系統(tǒng)中的實現(xiàn)[D]. 張德良.北京交通大學(xué) 2015
[8]語音識別關(guān)鍵技術(shù)研究[D]. 王一蒙.電子科技大學(xué) 2015
[9]基于CFCC的語音識別系統(tǒng)設(shè)計及在物聯(lián)網(wǎng)上的應(yīng)用[D]. 張錫冰.東北大學(xué) 2013
本文編號:2924628
【文章來源】:武漢郵電科學(xué)研究院湖北省
【文章頁數(shù)】:56 頁
【學(xué)位級別】:碩士
【部分圖文】:
語音識別系統(tǒng)框圖
調(diào)整,更多的是針對穩(wěn)定噪聲環(huán)境,最典型的應(yīng)用便是降噪處理,如小波降噪、自適應(yīng)濾波等。小波降噪是一類廣泛使用的降噪手段,語音信號是一種非平穩(wěn)信號,通常的傅里葉變換只能得知一段信號總體上包含哪些頻率分量,而不能得知各個頻率分量出現(xiàn)的時刻。其結(jié)果可能導(dǎo)致兩個在時域相差較大的信號,在頻域具有相同的變換結(jié)果。而小波變換能將信號的頻譜分解到不同的頻率范圍從而得到其子帶信號,因此可以使用正交小波變換,把信號的能量集中到某些頻帶的少數(shù)系數(shù)上,將其他頻帶上的小波系數(shù)置零,以達(dá)到抑制噪聲的目的[52]。圖2-3為小波變換的三層分解示意圖,cA1、cA2、cA3為分解各層的基信號,cD1、cD2、cD3為分解各層的細(xì)節(jié)信號,即高頻部分,無序的噪聲通常包含其中。將cD1、cD2、cD3的分解系數(shù)置零或以門限閾值形式對該小波系數(shù)進(jìn)行處理,然后重構(gòu)小波,即得到降噪之后的信號。自適應(yīng)濾波是指利用前一時刻已獲得的濾波器參數(shù)等結(jié)果,自動調(diào)節(jié)現(xiàn)時刻濾波器參數(shù),以適應(yīng)信號和噪聲未知的或隨機變化的統(tǒng)計特性,從而實現(xiàn)最優(yōu)濾波的手段[53],具有計算量孝不依賴輸入信號長時特性的優(yōu)點,因而適合于實時處理任務(wù)。最小均方(LeastMeanSquare,LMS)自適應(yīng)濾波器是一種廣泛使用的針對平穩(wěn)信號設(shè)計的濾波器,與非平穩(wěn)信號一樣,平穩(wěn)信號也是一種隨機信號,不同之處在于平穩(wěn)信號的分布參數(shù)或者分布律等統(tǒng)計特性不隨時間發(fā)生變化,若一段平穩(wěn)信號為nX)(,則圖2-3小波分解結(jié)構(gòu)示意圖
武漢郵電科學(xué)研究院碩士學(xué)位論文16)(|)(|)()()1(2kXkxkekkWW+=+(2-27)其濾波效果如圖2-5所示:圖的左列為疊加了白噪聲的語音信號,從上到下依次信號的信噪比依次為20dB、10dB、5dB、0dB,圖的右列為濾波后的結(jié)果,可以看出,自適應(yīng)濾波在濾波初始都有震蕩,但震蕩收斂快,因此可以較好地還原語音信號。譜減法是一種基于噪聲能量,在語音信號中減去噪聲干擾的常用降噪手段。其具體實現(xiàn)步驟如下:首先,完成對語音信號的分幀,獲得幀長為N的語音片段,對當(dāng)前幀進(jìn)行離散傅里葉變換(DiscreteFourierTransformation,DFT),獲得其幅值和相位。然后,在語音的開端或結(jié)尾,尋找純凈的噪聲語音片段,使用下式獲得該幀信號的平均能量,具體表達(dá)式見式(2-28)。==NiikXkND12|)(|1)((2-28)其中kX)(i即為當(dāng)前幀的離散傅里葉變換結(jié)果。最后,對所有幀語音信號減去噪聲平均能量與一個修正因子的乘積,保留當(dāng)前幀的相位,使用快速傅里葉逆變換(InverseFastFourierTramsform,IFFT)獲得譜減法降噪后的語音信號。圖2-6所示的是使用譜減法的濾波效果,左列為疊加了白噪聲的語音信號,從上到圖2-5不同信噪比下的語音信號及NLMS濾波效果
【參考文獻(xiàn)】:
期刊論文
[1]口語理解中改進(jìn)循環(huán)神經(jīng)網(wǎng)絡(luò)的應(yīng)用[J]. 張晶晶,黃浩,胡英,吾守爾·斯拉木. 計算機工程與應(yīng)用. 2019(18)
[2]一種改進(jìn)的DNN-HMM的語音識別方法[J]. 李云紅,梁思程,賈凱莉,張秋銘,宋鵬,何琛,王剛毅,李禹萱. 應(yīng)用聲學(xué). 2019(03)
[3]融合非線性冪函數(shù)和譜減法的CFCC特征提取[J]. 白靜,史燕燕,薛珮蕓,郭倩巖. 西安電子科技大學(xué)學(xué)報. 2019(01)
[4]多噪聲環(huán)境下的層級語音識別模型[J]. 曹晶晶,許潔萍,邵聖淇. 計算機應(yīng)用. 2018(06)
[5]語音識別技術(shù)的研究進(jìn)展與展望[J]. 王海坤,潘嘉,劉聰. 電信科學(xué). 2018(02)
[6]聯(lián)合HMM-UBM與RVM的聲紋密碼識別算法[J]. 胡志隆,文暢,謝凱,賀建飚. 計算機工程. 2018(11)
[7]情感語音數(shù)據(jù)庫優(yōu)化及PAD情感模型量化標(biāo)注[J]. 張雪英,張婷,孫穎,張衛(wèi),暢江. 太原理工大學(xué)學(xué)報. 2017(03)
[8]一種新的聽覺特征提取算法研究[J]. 林海波,王可佳. 南京郵電大學(xué)學(xué)報(自然科學(xué)版). 2017(02)
[9]卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J]. 李彥冬,郝宗波,雷航. 計算機應(yīng)用. 2016(09)
[10]基于PAD情緒模型的情感語音識別[J]. 宋靜,張雪英,孫穎,張衛(wèi). 微電子學(xué)與計算機. 2016(09)
博士論文
[1]基于深度神經(jīng)網(wǎng)絡(luò)的語音識別模型研究[D]. 張仕良.中國科學(xué)技術(shù)大學(xué) 2017
碩士論文
[1]面向語音識別的抗噪聽覺特征提取及優(yōu)化[D]. 史燕燕.太原理工大學(xué) 2019
[2]基于小波包分解的MFCC在復(fù)雜環(huán)境聲音識別中的應(yīng)用[D]. 俞頌華.南寧師范大學(xué) 2019
[3]基于HMM的非特定人語音識別系統(tǒng)研究[D]. 趙碩.安徽大學(xué) 2019
[4]基于深度神經(jīng)網(wǎng)絡(luò)的連續(xù)語音識別研究[D]. 李明浩.吉林大學(xué) 2018
[5]融合LPCC和MFCC特征參數(shù)的語音識別技術(shù)的研究[D]. 張文克.湘潭大學(xué) 2016
[6]基于GMM-HMM的聲學(xué)模型訓(xùn)練研究[D]. 王為凱.華南理工大學(xué) 2016
[7]深度神經(jīng)網(wǎng)絡(luò)在中文語音識別系統(tǒng)中的實現(xiàn)[D]. 張德良.北京交通大學(xué) 2015
[8]語音識別關(guān)鍵技術(shù)研究[D]. 王一蒙.電子科技大學(xué) 2015
[9]基于CFCC的語音識別系統(tǒng)設(shè)計及在物聯(lián)網(wǎng)上的應(yīng)用[D]. 張錫冰.東北大學(xué) 2013
本文編號:2924628
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/2924628.html
最近更新
教材專著