當(dāng)前位置：主頁 > 科技論文 > 網(wǎng)絡(luò)通信論文 >

嘈雜環(huán)境下特定目標(biāo)語音搜索方法研究

發(fā)布時間：2020-11-02 22:16

　　語音搜索是用來判定特定目標(biāo)身份信息的一種識別技術(shù),應(yīng)用領(lǐng)域較為廣泛,所以嘈雜環(huán)境下特定目標(biāo)語音搜索方法成為當(dāng)前研究的熱點(diǎn),具有重要的理論和實(shí)際意義。本文從語音信號的基本理論入手,著重研究了特征參數(shù)的提取、高斯混合模型的訓(xùn)練方式、噪聲參數(shù)估計及語音增強(qiáng)算法,并提出了一種基于語音增強(qiáng)算法與高斯混合模型相結(jié)合的嘈雜環(huán)境下語音搜索方法。本文對語音搜索的逐個環(huán)節(jié)進(jìn)行了詳細(xì)研究,首先對語音信號的預(yù)處理過程進(jìn)行了簡要分析,研究了幾種常用的端點(diǎn)檢測方法,指出了其在嘈雜環(huán)境下的不足。其次分析了幾種典型特征參數(shù)的提取方法,并對梅爾倒譜系數(shù)進(jìn)行一階差分處理得到ΔMFCC,將MFCC與ΔMFCC相融合,以提高系統(tǒng)搜索的準(zhǔn)確性。然后對嘈雜環(huán)境中的噪聲特性進(jìn)行了研究,主要分析了有聲/無聲段檢測與連續(xù)噪聲譜兩種噪聲估計的方法,并將改進(jìn)的譜熵法用于有聲/無聲段檢測。經(jīng)仿真實(shí)驗(yàn)表明,有聲/無聲段檢測僅能對平穩(wěn)噪聲進(jìn)行有效估計,而連續(xù)噪聲譜對平穩(wěn)噪聲和非平穩(wěn)噪聲均有較好的處理效果。在噪聲估計的基礎(chǔ)上,為了提高語音信號的信噪比,減少信號失真。對譜減法,維納濾波算法,基于最小均方誤差的MMSE算法進(jìn)行了研究,并提出了新的動態(tài)Dynamic-MMSE算法。經(jīng)仿真實(shí)驗(yàn)表明,本文提出的新算法較上述算法性能上有了一定提升。為了提高特定目標(biāo)語音搜索的識別率,對諸多識別模型進(jìn)行了研究。最終確定采用高斯混合模型及期望最大化算法(EM算法)將融合后的特征參數(shù)進(jìn)行特定目標(biāo)語音搜索,優(yōu)勢在于并不需要完整的數(shù)據(jù)便可對概率模型的特征參數(shù)進(jìn)行最優(yōu)估計,對于嘈雜環(huán)境下的語音搜索尤為適用。經(jīng)一系列仿真實(shí)驗(yàn)表明,將梅爾倒譜系數(shù)與ΔMFCC融合后的特征參數(shù)能更好的反映特定目標(biāo)的個性信息,經(jīng)噪聲參數(shù)估計和語音增強(qiáng)后,能將語音信號從帶噪語音信號中較好的分離出來,將融合后的特征參數(shù),經(jīng)高斯混合模型訓(xùn)練識別后,在嘈雜環(huán)境下,特定目標(biāo)的識別率有了明顯提升。
【學(xué)位單位】：哈爾濱理工大學(xué)
【學(xué)位級別】：碩士
【學(xué)位年份】：2018
【中圖分類】：TN912.3
【部分圖文】：

預(yù)加重,語音信號,前后對比

而高頻部分能量卻較低。低頻部分包含了語音的主要信息，所以在處理語音原始信號時，期望獲得更多的低頻信號。語音信號的頻率范圍為300Hz~3400Hz，高頻部分在 800Hz 以上。對頻譜進(jìn)行分析時，高頻部分的頻帶較窄，難以分析。預(yù)加重后的語音信號 s(n)，主要是加重高頻部分，可以提高語音信號的分辨率，使頻譜更加平緩，利于聲道參數(shù)和頻譜的研究。預(yù)加重通過預(yù)加重數(shù)字濾波器實(shí)現(xiàn)，通常選用一階數(shù)字濾波器：1H ( z ) 1αz = (2-1)α 為預(yù)加重系數(shù)，識別率會隨著 α 的大小而改變，通常選取 α 值為0.9375。語音信號的預(yù)加重公式如下：( ) ( ) ( 1)a p pS n = S n αS n (2-2)其中pS 和aS 為預(yù)加重前后的信號。下圖 2-1 為語音信號“2”預(yù)加重前后的頻譜圖，由圖可看出，高頻部分得到提升，且語音信號的頻譜也較為平坦。

端點(diǎn)檢測,短時能量,語音信號,短時過零率

2. 假設(shè)前若干幀為無聲段，統(tǒng)計噪聲的短時過零率與短時能量。3. 根據(jù)嘈雜的背景環(huán)境及語音信號的短時能量和過零率選取其高低門限值記為1amp 、2amp 和1zcr 、2zcr 。4. 采用短時能量門限確定起止點(diǎn)，在通過短時過零率對門限進(jìn)行修正，最終得到語音信號的起止點(diǎn)。下圖 2-2 采用雙門限端點(diǎn)檢測的方法在純凈語音下對數(shù)字“3”進(jìn)行端點(diǎn)檢測的結(jié)果。第一張圖為語音信號的時域波形及雙門限端點(diǎn)檢測的結(jié)果，第二張圖為語音信號的短時能量波形，第三張為短時過零率的波形。圖 2-3 為嘈雜環(huán)境下的仿真效果對比圖。由此可見，在純凈語音環(huán)境下，經(jīng)典的雙門限端點(diǎn)檢測算法能有效檢測出語音信號的起止點(diǎn)，但在嘈雜環(huán)境下，性能急劇下降。

端點(diǎn)檢測,短時能量,語音信號,短時過零率