DNN-HMM語音識別聲學(xué)模型的說話人自適應(yīng)
發(fā)布時間:2020-07-28 18:12
【摘要】:說話人自適應(yīng)(Speaker Adaptation, SA)是語音識別中的關(guān)鍵技術(shù),它利用少量自適應(yīng)數(shù)據(jù)通過變換語音特征或修正聲學(xué)模型來提高特定說話人的識別準(zhǔn)確率。在傳統(tǒng)基于高斯混合模型-隱馬爾科夫模型(Gaussian Mixture Model-Hidden Markov Model, GMM-HMM)的語音識別中,說話人自適應(yīng)通?梢允棺R別錯誤率降低5%-30%,是提升系統(tǒng)性能的重要方法。近年來,隨著深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)被廣泛應(yīng)用于語音識別,DNN-HMM逐漸成為聲學(xué)模型的主流配置。然而傳統(tǒng)說話人自適應(yīng)技術(shù)通常不能直接應(yīng)用于該模型,而現(xiàn)有基于DNN-HMM的說話人自適應(yīng)技術(shù)性能提升又不明顯,研究適合DNN-HMM的說話人自適應(yīng)方法成為了語音識別領(lǐng)域新的熱點和難點。本文圍繞在]DNN-HMM上實現(xiàn)快速、有效的說話人自適應(yīng),研究了基于多GPU的DNN快速訓(xùn)練和幾種基于DNN的說話人自適應(yīng)方法。具體如下: 首先,本文研究了基于多GPU加速DNN訓(xùn)練的若干技術(shù)途徑,及一些優(yōu)化DNN訓(xùn)練的方法。我們分析了DNN訓(xùn)練過程中用到的相關(guān)算法,將訓(xùn)練步驟分解成適合GPU并行處理的矩陣運算形式,并利用CUDA C高效實現(xiàn)了這些算法,在此基礎(chǔ)上我們進(jìn)一步提出權(quán)重逐次輪轉(zhuǎn)以及分-合訓(xùn)練融合方法來在多GPU上加速DNN訓(xùn)練并取得了顯著的效果。在TIMIT數(shù)據(jù)集上進(jìn)行的音素識別驗證實驗表明,在基本保證識別準(zhǔn)確率的前提下,優(yōu)化后的DNN訓(xùn)練速度獲得了明顯提升。這為我們在大規(guī)模數(shù)據(jù)上進(jìn)行基于DNN-HMM的說話人自適應(yīng)相關(guān)研究奠定了基礎(chǔ)。 而后,本文對基于說話人編碼的特征域自適應(yīng)方法進(jìn)行了改進(jìn),提出一種基于說話人編碼的模型域自適應(yīng)方法。該方法克服了前者會引入規(guī)模較大的自適應(yīng)變換網(wǎng)絡(luò)的缺點,引入的額外參數(shù)較少,并且在層數(shù)較深,隱層節(jié)點較多的網(wǎng)絡(luò)上可以取得顯著優(yōu)于前者的性能提升。我們還將總變化因子向量(i-Vector)技術(shù)引入該模型中,提出i-Vector表征說話人特性的編碼方法,進(jìn)一步改善了我們的自適應(yīng)效果。相關(guān)實驗表明我們提出的方法可以帶來明顯的識別準(zhǔn)確率提升,是進(jìn)行DNN-HMM聲學(xué)模型說話人自適應(yīng)的良好選擇。 之后,本文將區(qū)分性訓(xùn)練準(zhǔn)則引入到說話人自適應(yīng)中,提出基于說話人編碼的區(qū)分性自適應(yīng)方法,提高了識別準(zhǔn)確率。我們還基于聯(lián)合訓(xùn)練的思想提出一種說話人相關(guān)DNN的區(qū)分性建模方法,進(jìn)一步改善了系統(tǒng)性能,在Switchboard數(shù)據(jù)集上的實驗表明相較于DNN基線系統(tǒng),該方法最多可以使識別錯誤率降低約25%,是目前最有效的]DNN-HMM聲學(xué)模型說話人自適應(yīng)方法之一。 最后,本文將矩陣分解思想應(yīng)用于說話人自適應(yīng),提出一種基于奇異值分解(Singular Value Decomposition, SVD)的說話人自適應(yīng)方法,該方法利用SVD分解DNN權(quán)重,并使用奇異值表征說話人差異信息,這減少了進(jìn)行說話人自適應(yīng)時所需要更新的參數(shù)量,有效的減輕了過擬合問題,取得了良好的自適應(yīng)效果。我們還融合了說話人編碼和矩陣分解的思想,提出一種基于二者融合的自適應(yīng)方法,相關(guān)實驗表明該方法可以有效的減小說話人編碼的維度和整個建模過程的計算復(fù)雜度,對于提升自適應(yīng)效率具有重要意義。
【學(xué)位授予單位】:中國科學(xué)技術(shù)大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2015
【分類號】:TN912.34
【圖文】:
圖1.1 LVCSR系統(tǒng)框架.的維度。提取良好的具有區(qū)分性的聲學(xué)特征對于提升語音識別系統(tǒng)的性能至關(guān)重要。當(dāng)前研究人員使用的聲學(xué)特征主要包括:梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficients, MFCC) (Davis and Mermelstein, 1980,Zheng et al.,2001)、感知線性預(yù)測系數(shù)(Perceptual Linear Prediction, PLP) (Hermansky,1990)等,主要基于傅立葉變換(Fourier Transformation)、倒譜分析(CepstralAnalysis)和線性預(yù)測(Linear Prediction)技術(shù),符合人耳的聽覺感知特性。近年來,由于DNN技術(shù)在聲學(xué)建模中的成功應(yīng)用,保留Mer濾波器輸出各維度之間的相關(guān)性的濾波器組特征(Filter Bank Feature) (Yu et al.,2013a)取得了成功的應(yīng)用。除此以外,研究人員還陸續(xù)提出許多方法來對特征進(jìn)行變換和降維,以提高聲學(xué)特征的區(qū)分性和減小計算復(fù)雜度,主要包括主分量分析(Principal Component Analysis,PCA) (Viszlay et al.,2011)、線性判別分析(Linear Discriminant Analysis,LDA) (Haeb-Umbach and Ney, 1992)和異方差線
不同的說話人只自適應(yīng)訓(xùn)練該線性變換層。(Netoetal., 1995)中提出了線性輸入網(wǎng)絡(luò)(Linear Input Network,LIN))方法,如圖1.3所示,該方法在輸入特征層與第一個隱層之間又增加了一個線性變換層,首先訓(xùn)練一個SI的DNN網(wǎng)絡(luò),之后在自適應(yīng)階段對于每一個不同的說話人訓(xùn)練估計一個不同的變換網(wǎng)絡(luò)來對不同的說話人的特征進(jìn)行線性變換,使之適應(yīng)原來的SI網(wǎng)絡(luò),該方法可以比較好的解決過擬合的問題,但由于增加的線性變換層位置的限制,其參數(shù)量是固定的,而不能自行根據(jù)需要進(jìn)行更改。變換網(wǎng)絡(luò) 輸出層圖1.3線性輸入網(wǎng)絡(luò)自適應(yīng)方法.11
LHN)方法,如圖L4所示,與前者不同之處在于線性變換層被加在了最后一個隱層和輸出層之間。同樣受制于線性變換層的位置,需要更新的參數(shù)數(shù)量為最后一個隱層節(jié)點數(shù)目和輸出層節(jié)點數(shù)目的乘積,通常在深層神經(jīng)絡(luò)聲學(xué)模型中,該參數(shù)規(guī)模是比較大的,因此也比較容易出現(xiàn)過擬合的問題。同樣類似的方法還有(Li and Sim, 2010)中提出的線性輸出層網(wǎng)絡(luò)(Linear Output
本文編號:2773261
【學(xué)位授予單位】:中國科學(xué)技術(shù)大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2015
【分類號】:TN912.34
【圖文】:
圖1.1 LVCSR系統(tǒng)框架.的維度。提取良好的具有區(qū)分性的聲學(xué)特征對于提升語音識別系統(tǒng)的性能至關(guān)重要。當(dāng)前研究人員使用的聲學(xué)特征主要包括:梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficients, MFCC) (Davis and Mermelstein, 1980,Zheng et al.,2001)、感知線性預(yù)測系數(shù)(Perceptual Linear Prediction, PLP) (Hermansky,1990)等,主要基于傅立葉變換(Fourier Transformation)、倒譜分析(CepstralAnalysis)和線性預(yù)測(Linear Prediction)技術(shù),符合人耳的聽覺感知特性。近年來,由于DNN技術(shù)在聲學(xué)建模中的成功應(yīng)用,保留Mer濾波器輸出各維度之間的相關(guān)性的濾波器組特征(Filter Bank Feature) (Yu et al.,2013a)取得了成功的應(yīng)用。除此以外,研究人員還陸續(xù)提出許多方法來對特征進(jìn)行變換和降維,以提高聲學(xué)特征的區(qū)分性和減小計算復(fù)雜度,主要包括主分量分析(Principal Component Analysis,PCA) (Viszlay et al.,2011)、線性判別分析(Linear Discriminant Analysis,LDA) (Haeb-Umbach and Ney, 1992)和異方差線
不同的說話人只自適應(yīng)訓(xùn)練該線性變換層。(Netoetal., 1995)中提出了線性輸入網(wǎng)絡(luò)(Linear Input Network,LIN))方法,如圖1.3所示,該方法在輸入特征層與第一個隱層之間又增加了一個線性變換層,首先訓(xùn)練一個SI的DNN網(wǎng)絡(luò),之后在自適應(yīng)階段對于每一個不同的說話人訓(xùn)練估計一個不同的變換網(wǎng)絡(luò)來對不同的說話人的特征進(jìn)行線性變換,使之適應(yīng)原來的SI網(wǎng)絡(luò),該方法可以比較好的解決過擬合的問題,但由于增加的線性變換層位置的限制,其參數(shù)量是固定的,而不能自行根據(jù)需要進(jìn)行更改。變換網(wǎng)絡(luò) 輸出層圖1.3線性輸入網(wǎng)絡(luò)自適應(yīng)方法.11
LHN)方法,如圖L4所示,與前者不同之處在于線性變換層被加在了最后一個隱層和輸出層之間。同樣受制于線性變換層的位置,需要更新的參數(shù)數(shù)量為最后一個隱層節(jié)點數(shù)目和輸出層節(jié)點數(shù)目的乘積,通常在深層神經(jīng)絡(luò)聲學(xué)模型中,該參數(shù)規(guī)模是比較大的,因此也比較容易出現(xiàn)過擬合的問題。同樣類似的方法還有(Li and Sim, 2010)中提出的線性輸出層網(wǎng)絡(luò)(Linear Output
【參考文獻(xiàn)】
相關(guān)期刊論文 前4條
1 陳方,高升;語音識別技術(shù)及發(fā)展[J];電信科學(xué);1996年10期
2 鄭方 ,張國亮 ,宋戰(zhàn)江;Comparison of Different Implementations of MFCC[J];Journal of Computer Science and Technology;2001年06期
3 倪崇嘉;劉文舉;徐波;;漢語大詞匯量連續(xù)語音識別系統(tǒng)研究進(jìn)展[J];中文信息學(xué)報;2009年01期
4 吳奎;宋彥;戴禮榮;;基于CUDA的GMM模型快速訓(xùn)練方法[J];數(shù)據(jù)采集與處理;2012年01期
本文編號:2773261
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/2773261.html
最近更新
教材專著