深度學(xué)習(xí)框架下說話人識別研究綜述
發(fā)布時間:2021-06-17 23:25
說話人識別由于其獨特的方便性、經(jīng)濟性和準確性等優(yōu)勢,已成為人們?nèi)粘I钆c工作中重要的身份認證方式。然而在實際應(yīng)用場景下,對說話人識別系統(tǒng)的準確性、魯棒性、遷移性、實時性等提出了巨大的挑戰(zhàn)。近年來深度學(xué)習(xí)在特征表達和模式分類方面表現(xiàn)優(yōu)異,為說話人識別技術(shù)的進一步發(fā)展提供了新方向。相較于傳統(tǒng)說話人識別技術(shù)(如GMM-UBM、GMM-SVM、JFA、i-vector等),聚焦于深度學(xué)習(xí)框架下的說話人識別方法,按照深度學(xué)習(xí)在說話人識別中的作用方式,將目前的研究分為基于深度學(xué)習(xí)的特征表達、基于深度學(xué)習(xí)的后端建模、端到端聯(lián)合優(yōu)化三種類別,并分析和總結(jié)了其典型算法的特點及網(wǎng)絡(luò)結(jié)構(gòu),對其具體性能進行了對比分析。最后總結(jié)了深度學(xué)習(xí)在說話人識別中的應(yīng)用特點及優(yōu)勢,進一步分析了目前說話人識別研究面臨的問題及挑戰(zhàn),并展望了深度學(xué)習(xí)框架下說話人識別研究的前景,以期推動說話人識別技術(shù)的進一步發(fā)展。
【文章來源】:計算機工程與應(yīng)用. 2020,56(07)北大核心CSCD
【文章頁數(shù)】:9 頁
【部分圖文】:
基于GMM-UBM的說話人識別算法
為提升對信道的抗干擾能力,Campbell將SVM引入到GMM-UBM的建模中。因為GMM-UBM模型中,在MAP(Maximum A Posterior)[18]自適應(yīng)環(huán)節(jié)僅僅是利用UBM模型對目標(biāo)說話人數(shù)據(jù)做了均值的自適應(yīng)。如圖3所示,通過將GMM每個高斯分量的均值單獨提取出來組成高斯超向量(Gaussian Super Vector,GSV)[15],進而搭建GSV-SVM系統(tǒng)。依靠SVM核函數(shù)的強大非線性分類能力,在GMM-UBM的基礎(chǔ)上大幅提升了識別的性能。另外加入基于GSV的一些規(guī)整算法,例如擾動屬性投影(Nuisance Attribute Projection,NAP)[19]、類內(nèi)方差規(guī)整(Within Class Covariance Normalization,WCCN)[20]等,都在一定程度上補償了由于信道易變形對說話人建模帶來的影響。但是,研究發(fā)現(xiàn)其識別率進一步提升受到信道因素影響仍較為嚴重。2.3.3 JFA
i-vector是基于JFA的簡化版,即用一個全因子空間(Total factor matrix,T)同時描述說話人信息和信道信息,然后把語音映射到了一個固定且低維的向量上[17]。由于信道信息的存在,對識別系統(tǒng)產(chǎn)生干擾,甚至嚴重影響系統(tǒng)的識別準確率,所以通常會采用WCCN、線性判別分析(Linear Discriminant Analysis,LDA)[21]、概率線性判別分析程序(Probabilistic Linear Discriminant Analysis,PLDA)[22]進行信道補償,如圖4所示,但噪聲對GMM特征依然有很大影響。i-vector在文本無關(guān)說話人識別上表現(xiàn)優(yōu)秀,但是在文本相關(guān)的識別上的表現(xiàn)卻不如傳統(tǒng)的GMM-UBM框架好。i-vector看似簡潔,是由于其舍棄了如文本差異性之類的信息,在文本無關(guān)識別中,注冊語音和測試語音在內(nèi)容上的差異性比較大,因此需要抑制這種差異性;但在文本相關(guān)識別中,又需要放大訓(xùn)練和識別語音在內(nèi)容上的相似性,導(dǎo)致說話人的特征相似性被稀疏化,使得區(qū)分能力下降。
本文編號:3236115
【文章來源】:計算機工程與應(yīng)用. 2020,56(07)北大核心CSCD
【文章頁數(shù)】:9 頁
【部分圖文】:
基于GMM-UBM的說話人識別算法
為提升對信道的抗干擾能力,Campbell將SVM引入到GMM-UBM的建模中。因為GMM-UBM模型中,在MAP(Maximum A Posterior)[18]自適應(yīng)環(huán)節(jié)僅僅是利用UBM模型對目標(biāo)說話人數(shù)據(jù)做了均值的自適應(yīng)。如圖3所示,通過將GMM每個高斯分量的均值單獨提取出來組成高斯超向量(Gaussian Super Vector,GSV)[15],進而搭建GSV-SVM系統(tǒng)。依靠SVM核函數(shù)的強大非線性分類能力,在GMM-UBM的基礎(chǔ)上大幅提升了識別的性能。另外加入基于GSV的一些規(guī)整算法,例如擾動屬性投影(Nuisance Attribute Projection,NAP)[19]、類內(nèi)方差規(guī)整(Within Class Covariance Normalization,WCCN)[20]等,都在一定程度上補償了由于信道易變形對說話人建模帶來的影響。但是,研究發(fā)現(xiàn)其識別率進一步提升受到信道因素影響仍較為嚴重。2.3.3 JFA
i-vector是基于JFA的簡化版,即用一個全因子空間(Total factor matrix,T)同時描述說話人信息和信道信息,然后把語音映射到了一個固定且低維的向量上[17]。由于信道信息的存在,對識別系統(tǒng)產(chǎn)生干擾,甚至嚴重影響系統(tǒng)的識別準確率,所以通常會采用WCCN、線性判別分析(Linear Discriminant Analysis,LDA)[21]、概率線性判別分析程序(Probabilistic Linear Discriminant Analysis,PLDA)[22]進行信道補償,如圖4所示,但噪聲對GMM特征依然有很大影響。i-vector在文本無關(guān)說話人識別上表現(xiàn)優(yōu)秀,但是在文本相關(guān)的識別上的表現(xiàn)卻不如傳統(tǒng)的GMM-UBM框架好。i-vector看似簡潔,是由于其舍棄了如文本差異性之類的信息,在文本無關(guān)識別中,注冊語音和測試語音在內(nèi)容上的差異性比較大,因此需要抑制這種差異性;但在文本相關(guān)識別中,又需要放大訓(xùn)練和識別語音在內(nèi)容上的相似性,導(dǎo)致說話人的特征相似性被稀疏化,使得區(qū)分能力下降。
本文編號:3236115
本文鏈接:http://sikaile.net/kejilunwen/wltx/3236115.html
最近更新
教材專著