深度學(xué)習(xí)框架下說(shuō)話人識(shí)別研究綜述
發(fā)布時(shí)間:2021-06-17 23:25
說(shuō)話人識(shí)別由于其獨(dú)特的方便性、經(jīng)濟(jì)性和準(zhǔn)確性等優(yōu)勢(shì),已成為人們?nèi)粘I钆c工作中重要的身份認(rèn)證方式。然而在實(shí)際應(yīng)用場(chǎng)景下,對(duì)說(shuō)話人識(shí)別系統(tǒng)的準(zhǔn)確性、魯棒性、遷移性、實(shí)時(shí)性等提出了巨大的挑戰(zhàn)。近年來(lái)深度學(xué)習(xí)在特征表達(dá)和模式分類(lèi)方面表現(xiàn)優(yōu)異,為說(shuō)話人識(shí)別技術(shù)的進(jìn)一步發(fā)展提供了新方向。相較于傳統(tǒng)說(shuō)話人識(shí)別技術(shù)(如GMM-UBM、GMM-SVM、JFA、i-vector等),聚焦于深度學(xué)習(xí)框架下的說(shuō)話人識(shí)別方法,按照深度學(xué)習(xí)在說(shuō)話人識(shí)別中的作用方式,將目前的研究分為基于深度學(xué)習(xí)的特征表達(dá)、基于深度學(xué)習(xí)的后端建模、端到端聯(lián)合優(yōu)化三種類(lèi)別,并分析和總結(jié)了其典型算法的特點(diǎn)及網(wǎng)絡(luò)結(jié)構(gòu),對(duì)其具體性能進(jìn)行了對(duì)比分析。最后總結(jié)了深度學(xué)習(xí)在說(shuō)話人識(shí)別中的應(yīng)用特點(diǎn)及優(yōu)勢(shì),進(jìn)一步分析了目前說(shuō)話人識(shí)別研究面臨的問(wèn)題及挑戰(zhàn),并展望了深度學(xué)習(xí)框架下說(shuō)話人識(shí)別研究的前景,以期推動(dòng)說(shuō)話人識(shí)別技術(shù)的進(jìn)一步發(fā)展。
【文章來(lái)源】:計(jì)算機(jī)工程與應(yīng)用. 2020,56(07)北大核心CSCD
【文章頁(yè)數(shù)】:9 頁(yè)
【部分圖文】:
基于GMM-UBM的說(shuō)話人識(shí)別算法
為提升對(duì)信道的抗干擾能力,Campbell將SVM引入到GMM-UBM的建模中。因?yàn)镚MM-UBM模型中,在MAP(Maximum A Posterior)[18]自適應(yīng)環(huán)節(jié)僅僅是利用UBM模型對(duì)目標(biāo)說(shuō)話人數(shù)據(jù)做了均值的自適應(yīng)。如圖3所示,通過(guò)將GMM每個(gè)高斯分量的均值單獨(dú)提取出來(lái)組成高斯超向量(Gaussian Super Vector,GSV)[15],進(jìn)而搭建GSV-SVM系統(tǒng)。依靠SVM核函數(shù)的強(qiáng)大非線性分類(lèi)能力,在GMM-UBM的基礎(chǔ)上大幅提升了識(shí)別的性能。另外加入基于GSV的一些規(guī)整算法,例如擾動(dòng)屬性投影(Nuisance Attribute Projection,NAP)[19]、類(lèi)內(nèi)方差規(guī)整(Within Class Covariance Normalization,WCCN)[20]等,都在一定程度上補(bǔ)償了由于信道易變形對(duì)說(shuō)話人建模帶來(lái)的影響。但是,研究發(fā)現(xiàn)其識(shí)別率進(jìn)一步提升受到信道因素影響仍較為嚴(yán)重。2.3.3 JFA
i-vector是基于JFA的簡(jiǎn)化版,即用一個(gè)全因子空間(Total factor matrix,T)同時(shí)描述說(shuō)話人信息和信道信息,然后把語(yǔ)音映射到了一個(gè)固定且低維的向量上[17]。由于信道信息的存在,對(duì)識(shí)別系統(tǒng)產(chǎn)生干擾,甚至嚴(yán)重影響系統(tǒng)的識(shí)別準(zhǔn)確率,所以通常會(huì)采用WCCN、線性判別分析(Linear Discriminant Analysis,LDA)[21]、概率線性判別分析程序(Probabilistic Linear Discriminant Analysis,PLDA)[22]進(jìn)行信道補(bǔ)償,如圖4所示,但噪聲對(duì)GMM特征依然有很大影響。i-vector在文本無(wú)關(guān)說(shuō)話人識(shí)別上表現(xiàn)優(yōu)秀,但是在文本相關(guān)的識(shí)別上的表現(xiàn)卻不如傳統(tǒng)的GMM-UBM框架好。i-vector看似簡(jiǎn)潔,是由于其舍棄了如文本差異性之類(lèi)的信息,在文本無(wú)關(guān)識(shí)別中,注冊(cè)語(yǔ)音和測(cè)試語(yǔ)音在內(nèi)容上的差異性比較大,因此需要抑制這種差異性;但在文本相關(guān)識(shí)別中,又需要放大訓(xùn)練和識(shí)別語(yǔ)音在內(nèi)容上的相似性,導(dǎo)致說(shuō)話人的特征相似性被稀疏化,使得區(qū)分能力下降。
本文編號(hào):3236115
【文章來(lái)源】:計(jì)算機(jī)工程與應(yīng)用. 2020,56(07)北大核心CSCD
【文章頁(yè)數(shù)】:9 頁(yè)
【部分圖文】:
基于GMM-UBM的說(shuō)話人識(shí)別算法
為提升對(duì)信道的抗干擾能力,Campbell將SVM引入到GMM-UBM的建模中。因?yàn)镚MM-UBM模型中,在MAP(Maximum A Posterior)[18]自適應(yīng)環(huán)節(jié)僅僅是利用UBM模型對(duì)目標(biāo)說(shuō)話人數(shù)據(jù)做了均值的自適應(yīng)。如圖3所示,通過(guò)將GMM每個(gè)高斯分量的均值單獨(dú)提取出來(lái)組成高斯超向量(Gaussian Super Vector,GSV)[15],進(jìn)而搭建GSV-SVM系統(tǒng)。依靠SVM核函數(shù)的強(qiáng)大非線性分類(lèi)能力,在GMM-UBM的基礎(chǔ)上大幅提升了識(shí)別的性能。另外加入基于GSV的一些規(guī)整算法,例如擾動(dòng)屬性投影(Nuisance Attribute Projection,NAP)[19]、類(lèi)內(nèi)方差規(guī)整(Within Class Covariance Normalization,WCCN)[20]等,都在一定程度上補(bǔ)償了由于信道易變形對(duì)說(shuō)話人建模帶來(lái)的影響。但是,研究發(fā)現(xiàn)其識(shí)別率進(jìn)一步提升受到信道因素影響仍較為嚴(yán)重。2.3.3 JFA
i-vector是基于JFA的簡(jiǎn)化版,即用一個(gè)全因子空間(Total factor matrix,T)同時(shí)描述說(shuō)話人信息和信道信息,然后把語(yǔ)音映射到了一個(gè)固定且低維的向量上[17]。由于信道信息的存在,對(duì)識(shí)別系統(tǒng)產(chǎn)生干擾,甚至嚴(yán)重影響系統(tǒng)的識(shí)別準(zhǔn)確率,所以通常會(huì)采用WCCN、線性判別分析(Linear Discriminant Analysis,LDA)[21]、概率線性判別分析程序(Probabilistic Linear Discriminant Analysis,PLDA)[22]進(jìn)行信道補(bǔ)償,如圖4所示,但噪聲對(duì)GMM特征依然有很大影響。i-vector在文本無(wú)關(guān)說(shuō)話人識(shí)別上表現(xiàn)優(yōu)秀,但是在文本相關(guān)的識(shí)別上的表現(xiàn)卻不如傳統(tǒng)的GMM-UBM框架好。i-vector看似簡(jiǎn)潔,是由于其舍棄了如文本差異性之類(lèi)的信息,在文本無(wú)關(guān)識(shí)別中,注冊(cè)語(yǔ)音和測(cè)試語(yǔ)音在內(nèi)容上的差異性比較大,因此需要抑制這種差異性;但在文本相關(guān)識(shí)別中,又需要放大訓(xùn)練和識(shí)別語(yǔ)音在內(nèi)容上的相似性,導(dǎo)致說(shuō)話人的特征相似性被稀疏化,使得區(qū)分能力下降。
本文編號(hào):3236115
本文鏈接:http://sikaile.net/kejilunwen/wltx/3236115.html
最近更新
教材專(zhuān)著