天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 信息工程論文 >

基于內(nèi)容的x-vector文本相關(guān)SV研究

發(fā)布時(shí)間:2020-12-13 13:40
  x-vector系統(tǒng)將一段不定長的語音通過神經(jīng)網(wǎng)絡(luò)映射成固定維的矢量來表征說話人信息,該系統(tǒng)在文本無關(guān)的說話人確認(rèn)(Speaker verification,SV)任務(wù)中取得了優(yōu)異的性能。本文將其應(yīng)用到文本相關(guān)的SV任務(wù)中,在x-vector模型選擇上,采用殘差神經(jīng)網(wǎng)絡(luò)以獲得更有區(qū)分性的x-vector;在包含多字符的語句中,對(duì)每個(gè)字訓(xùn)練一個(gè)殘差神經(jīng)網(wǎng)絡(luò);在提取過程中,每一字單獨(dú)提取一個(gè)x-vector并單獨(dú)進(jìn)行說話人判決,最后將多個(gè)判決得分進(jìn)行融合后給出最終的識(shí)別結(jié)果。實(shí)驗(yàn)是在數(shù)據(jù)庫RSR2015PartⅢ上進(jìn)行的,提出的方法在男性和女性測試集上等錯(cuò)誤率分別有15.34%、19.7%的下降。 

【文章來源】:數(shù)據(jù)采集與處理. 2020年05期 北大核心

【文章頁數(shù)】:8 頁

【部分圖文】:

基于內(nèi)容的x-vector文本相關(guān)SV研究


深度神經(jīng)網(wǎng)絡(luò)示意圖

系統(tǒng)流程圖,系統(tǒng)流程圖,內(nèi)容,數(shù)字


在文本相關(guān)的SV中,內(nèi)容是很重要的一個(gè)區(qū)分性信息。前面所述的x?vector系統(tǒng)都是對(duì)一段語音進(jìn)行統(tǒng)一的矢量提取,沒有考慮內(nèi)容對(duì)x?vector的影響。本文針對(duì)這種情況采用不同的數(shù)字分別訓(xùn)練殘差神經(jīng)網(wǎng)絡(luò)并分別提取x?vector;趦(nèi)容的x?vector系統(tǒng)包含訓(xùn)練階段和測試階段,圖2為說話人識(shí)別流程圖。在說話人模型注冊(cè)階段,首先進(jìn)行數(shù)據(jù)預(yù)處理:提取訓(xùn)練語料的30維梅爾頻率倒譜系數(shù)(Mel frequency cepstral coefficient,MFCC)特征,并利用端點(diǎn)檢測算法除去靜音幀;再進(jìn)行語料切分:利用語音識(shí)別模型將每條語料切割成若干數(shù)字,由于聲音信噪比高,采用高斯混合模型與隱馬爾科夫模型(Gaussian mixture models and hidden markov model,GMM?HMM)模型已經(jīng)能夠獲得很好的語音識(shí)別準(zhǔn)確率;利用訓(xùn)練好的深度神經(jīng)網(wǎng)絡(luò)模型分別提取每個(gè)數(shù)字的x?vector,完成模型的注冊(cè)。在測試階段,數(shù)據(jù)預(yù)處理與訓(xùn)練階段相同,提取注冊(cè)語料和測試語料中各數(shù)字相應(yīng)的x?vector,使用線性判別式分析(Linear discriminant analysis,LDA)、PLDA后端信道補(bǔ)償算法獲取各數(shù)字的得分,最后將測試語料各數(shù)字得分求和平均計(jì)算最終得分。圖2中提取x?vector神經(jīng)網(wǎng)絡(luò)首先使用大量數(shù)據(jù)預(yù)訓(xùn)練得到一個(gè)初始網(wǎng)絡(luò),然后用訓(xùn)練集的每個(gè)不同的數(shù)字來訓(xùn)練得到10個(gè)與數(shù)字相關(guān)的神經(jīng)網(wǎng)絡(luò)。由于x?vector是與數(shù)字相關(guān)的,因此也用訓(xùn)練集的不同數(shù)字的x?vector來單獨(dú)訓(xùn)練LDA、PLDA模型。

殘差圖,殘差,數(shù)字,語料


給定一條語料x,基于字的PLDA模型如下與式(5)不同的是,上式所有變量都是針對(duì)特定數(shù)字d,{μd,Vd,Σd}這些參數(shù)都是由其對(duì)應(yīng)數(shù)字的歸一化的x?vector訓(xùn)練,歸一化過程如式(9)所示

【參考文獻(xiàn)】:
期刊論文
[1]基于深度學(xué)習(xí)的語音識(shí)別技術(shù)現(xiàn)狀與展望[J]. 戴禮榮,張仕良,黃智穎.  數(shù)據(jù)采集與處理. 2017(02)



本文編號(hào):2914630

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/2914630.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶40a3a***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com