非平行文本條件下基于i-vector和改進(jìn)變分自編碼器的多對(duì)多語音轉(zhuǎn)換算法研究

發(fā)布時(shí)間：2020-11-03 05:23

　　語音轉(zhuǎn)換技術(shù)是一種將源說話人的個(gè)性特征轉(zhuǎn)換為目標(biāo)說話人個(gè)性特征,同時(shí)保持語義信息不變的一種技術(shù)。根據(jù)語音轉(zhuǎn)換所獲取的語料不同,可以將語音轉(zhuǎn)換分為平行文本條件下的語音轉(zhuǎn)換和非平行文本條件下的語音轉(zhuǎn)換。在目前的非平行文本條件下的語音轉(zhuǎn)換存在轉(zhuǎn)換后的語音質(zhì)量不好和語音個(gè)性相似度不高等問題。本文的重點(diǎn)是通過引入說話人身份向量和對(duì)變分自編碼器模型進(jìn)行改進(jìn)這兩方面改善轉(zhuǎn)換性能。首先,由于說話人標(biāo)簽對(duì)說話人身份信息表征不足,本文通過引入說話人身份向量用于豐富說話人身份特征信息,從而對(duì)轉(zhuǎn)換后的目標(biāo)說話人語音在個(gè)性相似度上進(jìn)行改進(jìn)。經(jīng)過實(shí)驗(yàn)分析表明,本文提出的基于變分自編碼器和說話人身份向量的模型,轉(zhuǎn)換后的語音相對(duì)于基于變分自編碼器和說話人標(biāo)簽?zāi)Ｐ偷霓D(zhuǎn)換語音的MCD值降低了3.34%,MOS值提升了1.6%,ABX值在同性轉(zhuǎn)換情形下平均提升了3.75%,在異性轉(zhuǎn)換情形下平均提升了4.37%。實(shí)驗(yàn)結(jié)果分析表明該方案對(duì)轉(zhuǎn)換后的語音個(gè)性相似度和語音質(zhì)量方面都有不同程度的提高。其次,由于變分自編碼器模型的隱層變量對(duì)瓶頸層信息表示不足,本文通過對(duì)變分自編碼器模型進(jìn)行改進(jìn),引入?yún)?shù)?和C得到BETA變分自編碼器模型,使模型能夠?qū)W習(xí)到解纏繞的隱層表示并提升隱層編碼的信息容量。通過實(shí)驗(yàn)分析表明,本文提出的BETA變分自編碼器模型相對(duì)于變分自編碼器模型轉(zhuǎn)換語音的MCD值平均降低了4.10%,MOS值平均提升了5.33%,ABX值在同性轉(zhuǎn)換情形下提升了5.62%,在異性轉(zhuǎn)換情形下平均提升了4.37%。實(shí)驗(yàn)結(jié)果表明該方案對(duì)轉(zhuǎn)換后的語音質(zhì)量和個(gè)性相似度方面都實(shí)現(xiàn)了有效的改善。此外,本文還將身份向量引入上述模型中,得到BETA-VAE+i-vector模型,該模型比基于VAE和說話人身份標(biāo)簽?zāi)Ｐ偷霓D(zhuǎn)換語音的MCD值降低了5.5%,MOS值提升了6.23%,ABX值在同性轉(zhuǎn)換情形下提升了6.87%,在異性轉(zhuǎn)換情形下提升了5.62%,說明該方法在語音音質(zhì)和說話人個(gè)性相似度兩個(gè)方面都有較大的提升。
【學(xué)位單位】：南京郵電大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位年份】：2019
【中圖分類】：TN912.3
【部分圖文】：

分布圖,分布圖,聲音,人體器官

表的意義出發(fā)。本章主要介紹了語音的發(fā)音模譜轉(zhuǎn)換及語音性能的評(píng)估等基礎(chǔ)知識(shí)和關(guān)鍵技模型生機(jī)制人體器官共同參與的復(fù)雜過程，其過程大致可進(jìn)行構(gòu)思，根據(jù)語法與詞匯形成信息流；人體各個(gè)器官協(xié)調(diào)工作。通過肺部產(chǎn)生的氣聲帶震動(dòng)發(fā)出聲音，聲音再通過舌、腭、咽、聲音；唇輻射，發(fā)出聲音，輸出信號(hào)；

原理圖,模型結(jié)構(gòu),原理,自編碼

圖 3.1 VAE 模型結(jié)構(gòu)原理簡(jiǎn)圖成模型 p ( z ) p ( x | z) ，虛線表示真與生成模型參數(shù) 進(jìn)行聯(lián)合學(xué)習(xí)。成模型 p ( x | z) ，如果從自編碼的辨別模型 q ( z | x) ,類似于自編碼同分布的，兩個(gè)觀測(cè)不會(huì)相互影 p ( x | z) 參數(shù)進(jìn)行估計(jì)，利用對(duì)數(shù)(1) (2) ( ) 1log ( , ,..., ) log (NN ip x x x p

對(duì)比圖,目標(biāo)語,語譜圖,轉(zhuǎn)換系統(tǒng)

圖 4.5 是采用非平行語料訓(xùn)練時(shí)，基準(zhǔn)系統(tǒng) VAE+one-hot 模型與 VAE+i-vector 模型進(jìn)行語音轉(zhuǎn)換實(shí)驗(yàn)時(shí)，四組轉(zhuǎn)換類別下轉(zhuǎn)換語音的 MCD 平均值對(duì)比圖。圖 4.5 四組轉(zhuǎn)換類別下不同模型轉(zhuǎn)換語音 MCD 值對(duì)比圖5.4155.8155.8225.9485.2435.5485.7035.7385.15.25.35.45.55.65.75.85.96.0女-女女-男男-女男-男MCD值VAE+one-hot VAE+i-vector
【相似文獻(xiàn)】

相關(guān)期刊論文前10條

1 屈召貴;魯順昌;;說話人識(shí)別的不確定性i-vector分析[J];計(jì)算機(jī)工程與設(shè)計(jì);2017年06期

2 馬平;黃浩;程露紅;楊萌萌;;基于i-vector說話人識(shí)別算法中訓(xùn)練時(shí)長研究[J];現(xiàn)代電子技術(shù);2016年14期

3 栗志意;何亮;張衛(wèi)強(qiáng);劉加;;基于鑒別性i-vector局部距離保持映射的說話人識(shí)別[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年05期

4 王偉;韓紀(jì)慶;鄭鐵然;鄭貴濱;周星宇;金聲;;基于i-vector聲紋識(shí)別上課點(diǎn)名系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];智能計(jì)算機(jī)與應(yīng)用;2016年06期

5 楊緒魁;屈丹;張文林;;基于正則化i-Vector算法的語種識(shí)別[J];信息工程大學(xué)學(xué)報(bào);2015年02期

6 王明合;唐振民;張二華;;基于i-vector局部加權(quán)線性判別分析的說話人識(shí)別[J];儀器儀表學(xué)報(bào);2015年12期

7 李灣灣;范承志;祁才君;;基于改進(jìn)MFD的I-Vector說話人識(shí)別[J];電聲技術(shù);2016年12期

8 史小元;景新幸;曾敏;楊海燕;;基于改進(jìn)PNCC和i-vector的說話人識(shí)別魯棒性[J];計(jì)算機(jī)工程與設(shè)計(jì);2017年04期

9 黃俊;蔣兵;李先剛;郭武生;戴禮榮;;I-vector聚類字典及注意力機(jī)制框架的說話人自適應(yīng)[J];小型微型計(jì)算機(jī)系統(tǒng);2019年02期

10 哈爾肯別克·木哈西;鐘珞;達(dá)瓦·伊德木草;;用說話人相似度i-vector的非負(fù)值矩陣分解說話人聚類[J];計(jì)算機(jī)應(yīng)用與軟件;2017年04期

相關(guān)碩士學(xué)位論文前9條

1 許吉良;非平行文本條件下基于i-vector和改進(jìn)變分自編碼器的多對(duì)多語音轉(zhuǎn)換算法研究[D];南京郵電大學(xué);2019年

2 馬平;基于i-vector的穩(wěn)健說話人識(shí)別研究[D];新疆大學(xué);2016年

3 陳晨;I-VECTOR說話人識(shí)別中基于偏最小二乘的總變化空間估計(jì)方法[D];哈爾濱工業(yè)大學(xué);2015年

4 王躍;基于I-VECTOR的與文本無關(guān)的說話人識(shí)別研究[D];蘭州理工大學(xué);2017年

5 李亞琦;語音識(shí)別中基于i-vector的說話人歸一化研究[D];新疆大學(xué);2014年

6 潘怡霖;基于i-vector特征規(guī)整的概率線性判別分析說話人確認(rèn)方法研究[D];哈爾濱工業(yè)大學(xué);2017年

7 卓著;基于信道補(bǔ)償技術(shù)的說話人確認(rèn)研究[D];中國科學(xué)技術(shù)大學(xué);2015年

8 陳霄鵬;聲紋識(shí)別中的時(shí)變魯棒性問題研究[D];貴州大學(xué);2016年

9 李灣灣;說話人聲紋識(shí)別的算法研究[D];浙江大學(xué);2017年

本文編號(hào)：2868152

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/xinxigongchenglunwen/2868152.html

上一篇：用戶移動(dòng)感知的無線邊緣網(wǎng)絡(luò)緩存策略研究
下一篇：基于壓縮感知方法的FDD大規(guī)模MIMO信道狀態(tài)信息獲取機(jī)理及方法研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

非平行文本條件下基于i-vector和改進(jìn)變分自編碼器的多對(duì)多語音轉(zhuǎn)換算法研究