天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 信息工程論文 >

非平行文本條件下基于i-vector和改進變分自編碼器的多對多語音轉(zhuǎn)換算法研究

發(fā)布時間:2020-11-03 05:23
   語音轉(zhuǎn)換技術(shù)是一種將源說話人的個性特征轉(zhuǎn)換為目標說話人個性特征,同時保持語義信息不變的一種技術(shù)。根據(jù)語音轉(zhuǎn)換所獲取的語料不同,可以將語音轉(zhuǎn)換分為平行文本條件下的語音轉(zhuǎn)換和非平行文本條件下的語音轉(zhuǎn)換。在目前的非平行文本條件下的語音轉(zhuǎn)換存在轉(zhuǎn)換后的語音質(zhì)量不好和語音個性相似度不高等問題。本文的重點是通過引入說話人身份向量和對變分自編碼器模型進行改進這兩方面改善轉(zhuǎn)換性能。首先,由于說話人標簽對說話人身份信息表征不足,本文通過引入說話人身份向量用于豐富說話人身份特征信息,從而對轉(zhuǎn)換后的目標說話人語音在個性相似度上進行改進。經(jīng)過實驗分析表明,本文提出的基于變分自編碼器和說話人身份向量的模型,轉(zhuǎn)換后的語音相對于基于變分自編碼器和說話人標簽模型的轉(zhuǎn)換語音的MCD值降低了3.34%,MOS值提升了1.6%,ABX值在同性轉(zhuǎn)換情形下平均提升了3.75%,在異性轉(zhuǎn)換情形下平均提升了4.37%。實驗結(jié)果分析表明該方案對轉(zhuǎn)換后的語音個性相似度和語音質(zhì)量方面都有不同程度的提高。其次,由于變分自編碼器模型的隱層變量對瓶頸層信息表示不足,本文通過對變分自編碼器模型進行改進,引入?yún)?shù)?和C得到BETA變分自編碼器模型,使模型能夠?qū)W習到解纏繞的隱層表示并提升隱層編碼的信息容量。通過實驗分析表明,本文提出的BETA變分自編碼器模型相對于變分自編碼器模型轉(zhuǎn)換語音的MCD值平均降低了4.10%,MOS值平均提升了5.33%,ABX值在同性轉(zhuǎn)換情形下提升了5.62%,在異性轉(zhuǎn)換情形下平均提升了4.37%。實驗結(jié)果表明該方案對轉(zhuǎn)換后的語音質(zhì)量和個性相似度方面都實現(xiàn)了有效的改善。此外,本文還將身份向量引入上述模型中,得到BETA-VAE+i-vector模型,該模型比基于VAE和說話人身份標簽模型的轉(zhuǎn)換語音的MCD值降低了5.5%,MOS值提升了6.23%,ABX值在同性轉(zhuǎn)換情形下提升了6.87%,在異性轉(zhuǎn)換情形下提升了5.62%,說明該方法在語音音質(zhì)和說話人個性相似度兩個方面都有較大的提升。
【學位單位】:南京郵電大學
【學位級別】:碩士
【學位年份】:2019
【中圖分類】:TN912.3
【部分圖文】:

分布圖,分布圖,聲音,人體器官


表的意義出發(fā)。本章主要介紹了語音的發(fā)音模譜轉(zhuǎn)換及語音性能的評估等基礎(chǔ)知識和關(guān)鍵技模型生機制人體器官共同參與的復雜過程,其過程大致可進行構(gòu)思,根據(jù)語法與詞匯形成信息流;人體各個器官協(xié)調(diào)工作。通過肺部產(chǎn)生的氣聲帶震動發(fā)出聲音,聲音再通過舌、腭、咽、聲音;唇輻射,發(fā)出聲音,輸出信號;

原理圖,模型結(jié)構(gòu),原理,自編碼


圖 3.1 VAE 模型結(jié)構(gòu)原理簡圖成模型 p ( z ) p ( x | z) ,虛線表示真與生成模型參數(shù) 進行聯(lián)合學習。成模型 p ( x | z) ,如果從自編碼的辨別模型 q ( z | x) ,類似于自編碼同分布的,兩個觀測不會相互影 p ( x | z) 參數(shù)進行估計,利用對數(shù)(1) (2) ( ) 1log ( , ,..., ) log (NN ip x x x p

對比圖,目標語,語譜圖,轉(zhuǎn)換系統(tǒng)


圖 4.5 是采用非平行語料訓練時,基準系統(tǒng) VAE+one-hot 模型與 VAE+i-vector 模型進行語音轉(zhuǎn)換實驗時,四組轉(zhuǎn)換類別下轉(zhuǎn)換語音的 MCD 平均值對比圖。圖 4.5 四組轉(zhuǎn)換類別下不同模型轉(zhuǎn)換語音 MCD 值對比圖5.4155.8155.8225.9485.2435.5485.7035.7385.15.25.35.45.55.65.75.85.96.0女-女 女-男 男-女 男-男MCD值VAE+one-hot VAE+i-vector
【相似文獻】

相關(guān)期刊論文 前10條

1 屈召貴;魯順昌;;說話人識別的不確定性i-vector分析[J];計算機工程與設計;2017年06期

2 馬平;黃浩;程露紅;楊萌萌;;基于i-vector說話人識別算法中訓練時長研究[J];現(xiàn)代電子技術(shù);2016年14期

3 栗志意;何亮;張衛(wèi)強;劉加;;基于鑒別性i-vector局部距離保持映射的說話人識別[J];清華大學學報(自然科學版);2012年05期

4 王偉;韓紀慶;鄭鐵然;鄭貴濱;周星宇;金聲;;基于i-vector聲紋識別上課點名系統(tǒng)的設計與實現(xiàn)[J];智能計算機與應用;2016年06期

5 楊緒魁;屈丹;張文林;;基于正則化i-Vector算法的語種識別[J];信息工程大學學報;2015年02期

6 王明合;唐振民;張二華;;基于i-vector局部加權(quán)線性判別分析的說話人識別[J];儀器儀表學報;2015年12期

7 李灣灣;范承志;祁才君;;基于改進MFD的I-Vector說話人識別[J];電聲技術(shù);2016年12期

8 史小元;景新幸;曾敏;楊海燕;;基于改進PNCC和i-vector的說話人識別魯棒性[J];計算機工程與設計;2017年04期

9 黃俊;蔣兵;李先剛;郭武生;戴禮榮;;I-vector聚類字典及注意力機制框架的說話人自適應[J];小型微型計算機系統(tǒng);2019年02期

10 哈爾肯別克·木哈西;鐘珞;達瓦·伊德木草;;用說話人相似度i-vector的非負值矩陣分解說話人聚類[J];計算機應用與軟件;2017年04期


相關(guān)碩士學位論文 前9條

1 許吉良;非平行文本條件下基于i-vector和改進變分自編碼器的多對多語音轉(zhuǎn)換算法研究[D];南京郵電大學;2019年

2 馬平;基于i-vector的穩(wěn)健說話人識別研究[D];新疆大學;2016年

3 陳晨;I-VECTOR說話人識別中基于偏最小二乘的總變化空間估計方法[D];哈爾濱工業(yè)大學;2015年

4 王躍;基于I-VECTOR的與文本無關(guān)的說話人識別研究[D];蘭州理工大學;2017年

5 李亞琦;語音識別中基于i-vector的說話人歸一化研究[D];新疆大學;2014年

6 潘怡霖;基于i-vector特征規(guī)整的概率線性判別分析說話人確認方法研究[D];哈爾濱工業(yè)大學;2017年

7 卓著;基于信道補償技術(shù)的說話人確認研究[D];中國科學技術(shù)大學;2015年

8 陳霄鵬;聲紋識別中的時變魯棒性問題研究[D];貴州大學;2016年

9 李灣灣;說話人聲紋識別的算法研究[D];浙江大學;2017年



本文編號:2868152

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/2868152.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶fb7ff***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com