非平行文本條件下基于文本編碼器、VAE和ACGAN的多對(duì)多語音轉(zhuǎn)換研究
發(fā)布時(shí)間:2021-08-17 01:53
語音轉(zhuǎn)換技術(shù)是一種將源語音中的說話人個(gè)性信息轉(zhuǎn)換為目標(biāo)說話人個(gè)性信息,同時(shí)保留源語義信息的技術(shù)。本文針對(duì)目前語音轉(zhuǎn)換研究領(lǐng)域存在的轉(zhuǎn)換后語音音質(zhì)差、說話人相似度不高的問題進(jìn)行了相應(yīng)的探討與改進(jìn),通過引入句嵌入和文本編碼器對(duì)VAWGAN(變分自編碼器和生成對(duì)抗網(wǎng)絡(luò))語音轉(zhuǎn)換模型中潛在變量的過度正則化問題進(jìn)行了改進(jìn),并通過引入輔助分類器生成對(duì)抗網(wǎng)絡(luò)改善了生成對(duì)抗網(wǎng)絡(luò)的結(jié)構(gòu)。本文的第一個(gè)改進(jìn)點(diǎn)是在VAWGAN系統(tǒng)的基礎(chǔ)上,利用文本編碼器訓(xùn)練句嵌入,將句嵌入約束添加到變分自編碼器和生成對(duì)抗網(wǎng)絡(luò)模型中,利用句嵌入中包含的語義信息,進(jìn)一步提升了轉(zhuǎn)換后語音的語音自然度和個(gè)性相似度。主觀和客觀評(píng)價(jià)表明,本文提出的方法比基于VAWGAN的基準(zhǔn)方法轉(zhuǎn)換后語音平均MCD(Mel-Cepstral Distortion,梅爾倒譜失真)值降低了4.39%,平均MOS(Mean Opinion Score,平均意見分)值提升了4.46%,平均ABX值提升了6.70%,說明本文提出的方法在提升說話人個(gè)性相似度的同時(shí)也提升了語音音質(zhì)。本文的第二個(gè)改進(jìn)點(diǎn)是利用輔助分類器生成對(duì)抗網(wǎng)絡(luò)替代了VAWGAN模型中的Wasser...
【文章來源】:南京郵電大學(xué)江蘇省
【文章頁(yè)數(shù)】:79 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
人體發(fā)音器官分布圖
氣流從聲門彈出形成脈沖,從而在聲門處產(chǎn)生準(zhǔn)周期性脈沖序列氣流過聲道發(fā)出的聲音稱為濁音。當(dāng)聲帶完全伸展時(shí),來自肺部的氣流不受影響地通過果聲道的某一部分收縮形成狹窄的通道,則迫使氣流高速?zèng)_過收縮區(qū)域,并產(chǎn)生湍流道之后形成摩擦聲或清音。如果通道的某個(gè)部分完全關(guān)閉,則氣流到達(dá)此處建立壓力閉點(diǎn)突然打開,氣流就會(huì)迅速釋放,形成爆破音?梢钥闯觯瑢(duì)于濁音,清音和爆們的激發(fā)源是不同的:濁音是位于聲門的準(zhǔn)周期脈沖序列,清音是位于聲道某個(gè)收氣湍流,爆破音是位于壓力突然釋放的通道關(guān)閉處。 語音產(chǎn)生的數(shù)學(xué)模型究人員通過數(shù)字技術(shù)模擬語音信號(hào)的產(chǎn)生。語音信號(hào)是一種時(shí)變信號(hào),然而在短時(shí),可以做一種合理假設(shè):語音信號(hào)為線性時(shí)不變的。通過以上合理假設(shè),語音信號(hào)是線性時(shí)不變系統(tǒng)在隨機(jī)噪聲或準(zhǔn)周期脈沖序列激勵(lì)下的輸出,如圖 2.2 所示。
圖 2.4 變分自編碼器原理示意圖轉(zhuǎn)換框架包含一個(gè)學(xué)習(xí)與說話者無關(guān)建指定說話人語句的解碼器(decoder)。該架的具體原理將在第三章介紹基準(zhǔn)系統(tǒng)時(shí)用高質(zhì)量的語音分析/合成技術(shù),例如諧波[57]、STRAIGHT(Speech Transformation ighted Spectrum)[58]、WORLD[59]等。從源說話者的語音特征,然后轉(zhuǎn)換的語音特征成模型使用廣泛,例如在歌唱合成器錯(cuò)誤!未碼器[60]的語音分析,操作和合成被廣泛使
本文編號(hào):3346821
【文章來源】:南京郵電大學(xué)江蘇省
【文章頁(yè)數(shù)】:79 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
人體發(fā)音器官分布圖
氣流從聲門彈出形成脈沖,從而在聲門處產(chǎn)生準(zhǔn)周期性脈沖序列氣流過聲道發(fā)出的聲音稱為濁音。當(dāng)聲帶完全伸展時(shí),來自肺部的氣流不受影響地通過果聲道的某一部分收縮形成狹窄的通道,則迫使氣流高速?zèng)_過收縮區(qū)域,并產(chǎn)生湍流道之后形成摩擦聲或清音。如果通道的某個(gè)部分完全關(guān)閉,則氣流到達(dá)此處建立壓力閉點(diǎn)突然打開,氣流就會(huì)迅速釋放,形成爆破音?梢钥闯觯瑢(duì)于濁音,清音和爆們的激發(fā)源是不同的:濁音是位于聲門的準(zhǔn)周期脈沖序列,清音是位于聲道某個(gè)收氣湍流,爆破音是位于壓力突然釋放的通道關(guān)閉處。 語音產(chǎn)生的數(shù)學(xué)模型究人員通過數(shù)字技術(shù)模擬語音信號(hào)的產(chǎn)生。語音信號(hào)是一種時(shí)變信號(hào),然而在短時(shí),可以做一種合理假設(shè):語音信號(hào)為線性時(shí)不變的。通過以上合理假設(shè),語音信號(hào)是線性時(shí)不變系統(tǒng)在隨機(jī)噪聲或準(zhǔn)周期脈沖序列激勵(lì)下的輸出,如圖 2.2 所示。
圖 2.4 變分自編碼器原理示意圖轉(zhuǎn)換框架包含一個(gè)學(xué)習(xí)與說話者無關(guān)建指定說話人語句的解碼器(decoder)。該架的具體原理將在第三章介紹基準(zhǔn)系統(tǒng)時(shí)用高質(zhì)量的語音分析/合成技術(shù),例如諧波[57]、STRAIGHT(Speech Transformation ighted Spectrum)[58]、WORLD[59]等。從源說話者的語音特征,然后轉(zhuǎn)換的語音特征成模型使用廣泛,例如在歌唱合成器錯(cuò)誤!未碼器[60]的語音分析,操作和合成被廣泛使
本文編號(hào):3346821
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/3346821.html
最近更新
教材專著