基于CycleGAN網(wǎng)絡(luò)實(shí)現(xiàn)非平行語料庫條件下的語音轉(zhuǎn)換
發(fā)布時(shí)間:2020-04-29 14:00
【摘要】:語音轉(zhuǎn)換技術(shù)指的是,在不改變語義信息的情況下,改變?cè)凑f話人說話的個(gè)性特征,使語音聽起來像目標(biāo)說話人說得一樣。語音轉(zhuǎn)換有著較高的理論研究?jī)r(jià)值和廣泛的應(yīng)用場(chǎng)景。當(dāng)前語音轉(zhuǎn)換的研究大多數(shù)依賴平行語料庫,但實(shí)際中,平行語料庫往往難以獲取,特征對(duì)齊容易出錯(cuò),更是對(duì)于不同語言轉(zhuǎn)換無能為力。本文重點(diǎn)研究更靈活、通用的非平行數(shù)據(jù)條件下的語音轉(zhuǎn)換,主要做了如下工作:(1)對(duì)語音轉(zhuǎn)換的理論和流程進(jìn)行了梳理,使用最新的WORLD語音信號(hào)的分析合成模型來做特征參數(shù)提取、語音合成工作。(2)將在非平行數(shù)據(jù)條件下的圖像風(fēng)格遷移中表現(xiàn)很好的CycleGAN網(wǎng)絡(luò)運(yùn)用到語音轉(zhuǎn)換的頻譜轉(zhuǎn)換過程中,并針對(duì)性的改進(jìn)了生成器網(wǎng)絡(luò)、判別器網(wǎng)絡(luò)、損失函數(shù),加入了一些實(shí)驗(yàn)細(xì)節(jié)和超參數(shù),結(jié)果表明能夠?qū)崿F(xiàn)基本的語音轉(zhuǎn)換,但結(jié)果有待提升。(3)對(duì)上述網(wǎng)絡(luò)繼續(xù)做出改進(jìn),更改了網(wǎng)絡(luò)結(jié)構(gòu)以解決的判別器網(wǎng)絡(luò)訓(xùn)練困難、訓(xùn)練不穩(wěn)定等問題,加入了GLU激活函數(shù)保證了順序和分層的特性。結(jié)果顯示基于改進(jìn)的CycleGAN+GLU方法已經(jīng)很接近基于平行數(shù)據(jù)條件下的GMM方法。
【學(xué)位授予單位】:大連理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:TN912.3
本文編號(hào):2644653
【學(xué)位授予單位】:大連理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:TN912.3
【參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 王金明,張雄偉;話者識(shí)別系統(tǒng)中語音特征參數(shù)的研究與仿真[J];系統(tǒng)仿真學(xué)報(bào);2003年09期
相關(guān)碩士學(xué)位論文 前4條
1 董添輝;語音轉(zhuǎn)換中聲道譜參數(shù)變換算法的研究[D];南京郵電大學(xué);2017年
2 方鵬;歌唱人轉(zhuǎn)換研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2016年
3 李清華;語音轉(zhuǎn)換技術(shù)研究及實(shí)現(xiàn)[D];湖南師范大學(xué);2015年
4 周慧;基于PAD三維情緒模型的情感語音轉(zhuǎn)換與識(shí)別[D];西北師范大學(xué);2009年
,本文編號(hào):2644653
本文鏈接:http://sikaile.net/kejilunwen/wltx/2644653.html
最近更新
教材專著