跨越說話人及語言差異的語音生成

發(fā)布時間：2020-07-14 10:54

【摘要】：跨越說話人及語言的語音生成是語音信號處理領(lǐng)域當(dāng)中的重要研究方向,該問題又可分為兩個子問題:1)跨越說話人的語音生成,即語音轉(zhuǎn)換;2)跨越說話人及語言的語音生成,即跨語言語音合成。其中語音轉(zhuǎn)換關(guān)注于轉(zhuǎn)換說話人特征,即在不改變文本信息的前提下將源說話人的語音改變?yōu)槟繕?biāo)說話人的語音使其帶有目標(biāo)說話人的音色和韻律。跨越說話人的語音合成專注于給定目標(biāo)說話人第一語言語音數(shù)據(jù),借助第二語言參照說話人的幫助為目標(biāo)說話人量身定做第二語言語音合成器。跨越說話人及語言的語音生成在許多領(lǐng)域具有廣泛的應(yīng)用價值及實際需求,然而受限于實際場景中的數(shù)據(jù)量以及建模方法的性能,目前跨越說話人及語言所合成的語音的自然度及說話人相似度都不能令人滿意,離工業(yè)界產(chǎn)品的需求還有相當(dāng)長的距離。本論文針對語音轉(zhuǎn)換及跨語言語音合成兩個子問題在技術(shù)框架構(gòu)建、技術(shù)改進方面進行了深入而系統(tǒng)的研究。本論文的具體研究內(nèi)容和研究成果如下。首先,針對有平行訓(xùn)練數(shù)據(jù)的情況的語音轉(zhuǎn)換場景,本論文對基于神經(jīng)網(wǎng)絡(luò)的語音轉(zhuǎn)換訓(xùn)練準(zhǔn)則進行了技術(shù)分析與改進,提出了最小化序列誤差的神經(jīng)網(wǎng)絡(luò)訓(xùn)練準(zhǔn)則,該訓(xùn)練準(zhǔn)則一方面在人工神經(jīng)網(wǎng)絡(luò)誤差反向傳播訓(xùn)練中考慮到了整個序列的信息,另一方面消除了基于神經(jīng)網(wǎng)絡(luò)的語音生成回歸模型在訓(xùn)練階段優(yōu)化目標(biāo)和測試階段合成目標(biāo)不一致的問題。此外本文還利用神經(jīng)網(wǎng)絡(luò)將頻譜和基頻聯(lián)合轉(zhuǎn)換。實驗證明基于最小化序列誤差的神經(jīng)網(wǎng)絡(luò)訓(xùn)練準(zhǔn)則比基于幀誤差的訓(xùn)練準(zhǔn)則更適合解決語音生成的回歸問題。在CMU ARCTIC數(shù)據(jù)庫測試集上對數(shù)譜距離(LSD)比基于神經(jīng)網(wǎng)絡(luò)的基線系統(tǒng)降低了0.15dB,主觀測試中轉(zhuǎn)換后的語音的自然度(60%vs.22%)及說話人的相似度(65%vs.35%)也都比基線系統(tǒng)得到了提高。其次,提出了只利用目標(biāo)說話人的語音數(shù)據(jù)的一種基于說話人無關(guān)的神經(jīng)網(wǎng)絡(luò)聲學(xué)(SI-DNN)模型及KL散度的完整語音轉(zhuǎn)換技術(shù)框架(KLD-DNN)。說話人無關(guān)的深度神經(jīng)網(wǎng)絡(luò)輸出的概率音素空間用來去除源說話人和目標(biāo)說話人之間的聲學(xué)差異,KL散度用來衡量不同聲學(xué)單元在此音素空間的差異。之后根據(jù)目標(biāo)說話人聲學(xué)單元的不同,1)有監(jiān)督場景下基于TTS senone;2)無監(jiān)督場景下基于音素類;3)無監(jiān)督場景下基于語音幀;采用了了不同的聲學(xué)軌跡平滑后處理方法。實驗證明基于說話人無關(guān)的神經(jīng)網(wǎng)絡(luò)及KL散度的語音轉(zhuǎn)換技術(shù)框架顯著超越了需要上述平行訓(xùn)練數(shù)據(jù)的基于神經(jīng)網(wǎng)絡(luò)回歸模型的系統(tǒng)。在CMU ARCTIC數(shù)據(jù)庫測試集上LSD比基于序列誤差的神經(jīng)網(wǎng)絡(luò)語音轉(zhuǎn)換模型降低了0.5dB。在主觀測試中,語音自然度(91%vs.6%)及說話人相似度(88%vs.7%)兩項指標(biāo)顯著超越了上述基于序列誤差的神經(jīng)網(wǎng)絡(luò)模型的系統(tǒng)。第三,基于前面提出的利用說話人無關(guān)的深度神經(jīng)網(wǎng)絡(luò)去除源說話人和目標(biāo)說話人之間的聲學(xué)差異的思想,提出了在音素空間中單元幀拼接并利用WaveNet聲碼器合成語音的框架。WaveNet聲碼器不再依賴語音生成機制(如源-濾波器模型)的任何假設(shè),而是利用卷積神經(jīng)網(wǎng)絡(luò)直接為語音采樣點序列建模。實驗證明,基于音素空間中的單元幀拼接及WaveNet框架方法在CMU ARCTIC數(shù)據(jù)庫上對比上述基于KLD-DNN的方法在主觀測試中取得了顯著的進步,語音自然度(80%vs.7%)和說話人相似度(76%vs.8%)均獲得了更高的偏好度。最后,提出了基于說話人無關(guān)的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型及KL散度跨語言語音合成技術(shù)框架,基于不同語言的語音在次音素或幀級別上在一定程度上可以部分共享同一音素空間的前提假設(shè),利用第一語言訓(xùn)練出來的深度神經(jīng)網(wǎng)絡(luò)聲學(xué)模型消除目標(biāo)說話人第一語言語音及參照說話人第二語言語音的聲學(xué)差異。在有監(jiān)督情況下利用最小化KL散度對目標(biāo)說話人第一語言決策樹模型的葉節(jié)點及參照說話人第二語言決策樹模型的葉節(jié)點進行一一映射;在無監(jiān)督情況下,利用基于KL散度的權(quán)值和目標(biāo)說話人第一語言語音數(shù)據(jù)對參照說話人的第二語言決策樹模型的葉節(jié)點進行填充,從而得到目標(biāo)說話人第二語言的決策樹模型,實現(xiàn)跨越說話人及語言的語音生成。實驗證明此方法比之前基于軌跡拼接的基線系統(tǒng)取得了顯著的進步。測試集的對數(shù)譜距離(LSD)顯著下降了0.89dB,主觀測試中說話人相似度DMOS分比基線系統(tǒng)提升了0.6分(2.9分-3.5分)。本文層層遞進提出了三種語音轉(zhuǎn)換的方法:1)基于序列誤差最小化的神經(jīng)網(wǎng)絡(luò);2)基于KL散度和DNN的語音轉(zhuǎn)換;3)基于單元幀拼接及WaveNet的語音轉(zhuǎn)換。分別有效地解決了1)語音轉(zhuǎn)換神經(jīng)網(wǎng)路訓(xùn)練目標(biāo)與測試目標(biāo)不一致;2)如何有效去除不同說話人之間的聲學(xué)差異;3)傳統(tǒng)聲碼器合成轉(zhuǎn)換語音自然度差這三個問題。三種方法較基線系統(tǒng)逐步地顯著提升了語音轉(zhuǎn)換后的語音自然度和說話人相似度。之后又提出了基于KL散度和DNN的跨語言語音合成,解決了跨語音合成不同語言之間如何消除聲學(xué)差異的問題,顯著提升了跨語言語音合成系統(tǒng)合成語音的說話人相似度。
【學(xué)位授予單位】：哈爾濱工業(yè)大學(xué)
【學(xué)位級別】：博士
【學(xué)位授予年份】：2019
【分類號】：TN912.3

【相似文獻】

相關(guān)期刊論文前10條

1 李稀敏;洪青陽;黃曉丹;;基于說話人的音頻分割與聚類[J];心智與計算;2010年02期

2 劉廣現(xiàn);巧用語言逆效應(yīng)教學(xué)[J];語文教學(xué)通訊;1994年06期

3 李敬陽;李銳;王莉;王曉笛;;基于變分貝葉斯改進的說話人聚類算法[J];數(shù)據(jù)采集與處理;2017年01期

4 葉于林;楊波;莫建華;劉夏;;基于說話人辨識的自上而下聽覺顯著性注意模型[J];計算機系統(tǒng)應(yīng)用;2017年07期

5 陳新仁;;說話人用意的認知加工機制:基于誤解分析的證據(jù)[J];外語教學(xué);2016年04期

6 花冬萍;;潤澤有效的課堂,從引導(dǎo)學(xué)生學(xué)會傾聽開始[J];快樂閱讀;2016年24期

7 楊曉帆;;那些有故事的“說話人”[J];長江叢刊;2017年01期

8 唐一鳴;;漢日位移動詞比較研究[J];唐山文學(xué);2017年02期

9 陶艷;;簡約而不簡單的英語實用口語[J];初中生輔導(dǎo);2016年36期

10 董文英;;臨時性詞匯及其語用功能探析[J];青年文學(xué)家;2017年09期

相關(guān)會議論文前10條

1 譚良杰;劉亞麗;;噪聲對跨語種說話人音色感知的影響[A];2019年全國聲學(xué)大會論文集[C];2019年

2 金乃高;侯剛;王學(xué)輝;李非墨;;基于主動感知的音視頻聯(lián)合說話人跟蹤方法[A];2010年通信理論與信號處理學(xué)術(shù)年會論文集[C];2010年

3 馬勇;鮑長春;夏丙寅;;基于辨別性深度信念網(wǎng)絡(luò)的說話人分割[A];需將論文集名稱修改為“第十二屆全國人機語音通訊學(xué)術(shù)會議（NCMMSC2013）論文集[C];2013年

4 王海燕;楊鴻武;甘振業(yè);裴東;;基于說話人自適應(yīng)訓(xùn)練的漢藏雙語語音合成[A];需將論文集名稱修改為“第十二屆全國人機語音通訊學(xué)術(shù)會議（NCMMSC2013）論文集[C];2013年

5 何磊;方棣棠;吳文虎;;說話人聚類與模型自適應(yīng)結(jié)合的說話人自適應(yīng)方法[A];第六屆全國人機語音通訊學(xué)術(shù)會議論文集[C];2001年

6 李經(jīng)偉;;語體轉(zhuǎn)換與角色定位[A];全國語言與符號學(xué)研究會第五屆研討會論文摘要集[C];2002年

7 司羅;胡起秀;金琴;;完全無監(jiān)督的雙人對話中的說話人分隔[A];第九屆全國信號處理學(xué)術(shù)年會（CCSP-99）論文集[C];1999年

8 羅海風(fēng);龍長才;;多話者環(huán)境下說話人辨識聽覺線索研究[A];中國聲學(xué)學(xué)會2009年青年學(xué)術(shù)會議[CYCA’09]論文集[C];2009年

9 白俊梅;張樹武;徐波;;廣播電視中的目標(biāo)說話人跟蹤技術(shù)[A];第八屆全國人機語音通訊學(xué)術(shù)會議論文集[C];2005年

10 索宏彬;劉曉星;;基于高斯混合模型的說話人跟蹤系統(tǒng)[A];第八屆全國人機語音通訊學(xué)術(shù)會議論文集[C];2005年

相關(guān)重要報紙文章前10條

1 ;做一名積極的傾聽者[N];中國紡織報;2003年

2 唐志強;不聽別人說話,也能模仿其口音[N];新華每日電訊;2010年

3 蘭州大學(xué)外國語學(xué)院樊林洲;語言進化的生態(tài)機制[N];中國社會科學(xué)報;2016年

4 華中師范大學(xué)語言與語言教育研究中心侯鉞沛;從“高大上”到“然并卵”[N];語言文字周報;2016年

5 中科院自動化所生物特征認證與測評中心白俊梅;聽到的真實嗎？[N];計算機世界;2003年

6 曹文彪;生氣與高致[N];文學(xué)報;2006年

7 中國科學(xué)院自動化研究所模式識別國家重點實驗室辛樂邋陶建華;說話人頭像技術(shù)：讓語音可視[N];計算機世界;2007年

8 攀登;為這樣的提議叫好[N];福建日報;2013年

9 記者蔣榮耀江南鸞李旖露;“黑科技”野心：能聽會說可辦事[N];深圳商報;2018年

10 全國政協(xié)委員本報高級編輯詹國樞;咱們都來說真話[N];人民日報海外版;2010年

相關(guān)博士學(xué)位論文前10條

1 解奉龍;跨越說話人及語言差異的語音生成[D];哈爾濱工業(yè)大學(xué);2019年

2 田野;麥克風(fēng)網(wǎng)絡(luò)中基于分布式卡爾曼濾波的說話人跟蹤方法研究[D];大連理工大學(xué);2018年

3 陳凌輝;說話人轉(zhuǎn)換建模方法研究[D];中國科學(xué)技術(shù)大學(xué);2013年

4 楊繼臣;說話人信息分析及其在多媒體檢索中的應(yīng)用研究[D];華南理工大學(xué);2010年

5 呂聲;說話人轉(zhuǎn)換方法的研究[D];華南理工大學(xué);2004年

6 屈丹;電話信道下語言辨識技術(shù)研究[D];中國人民解放軍信息工程大學(xué);2005年

7 孫俊;基于激勵源及其韻律特征的源—目標(biāo)說話人聲音轉(zhuǎn)換研究[D];中國科學(xué)技術(shù)大學(xué);2006年

8 王堅;語音識別中的說話人自適應(yīng)研究[D];北京郵電大學(xué);2007年

9 金乃高;音視頻聯(lián)合說話人定位與跟蹤方法研究[D];大連理工大學(xué);2008年

10 徐利敏;說話人辨認中的特征變換和魯棒性技術(shù)研究[D];南京理工大學(xué);2008年

相關(guān)碩士學(xué)位論文前10條

1 付慧娟;“最X的NP也Y”結(jié)構(gòu)研究[D];遼寧大學(xué);2019年

2 張瑤;表主動“我讓你（們）+VP”結(jié)構(gòu)研究[D];遼寧大學(xué);2019年

3 張敏;評價構(gòu)式“有多X就有多Y”研究[D];華中師范大學(xué);2019年

4 邱銀強;重慶方言語氣研究[D];廣西民族大學(xué);2019年

5 田彬;認知模式下漢語認識情態(tài)的翻譯策略研究[D];喀什大學(xué);2019年

6 權(quán)成實;關(guān)于表示指示的接頭詞“當(dāng)”“本”的對比研究[D];北京外國語大學(xué);2019年

7 彭語盈;現(xiàn)代漢語“別”的分化及其情態(tài)化研究[D];渤海大學(xué);2019年

8 李t-琛;“還VP呢”構(gòu)式的分類及功能研究[D];渤海大學(xué);2019年

9 周晨;表提醒的“看”“沒看”及其與“別看”的比較[D];渤海大學(xué);2019年

10 張杰;揣測類評注性副詞“搞不好”的用法及功能研究[D];吉林大學(xué);2019年

本文編號：2754875

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/xinxigongchenglunwen/2754875.html

上一篇：非時隙能量收集認知無線電網(wǎng)絡(luò)的資源分配策略研究
下一篇：基于無線信號處理的物理層安全機制研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

跨越說話人及語言差異的語音生成