天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 信息工程論文 >

跨越說話人及語言差異的語音生成

發(fā)布時(shí)間:2020-07-14 10:54
【摘要】:跨越說話人及語言的語音生成是語音信號(hào)處理領(lǐng)域當(dāng)中的重要研究方向,該問題又可分為兩個(gè)子問題:1)跨越說話人的語音生成,即語音轉(zhuǎn)換;2)跨越說話人及語言的語音生成,即跨語言語音合成。其中語音轉(zhuǎn)換關(guān)注于轉(zhuǎn)換說話人特征,即在不改變文本信息的前提下將源說話人的語音改變?yōu)槟繕?biāo)說話人的語音使其帶有目標(biāo)說話人的音色和韻律?缭秸f話人的語音合成專注于給定目標(biāo)說話人第一語言語音數(shù)據(jù),借助第二語言參照說話人的幫助為目標(biāo)說話人量身定做第二語言語音合成器?缭秸f話人及語言的語音生成在許多領(lǐng)域具有廣泛的應(yīng)用價(jià)值及實(shí)際需求,然而受限于實(shí)際場景中的數(shù)據(jù)量以及建模方法的性能,目前跨越說話人及語言所合成的語音的自然度及說話人相似度都不能令人滿意,離工業(yè)界產(chǎn)品的需求還有相當(dāng)長的距離。本論文針對語音轉(zhuǎn)換及跨語言語音合成兩個(gè)子問題在技術(shù)框架構(gòu)建、技術(shù)改進(jìn)方面進(jìn)行了深入而系統(tǒng)的研究。本論文的具體研究內(nèi)容和研究成果如下。首先,針對有平行訓(xùn)練數(shù)據(jù)的情況的語音轉(zhuǎn)換場景,本論文對基于神經(jīng)網(wǎng)絡(luò)的語音轉(zhuǎn)換訓(xùn)練準(zhǔn)則進(jìn)行了技術(shù)分析與改進(jìn),提出了最小化序列誤差的神經(jīng)網(wǎng)絡(luò)訓(xùn)練準(zhǔn)則,該訓(xùn)練準(zhǔn)則一方面在人工神經(jīng)網(wǎng)絡(luò)誤差反向傳播訓(xùn)練中考慮到了整個(gè)序列的信息,另一方面消除了基于神經(jīng)網(wǎng)絡(luò)的語音生成回歸模型在訓(xùn)練階段優(yōu)化目標(biāo)和測試階段合成目標(biāo)不一致的問題。此外本文還利用神經(jīng)網(wǎng)絡(luò)將頻譜和基頻聯(lián)合轉(zhuǎn)換。實(shí)驗(yàn)證明基于最小化序列誤差的神經(jīng)網(wǎng)絡(luò)訓(xùn)練準(zhǔn)則比基于幀誤差的訓(xùn)練準(zhǔn)則更適合解決語音生成的回歸問題。在CMU ARCTIC數(shù)據(jù)庫測試集上對數(shù)譜距離(LSD)比基于神經(jīng)網(wǎng)絡(luò)的基線系統(tǒng)降低了0.15dB,主觀測試中轉(zhuǎn)換后的語音的自然度(60%vs.22%)及說話人的相似度(65%vs.35%)也都比基線系統(tǒng)得到了提高。其次,提出了只利用目標(biāo)說話人的語音數(shù)據(jù)的一種基于說話人無關(guān)的神經(jīng)網(wǎng)絡(luò)聲學(xué)(SI-DNN)模型及KL散度的完整語音轉(zhuǎn)換技術(shù)框架(KLD-DNN)。說話人無關(guān)的深度神經(jīng)網(wǎng)絡(luò)輸出的概率音素空間用來去除源說話人和目標(biāo)說話人之間的聲學(xué)差異,KL散度用來衡量不同聲學(xué)單元在此音素空間的差異。之后根據(jù)目標(biāo)說話人聲學(xué)單元的不同,1)有監(jiān)督場景下基于TTS senone;2)無監(jiān)督場景下基于音素類;3)無監(jiān)督場景下基于語音幀;采用了了不同的聲學(xué)軌跡平滑后處理方法。實(shí)驗(yàn)證明基于說話人無關(guān)的神經(jīng)網(wǎng)絡(luò)及KL散度的語音轉(zhuǎn)換技術(shù)框架顯著超越了需要上述平行訓(xùn)練數(shù)據(jù)的基于神經(jīng)網(wǎng)絡(luò)回歸模型的系統(tǒng)。在CMU ARCTIC數(shù)據(jù)庫測試集上LSD比基于序列誤差的神經(jīng)網(wǎng)絡(luò)語音轉(zhuǎn)換模型降低了0.5dB。在主觀測試中,語音自然度(91%vs.6%)及說話人相似度(88%vs.7%)兩項(xiàng)指標(biāo)顯著超越了上述基于序列誤差的神經(jīng)網(wǎng)絡(luò)模型的系統(tǒng)。第三,基于前面提出的利用說話人無關(guān)的深度神經(jīng)網(wǎng)絡(luò)去除源說話人和目標(biāo)說話人之間的聲學(xué)差異的思想,提出了在音素空間中單元幀拼接并利用WaveNet聲碼器合成語音的框架。WaveNet聲碼器不再依賴語音生成機(jī)制(如源-濾波器模型)的任何假設(shè),而是利用卷積神經(jīng)網(wǎng)絡(luò)直接為語音采樣點(diǎn)序列建模。實(shí)驗(yàn)證明,基于音素空間中的單元幀拼接及WaveNet框架方法在CMU ARCTIC數(shù)據(jù)庫上對比上述基于KLD-DNN的方法在主觀測試中取得了顯著的進(jìn)步,語音自然度(80%vs.7%)和說話人相似度(76%vs.8%)均獲得了更高的偏好度。最后,提出了基于說話人無關(guān)的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型及KL散度跨語言語音合成技術(shù)框架,基于不同語言的語音在次音素或幀級別上在一定程度上可以部分共享同一音素空間的前提假設(shè),利用第一語言訓(xùn)練出來的深度神經(jīng)網(wǎng)絡(luò)聲學(xué)模型消除目標(biāo)說話人第一語言語音及參照說話人第二語言語音的聲學(xué)差異。在有監(jiān)督情況下利用最小化KL散度對目標(biāo)說話人第一語言決策樹模型的葉節(jié)點(diǎn)及參照說話人第二語言決策樹模型的葉節(jié)點(diǎn)進(jìn)行一一映射;在無監(jiān)督情況下,利用基于KL散度的權(quán)值和目標(biāo)說話人第一語言語音數(shù)據(jù)對參照說話人的第二語言決策樹模型的葉節(jié)點(diǎn)進(jìn)行填充,從而得到目標(biāo)說話人第二語言的決策樹模型,實(shí)現(xiàn)跨越說話人及語言的語音生成。實(shí)驗(yàn)證明此方法比之前基于軌跡拼接的基線系統(tǒng)取得了顯著的進(jìn)步。測試集的對數(shù)譜距離(LSD)顯著下降了0.89dB,主觀測試中說話人相似度DMOS分比基線系統(tǒng)提升了0.6分(2.9分-3.5分)。本文層層遞進(jìn)提出了三種語音轉(zhuǎn)換的方法:1)基于序列誤差最小化的神經(jīng)網(wǎng)絡(luò);2)基于KL散度和DNN的語音轉(zhuǎn)換;3)基于單元幀拼接及WaveNet的語音轉(zhuǎn)換。分別有效地解決了1)語音轉(zhuǎn)換神經(jīng)網(wǎng)路訓(xùn)練目標(biāo)與測試目標(biāo)不一致;2)如何有效去除不同說話人之間的聲學(xué)差異;3)傳統(tǒng)聲碼器合成轉(zhuǎn)換語音自然度差這三個(gè)問題。三種方法較基線系統(tǒng)逐步地顯著提升了語音轉(zhuǎn)換后的語音自然度和說話人相似度。之后又提出了基于KL散度和DNN的跨語言語音合成,解決了跨語音合成不同語言之間如何消除聲學(xué)差異的問題,顯著提升了跨語言語音合成系統(tǒng)合成語音的說話人相似度。
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2019
【分類號(hào)】:TN912.3

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 李稀敏;洪青陽;黃曉丹;;基于說話人的音頻分割與聚類[J];心智與計(jì)算;2010年02期

2 劉廣現(xiàn);巧用語言逆效應(yīng)教學(xué)[J];語文教學(xué)通訊;1994年06期

3 李敬陽;李銳;王莉;王曉笛;;基于變分貝葉斯改進(jìn)的說話人聚類算法[J];數(shù)據(jù)采集與處理;2017年01期

4 葉于林;楊波;莫建華;劉夏;;基于說話人辨識(shí)的自上而下聽覺顯著性注意模型[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2017年07期

5 陳新仁;;說話人用意的認(rèn)知加工機(jī)制:基于誤解分析的證據(jù)[J];外語教學(xué);2016年04期

6 花冬萍;;潤澤有效的課堂,從引導(dǎo)學(xué)生學(xué)會(huì)傾聽開始[J];快樂閱讀;2016年24期

7 楊曉帆;;那些有故事的“說話人”[J];長江叢刊;2017年01期

8 唐一鳴;;漢日位移動(dòng)詞比較研究[J];唐山文學(xué);2017年02期

9 陶艷;;簡約而不簡單的英語實(shí)用口語[J];初中生輔導(dǎo);2016年36期

10 董文英;;臨時(shí)性詞匯及其語用功能探析[J];青年文學(xué)家;2017年09期

相關(guān)會(huì)議論文 前10條

1 譚良杰;劉亞麗;;噪聲對跨語種說話人音色感知的影響[A];2019年全國聲學(xué)大會(huì)論文集[C];2019年

2 金乃高;侯剛;王學(xué)輝;李非墨;;基于主動(dòng)感知的音視頻聯(lián)合說話人跟蹤方法[A];2010年通信理論與信號(hào)處理學(xué)術(shù)年會(huì)論文集[C];2010年

3 馬勇;鮑長春;夏丙寅;;基于辨別性深度信念網(wǎng)絡(luò)的說話人分割[A];需將論文集名稱修改為“第十二屆全國人機(jī)語音通訊學(xué)術(shù)會(huì)議(NCMMSC2013)論文集[C];2013年

4 王海燕;楊鴻武;甘振業(yè);裴東;;基于說話人自適應(yīng)訓(xùn)練的漢藏雙語語音合成[A];需將論文集名稱修改為“第十二屆全國人機(jī)語音通訊學(xué)術(shù)會(huì)議(NCMMSC2013)論文集[C];2013年

5 何磊;方棣棠;吳文虎;;說話人聚類與模型自適應(yīng)結(jié)合的說話人自適應(yīng)方法[A];第六屆全國人機(jī)語音通訊學(xué)術(shù)會(huì)議論文集[C];2001年

6 李經(jīng)偉;;語體轉(zhuǎn)換與角色定位[A];全國語言與符號(hào)學(xué)研究會(huì)第五屆研討會(huì)論文摘要集[C];2002年

7 司羅;胡起秀;金琴;;完全無監(jiān)督的雙人對話中的說話人分隔[A];第九屆全國信號(hào)處理學(xué)術(shù)年會(huì)(CCSP-99)論文集[C];1999年

8 羅海風(fēng);龍長才;;多話者環(huán)境下說話人辨識(shí)聽覺線索研究[A];中國聲學(xué)學(xué)會(huì)2009年青年學(xué)術(shù)會(huì)議[CYCA’09]論文集[C];2009年

9 白俊梅;張樹武;徐波;;廣播電視中的目標(biāo)說話人跟蹤技術(shù)[A];第八屆全國人機(jī)語音通訊學(xué)術(shù)會(huì)議論文集[C];2005年

10 索宏彬;劉曉星;;基于高斯混合模型的說話人跟蹤系統(tǒng)[A];第八屆全國人機(jī)語音通訊學(xué)術(shù)會(huì)議論文集[C];2005年

相關(guān)重要報(bào)紙文章 前10條

1 ;做一名積極的傾聽者[N];中國紡織報(bào);2003年

2 唐志強(qiáng);不聽別人說話,也能模仿其口音[N];新華每日電訊;2010年

3 蘭州大學(xué)外國語學(xué)院 樊林洲;語言進(jìn)化的生態(tài)機(jī)制[N];中國社會(huì)科學(xué)報(bào);2016年

4 華中師范大學(xué)語言與語言教育研究中心 侯鉞沛;從“高大上”到“然并卵”[N];語言文字周報(bào);2016年

5 中科院自動(dòng)化所生物特征認(rèn)證與測評中心 白俊梅;聽到的真實(shí)嗎?[N];計(jì)算機(jī)世界;2003年

6 曹文彪;生氣與高致[N];文學(xué)報(bào);2006年

7 中國科學(xué)院自動(dòng)化研究所模式識(shí)別國家重點(diǎn)實(shí)驗(yàn)室 辛樂邋陶建華;說話人頭像技術(shù):讓語音可視[N];計(jì)算機(jī)世界;2007年

8 攀登;為這樣的提議叫好[N];福建日報(bào);2013年

9 記者 蔣榮耀 江南鸞 李旖露;“黑科技”野心:能聽會(huì)說可辦事[N];深圳商報(bào);2018年

10 全國政協(xié)委員 本報(bào)高級編輯 詹國樞;咱們都來說真話[N];人民日報(bào)海外版;2010年

相關(guān)博士學(xué)位論文 前10條

1 解奉龍;跨越說話人及語言差異的語音生成[D];哈爾濱工業(yè)大學(xué);2019年

2 田野;麥克風(fēng)網(wǎng)絡(luò)中基于分布式卡爾曼濾波的說話人跟蹤方法研究[D];大連理工大學(xué);2018年

3 陳凌輝;說話人轉(zhuǎn)換建模方法研究[D];中國科學(xué)技術(shù)大學(xué);2013年

4 楊繼臣;說話人信息分析及其在多媒體檢索中的應(yīng)用研究[D];華南理工大學(xué);2010年

5 呂聲;說話人轉(zhuǎn)換方法的研究[D];華南理工大學(xué);2004年

6 屈丹;電話信道下語言辨識(shí)技術(shù)研究[D];中國人民解放軍信息工程大學(xué);2005年

7 孫俊;基于激勵(lì)源及其韻律特征的源—目標(biāo)說話人聲音轉(zhuǎn)換研究[D];中國科學(xué)技術(shù)大學(xué);2006年

8 王堅(jiān);語音識(shí)別中的說話人自適應(yīng)研究[D];北京郵電大學(xué);2007年

9 金乃高;音視頻聯(lián)合說話人定位與跟蹤方法研究[D];大連理工大學(xué);2008年

10 徐利敏;說話人辨認(rèn)中的特征變換和魯棒性技術(shù)研究[D];南京理工大學(xué);2008年

相關(guān)碩士學(xué)位論文 前10條

1 付慧娟;“最X的NP也Y”結(jié)構(gòu)研究[D];遼寧大學(xué);2019年

2 張瑤;表主動(dòng)“我讓你(們)+VP”結(jié)構(gòu)研究[D];遼寧大學(xué);2019年

3 張敏;評價(jià)構(gòu)式“有多X就有多Y”研究[D];華中師范大學(xué);2019年

4 邱銀強(qiáng);重慶方言語氣研究[D];廣西民族大學(xué);2019年

5 田彬;認(rèn)知模式下漢語認(rèn)識(shí)情態(tài)的翻譯策略研究[D];喀什大學(xué);2019年

6 權(quán)成實(shí);關(guān)于表示指示的接頭詞“當(dāng)”“本”的對比研究[D];北京外國語大學(xué);2019年

7 彭語盈;現(xiàn)代漢語“別”的分化及其情態(tài)化研究[D];渤海大學(xué);2019年

8 李t-琛;“還VP呢”構(gòu)式的分類及功能研究[D];渤海大學(xué);2019年

9 周晨;表提醒的“看”“沒看”及其與“別看”的比較[D];渤海大學(xué);2019年

10 張杰;揣測類評注性副詞“搞不好”的用法及功能研究[D];吉林大學(xué);2019年



本文編號(hào):2754875

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/2754875.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶3d0d9***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com
殴美女美女大码性淫生活在线播放| 麻豆果冻传媒一二三区| 夫妻性生活动态图视频| 日韩美成人免费在线视频| 欧美黑人精品一区二区在线| 欧美大胆女人的大胆人体| 视频在线免费观看你懂的| 国产原创中文av在线播放| 91欧美激情在线视频| 日韩在线精品视频观看| 国产成人高清精品尤物| 亚洲一区二区福利在线| 午夜福利视频日本一区| 偷拍美女洗澡免费视频| 国产免费操美女逼视频| 黄色国产一区二区三区| 欧美午夜一级特黄大片| 91蜜臀精品一区二区三区| 日本少妇三级三级三级| 国产成人免费高潮激情电| 亚洲一区二区三区三区| 久久本道综合色狠狠五月| 东北女人的逼操的舒服吗| 91老熟妇嗷嗷叫太91| 欧美日韩欧美国产另类| 在线免费国产一区二区三区| 狠色婷婷久久一区二区三区| 日本人妻免费一区二区三区| 欧美激情中文字幕综合八区| 黄片三级免费在线观看| 日本加勒比中文在线观看| 日韩性生活片免费观看| 亚洲欧洲精品一区二区三区| 日韩亚洲精品国产第二页| 中日韩美女黄色一级片| 欧美成人免费视频午夜色| 亚洲av秘片一区二区三区| 久久婷婷综合色拍亚洲| 国产中文字幕一二三区| 中文字幕亚洲视频一区二区| 久久精品福利在线观看|