天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 碩博論文 > 信息類碩士論文 >

基于深度學(xué)習(xí)的小尺度單元拼接語(yǔ)音合成方法研究

發(fā)布時(shí)間:2018-01-02 19:31

  本文關(guān)鍵詞:基于深度學(xué)習(xí)的小尺度單元拼接語(yǔ)音合成方法研究 出處:《中國(guó)科學(xué)技術(shù)大學(xué)》2017年碩士論文 論文類型:學(xué)位論文


  更多相關(guān)文章: 語(yǔ)音合成 參數(shù)合成 單元挑選 深度神經(jīng)網(wǎng)絡(luò) 遞歸神經(jīng)網(wǎng)絡(luò)


【摘要】:語(yǔ)音合成技術(shù)旨在實(shí)現(xiàn)文本等輸入信息到語(yǔ)音波形的轉(zhuǎn)換。統(tǒng)計(jì)參數(shù)語(yǔ)音合成方法以及單元挑選與波形拼接方法是現(xiàn)階段實(shí)現(xiàn)語(yǔ)音合成的兩類主流方法。前者具有系統(tǒng)自動(dòng)構(gòu)建、合成語(yǔ)音平滑流暢等優(yōu)點(diǎn)。但是受制于參數(shù)合成器等因素,其合成語(yǔ)音的自然度仍不夠理想。在統(tǒng)計(jì)聲學(xué)模型指導(dǎo)下使用幀級(jí)長(zhǎng)度的小尺度單元進(jìn)行單元挑選和波形拼接,是一種改進(jìn)統(tǒng)計(jì)參數(shù)方法合成語(yǔ)音自然度的有效途徑。傳統(tǒng)小尺度單元挑選方法使用隱馬爾科夫模型(hidden Markov model,HMM)進(jìn)行聲學(xué)建模和代價(jià)函數(shù)計(jì)算。而近年來,以深度神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)方法已經(jīng)在統(tǒng)計(jì)參數(shù)語(yǔ)音合成的聲學(xué)建模中體現(xiàn)出了相對(duì)HMM的性能優(yōu)勢(shì)。因此,本文圍繞基于深度學(xué)習(xí)的小尺度單元拼接語(yǔ)音合成方法開展研究工作。一方面,研究了用于指導(dǎo)小尺度單元挑選的神經(jīng)網(wǎng)絡(luò)聲學(xué)建模方法,通過使用深度神經(jīng)網(wǎng)絡(luò)與遞歸神經(jīng)網(wǎng)絡(luò)等模型結(jié)構(gòu),提升了傳統(tǒng)HMM模型的建模精度與合成語(yǔ)音質(zhì)量;另一方面,提出了一種結(jié)合單元挑選和參數(shù)生成的語(yǔ)音合成方法,利用幀拼接方法實(shí)現(xiàn)了激勵(lì)特征波形的生成,改善了傳統(tǒng)統(tǒng)計(jì)參數(shù)合成方法中對(duì)于相位等激勵(lì)信息建模能力的不足,提高了合成語(yǔ)音自然度。本文的研究工作具體如下:首先,本文提出了基于深度神經(jīng)網(wǎng)絡(luò)的幀拼接語(yǔ)音合成方法。該方法使用深度神經(jīng)網(wǎng)絡(luò)構(gòu)建聲學(xué)模型用于幀挑選中的目標(biāo)代價(jià)與連接代價(jià)的計(jì)算,相對(duì)傳統(tǒng)HMM模型提高了模型的預(yù)測(cè)精度與合成語(yǔ)音的主觀質(zhì)量。其次,本文研究了基于遞歸神經(jīng)網(wǎng)絡(luò)的小尺度單元挑選與波形拼接合成方法。該方法一方面采用結(jié)合長(zhǎng)短時(shí)記憶單元的遞歸神經(jīng)網(wǎng)絡(luò)進(jìn)行聲學(xué)建模以改善深度神經(jīng)網(wǎng)絡(luò)的時(shí)序建模能力,另一方面引入多幀挑選策略以減少拼接點(diǎn),取得了比基于深度神經(jīng)網(wǎng)絡(luò)的幀拼接方法更好的合成語(yǔ)音自然度。最后,本文設(shè)計(jì)實(shí)現(xiàn)了結(jié)合單元挑選激勵(lì)生成的參數(shù)合成方法。該方法對(duì)提取的激勵(lì)特征波形進(jìn)行參數(shù)表征和聲學(xué)建模,在合成階段使用幀拼接方法生成激勵(lì)特征波形的高頻成分,同時(shí)使用參數(shù)生成方法預(yù)測(cè)濾波器特征,最終通過濾波合成語(yǔ)音波形。實(shí)驗(yàn)結(jié)果表明了該方法在改善統(tǒng)計(jì)參數(shù)方法合成語(yǔ)音自然度上的有效性。
[Abstract]:Speech synthesis technology aims to realize the conversion of input information such as text to speech waveform. Statistical parameter speech synthesis method, unit selection and waveform splicing method are two main methods to realize speech synthesis at present. System built automatically. Synthesis speech smooth and smooth and other advantages, but limited by the parameter synthesizer and other factors. The naturalness of the synthesized speech is still not ideal. Under the guidance of the statistical acoustic model, small scale units of frame length are used for unit selection and waveform stitching. It is an effective way to improve the statistical parameter method for speech naturality synthesis. Traditional small scale unit selection method uses hidden Markov model. HMMs are used for acoustic modeling and cost function calculation. The depth learning method represented by depth neural network has shown the performance advantage of HMM in the acoustic modeling of statistical parameter speech synthesis. On the one hand, the neural network acoustic modeling method used to guide the selection of small scale units is studied. By using depth neural network and recurrent neural network, the modeling accuracy and synthetic speech quality of traditional HMM model are improved. On the other hand, a speech synthesis method combining unit selection and parameter generation is proposed, and the excitation feature waveform is generated by frame splicing. Improve the traditional statistical parameter synthesis method for phase and other excitation information modeling ability, improve the synthesis speech naturalness. The research work in this paper is as follows: first. In this paper, a method of frame mosaic speech synthesis based on depth neural network is proposed, which uses depth neural network to construct acoustic model to calculate target cost and connection cost in frame selection. Compared with the traditional HMM model, the prediction accuracy of the model and the subjective quality of synthesized speech are improved. Secondly. In this paper, the method of small scale unit selection and waveform splicing synthesis based on recurrent neural network is studied. On the one hand, the acoustic modeling based on recurrent neural network combined with long and short memory unit is used to improve the depth neural network. The temporal modeling capability of. On the other hand, the multi-frame selection strategy is introduced to reduce the stitching points, and better synthetic speech naturalness is obtained than the frame stitching method based on depth neural network. Finally. In this paper, we design and implement the method of parameter synthesis based on unit selection excitation, which is used for parameter representation and acoustic modeling of the extracted excitation waveform. In the synthesis phase, frame splicing method is used to generate the high-frequency components of the excitation characteristic waveform, and the parameter generation method is used to predict the filter features. Finally, the speech waveform is synthesized by filtering. The experimental results show that the proposed method is effective in improving the speech naturalness of the statistical parameter method.
【學(xué)位授予單位】:中國(guó)科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TN912.3

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 鄭騏;情感語(yǔ)音合成——研究現(xiàn)狀與發(fā)展[J];寧波廣播電視大學(xué)學(xué)報(bào);2005年03期

2 周海濤;;語(yǔ)音合成中多音字識(shí)別的實(shí)現(xiàn)[J];科技資訊;2008年11期

3 彭騰;孫萍;;基于C#語(yǔ)音合成的實(shí)現(xiàn)[J];電腦編程技巧與維護(hù);2010年12期

4 張世平;;會(huì)說四種話的語(yǔ)音合成卡——聲威一號(hào)[J];今日電子;1993年01期

5 趙建洋;;一種高效語(yǔ)音合成方法[J];電子技術(shù);1993年08期

6 馬義德,,張新國(guó),羅長(zhǎng)印;語(yǔ)音合成電路在我國(guó)的應(yīng)用前景[J];電子技術(shù);1994年12期

7 郝杰;語(yǔ)音合成:引領(lǐng)“耳朵經(jīng)濟(jì)”[J];中國(guó)電子商務(wù);2001年Z2期

8 羅三定,賈建華,沙莎;基于波形音頻段處理的中文語(yǔ)音合成研究[J];電腦與信息技術(shù);2002年01期

9 ;國(guó)內(nèi)語(yǔ)音合成領(lǐng)域?qū)@夹g(shù)發(fā)展趨勢(shì)[J];電子知識(shí)產(chǎn)權(quán);2003年10期

10 周潔,趙力,鄒采榮;情感語(yǔ)音合成的研究[J];電聲技術(shù);2005年10期

相關(guān)會(huì)議論文 前10條

1 楊靜;孫金城;;關(guān)于錄制語(yǔ)音合成數(shù)據(jù)庫(kù)的幾個(gè)問題[A];中國(guó)聲學(xué)學(xué)會(huì)2002年全國(guó)聲學(xué)學(xué)術(shù)會(huì)議論文集[C];2002年

2 徐俊;蔡蓮紅;吳志勇;;多語(yǔ)種語(yǔ)音合成平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[A];第一屆建立和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2005)論文集[C];2005年

3 陳益強(qiáng);高文;王兆其;楊長(zhǎng)水;姜大龍;;多模式語(yǔ)音合成[A];第六屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];2001年

4 陶建華;董宏輝;許曉穎;;情感語(yǔ)音合成的關(guān)鍵技術(shù)分析[A];第六屆全國(guó)現(xiàn)代語(yǔ)音學(xué)學(xué)術(shù)會(huì)議論文集(下)[C];2003年

5 劉東華;馮靜;力梅;;深圳市新一代“12121”語(yǔ)音合成業(yè)務(wù)系統(tǒng)[A];中國(guó)氣象學(xué)會(huì)2007年年會(huì)氣象軟科學(xué)論壇分會(huì)場(chǎng)論文集[C];2007年

6 黃小明;熊子瑜;;基于古音系統(tǒng)的漢語(yǔ)方言語(yǔ)音合成研究[A];第十二屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議(NCMMSC'2013)論文集[C];2013年

7 鄒煜;何偉;侯敏;滕永林;朱維彬;;面向語(yǔ)音合成的新聞播報(bào)語(yǔ)音庫(kù)構(gòu)建及其特殊韻律結(jié)構(gòu)[A];中國(guó)計(jì)算機(jī)語(yǔ)言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年

8 賀琳;張蕊;俞舸;;大規(guī)模語(yǔ)音合成語(yǔ)料庫(kù)的錄制及常見問題[A];中國(guó)聲學(xué)學(xué)會(huì)2002年全國(guó)聲學(xué)學(xué)術(shù)會(huì)議論文集[C];2002年

9 陶建華;康永國(guó);;基于多元激勵(lì)的高質(zhì)量語(yǔ)音合成聲學(xué)模型[A];第七屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議(NCMMSC7)論文集[C];2003年

10 吳志勇;蔡蓮紅;蒙美玲;;可視語(yǔ)音合成中基于音視頻關(guān)聯(lián)模型的視位參數(shù)優(yōu)化[A];第八屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];2005年

相關(guān)重要報(bào)紙文章 前10條

1 記者 桂運(yùn)安;中科大11項(xiàng)語(yǔ)音合成指標(biāo)世界第一[N];安徽日?qǐng)?bào);2014年

2 本報(bào)記者 何進(jìn)偉;語(yǔ)音合成露崢嶸[N];網(wǎng)絡(luò)世界;2001年

3 李羚;多語(yǔ)種語(yǔ)音合成助力數(shù)字奧運(yùn)[N];中國(guó)計(jì)算機(jī)報(bào);2003年

4 清華大學(xué)計(jì)算機(jī)系人機(jī)交互與媒體集成研究所 陶建華 蔡蓮紅;語(yǔ)音合成的應(yīng)用系統(tǒng)設(shè)計(jì)[N];計(jì)算機(jī)世界;2001年

5 ;嵌入式語(yǔ)音合成平臺(tái)[N];計(jì)算機(jī)世界;2002年

6 孫曉聞;語(yǔ)音合成 讓機(jī)器“像人一樣說話”[N];中國(guó)勞動(dòng)保障報(bào);2005年

7 ;新型語(yǔ)音合成軟件面世[N];人民郵電;2008年

8 炎黃新星公司供稿;炎黃之聲SinoSonic[N];計(jì)算機(jī)世界;2002年

9 劉權(quán);語(yǔ)音合成融入證券客服[N];中國(guó)計(jì)算機(jī)報(bào);2003年

10 ;語(yǔ)音產(chǎn)品走向開放式架構(gòu)[N];中國(guó)計(jì)算機(jī)報(bào);2004年

相關(guān)博士學(xué)位論文 前10條

1 高瑩瑩;面向情感語(yǔ)音合成的言語(yǔ)情感建模研究[D];北京交通大學(xué);2016年

2 高裴裴;人眼驅(qū)動(dòng)語(yǔ)音合成的若干關(guān)鍵技術(shù)研究[D];南開大學(xué);2012年

3 趙暉;真實(shí)感漢語(yǔ)可視語(yǔ)音合成關(guān)鍵技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2010年

4 蘇莊鑾;情感語(yǔ)音合成[D];中國(guó)科學(xué)技術(shù)大學(xué);2006年

5 盧恒;基于統(tǒng)計(jì)模型與發(fā)音錯(cuò)誤檢測(cè)的語(yǔ)音合成方法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2011年

6 雷鳴;統(tǒng)計(jì)參數(shù)語(yǔ)音合成中的聲學(xué)模型建模方法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2012年

7 蔡明琦;融合發(fā)音機(jī)理的統(tǒng)計(jì)參數(shù)語(yǔ)音合成方法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2015年

8 凌震華;基于統(tǒng)計(jì)聲學(xué)建模的語(yǔ)音合成技術(shù)研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2008年

9 楊辰雨;語(yǔ)音合成音庫(kù)自動(dòng)標(biāo)注方法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2014年

10 尉洪;漢語(yǔ)基元音素獨(dú)立分量譜分析對(duì)比及語(yǔ)音合成研究[D];云南大學(xué);2011年

相關(guān)碩士學(xué)位論文 前10條

1 王澤勛;多層次韻律和短時(shí)譜同步變換的情感語(yǔ)音合成[D];蘇州大學(xué);2015年

2 熊林云;基于ARM Cortex-M3的語(yǔ)音合成軟件系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2014年

3 章琴;基于HMM的中文情感語(yǔ)音合成的研究[D];合肥工業(yè)大學(xué);2014年

4 馮歡;基于HMM的歌詞到歌聲轉(zhuǎn)換的研究[D];西北師范大學(xué);2015年

5 王海燕;漢藏雙語(yǔ)跨語(yǔ)言統(tǒng)計(jì)參數(shù)語(yǔ)音合成的研究[D];西北師范大學(xué);2015年

6 孫曉輝;結(jié)合聽感度量的語(yǔ)音合成方法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2016年

7 李翔凰;基于HMM-RBM的蒙古語(yǔ)語(yǔ)音合成研究[D];內(nèi)蒙古大學(xué);2016年

8 王雨蒙;英語(yǔ)文語(yǔ)轉(zhuǎn)換系統(tǒng)中的ToBl韻律自動(dòng)標(biāo)注方法與實(shí)現(xiàn)[D];云南大學(xué);2016年

9 戈永侃;改進(jìn)語(yǔ)音合成自然度的研究[D];江南大學(xué);2016年

10 韓云飛;漢、維語(yǔ)音合成在新疆農(nóng)村信息推送系統(tǒng)中的應(yīng)用研究[D];新疆農(nóng)業(yè)大學(xué);2016年



本文編號(hào):1370641

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/1370641.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶2be42***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com