天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 信息工程論文 >

漢藏雙語(yǔ)合成語(yǔ)音音質(zhì)評(píng)測(cè)的研究

發(fā)布時(shí)間:2018-11-20 18:53
【摘要】:跨語(yǔ)言語(yǔ)音合成能夠?qū)崿F(xiàn)在同一個(gè)語(yǔ)音合成系統(tǒng)中合成出不同語(yǔ)言的語(yǔ)音,成為了語(yǔ)音信號(hào)處理領(lǐng)域的研究熱點(diǎn)。目前,西北師范大學(xué)已經(jīng)實(shí)現(xiàn)了漢語(yǔ)普通話和藏語(yǔ)拉薩方言雙語(yǔ)語(yǔ)音合成系統(tǒng)。為了研究漢藏雙語(yǔ)跨語(yǔ)言語(yǔ)音合成系統(tǒng)合成的不同語(yǔ)言不同說(shuō)話人的語(yǔ)音質(zhì)量?jī)?yōu)劣,本論文實(shí)現(xiàn)了一個(gè)漢藏雙語(yǔ)跨語(yǔ)言的語(yǔ)音合成系統(tǒng),在此基礎(chǔ)上對(duì)不同語(yǔ)音合成方案下合成出的漢藏雙語(yǔ)語(yǔ)音音質(zhì)進(jìn)行了主客觀評(píng)測(cè),并提出了一種利用說(shuō)話人識(shí)別和語(yǔ)音識(shí)別對(duì)說(shuō)話人相似度和合成語(yǔ)音音質(zhì)進(jìn)行評(píng)測(cè)的方法。論文的主要工作和創(chuàng)新如下:1.設(shè)計(jì)了漢藏雙語(yǔ)語(yǔ)音合成方案,實(shí)現(xiàn)了一個(gè)漢藏雙語(yǔ)跨語(yǔ)言語(yǔ)音合成系統(tǒng)。設(shè)計(jì)了漢語(yǔ)普通話和藏語(yǔ)拉薩方言的語(yǔ)音語(yǔ)料庫(kù)、文本語(yǔ)料,上下文屬性標(biāo)注格式以及上下文相關(guān)的問(wèn)題集,利用說(shuō)話人自適應(yīng)訓(xùn)練的方法訓(xùn)練了漢藏雙語(yǔ)語(yǔ)音的聲學(xué)模型,利用聲碼器合成出語(yǔ)音。2.評(píng)測(cè)了不同語(yǔ)音合成方案合成的漢語(yǔ)普通話語(yǔ)音和藏語(yǔ)拉薩方言語(yǔ)音的音質(zhì)。采用主觀評(píng)測(cè)方法和客觀評(píng)測(cè)方法。主觀評(píng)測(cè)方法包括平均意見得分、差異平均意見得分、相對(duì)平均意見得分以及診斷押韻測(cè)試;客觀評(píng)測(cè)方法包括基頻參數(shù)測(cè)量、時(shí)長(zhǎng)參數(shù)測(cè)量以及感知語(yǔ)音質(zhì)量評(píng)估。結(jié)果表明,參加說(shuō)話人自適應(yīng)訓(xùn)練的普通話語(yǔ)句為110句、藏語(yǔ)語(yǔ)句為300句時(shí),合成的漢語(yǔ)普通話和藏語(yǔ)拉薩方言語(yǔ)音的質(zhì)量較高。3.提出了一種采用說(shuō)話人識(shí)別技術(shù)評(píng)測(cè)漢藏雙語(yǔ)跨語(yǔ)言語(yǔ)音合成系統(tǒng)合成的不同說(shuō)話人語(yǔ)音相似度的評(píng)測(cè)方法。以高斯混合模型為聲學(xué)模型,結(jié)合傳統(tǒng)的短時(shí)處理技術(shù)和經(jīng)驗(yàn)?zāi)B(tài)分解來(lái)獲得聲學(xué)特征,訓(xùn)練了一個(gè)說(shuō)話人識(shí)別系統(tǒng)。結(jié)果表明,當(dāng)參加說(shuō)話人自適應(yīng)訓(xùn)練的漢語(yǔ)普通話語(yǔ)句為110句時(shí),合成語(yǔ)音的說(shuō)話人識(shí)別率達(dá)到88.89%,當(dāng)參加自適應(yīng)訓(xùn)練的藏語(yǔ)語(yǔ)句300句時(shí),合成語(yǔ)音的說(shuō)話人識(shí)別率為94.44%。4.提出了一種利用語(yǔ)音識(shí)別技術(shù)進(jìn)行漢藏雙語(yǔ)跨語(yǔ)言語(yǔ)音合成系統(tǒng)的合成語(yǔ)音音質(zhì)評(píng)測(cè)方法。采用了5狀態(tài)的連續(xù)隱Markov模型為基元的聲學(xué)模型,采用13維的Mel頻率倒譜系數(shù)及其一階差分和二階差分形成一個(gè)13×3維的特征向量來(lái)訓(xùn)練聲學(xué)模型。結(jié)果表明,當(dāng)參加說(shuō)話人自適應(yīng)訓(xùn)練的普通話語(yǔ)句為110句時(shí),合成語(yǔ)音的語(yǔ)音識(shí)別率為96.41%,當(dāng)參加自適應(yīng)訓(xùn)練的藏語(yǔ)語(yǔ)句300句時(shí),合成語(yǔ)音的語(yǔ)音識(shí)別率為91.27%。
[Abstract]:Cross-language speech synthesis, which can synthesize different languages in the same speech synthesis system, has become a research hotspot in the field of speech signal processing. At present, Northwest normal University has implemented the bilingual phonetic synthesis system of Mandarin and Tibetan Lhasa dialect. In order to study the speech quality of different speakers in different languages synthesized by Chinese-Tibetan bilingual speech synthesis system, a Chinese-Tibetan bilingual cross-language speech synthesis system is implemented in this paper. On this basis, the sound quality of Chinese-Tibetan bilingual speech synthesized under different speech synthesis schemes is evaluated subjectively and objectively, and a method of speaker similarity and synthetic speech quality evaluation using speaker recognition and speech recognition is proposed. The main work and innovation are as follows: 1. A Chinese-Tibetan bilingual speech synthesis scheme is designed and a Chinese-Tibetan bilingual cross-language speech synthesis system is implemented. The phonetic corpus, text corpus, contextual attribute tagging format and context-related problem set of Chinese Putonghua and Tibetan Lhasa dialect are designed, and the acoustic model of Chinese-Tibetan bilingual speech is trained by the method of speaker adaptive training. Using vocoder to synthesize speech. 2. The phonological quality of Chinese Putonghua and Tibetan Lhasa dialect synthesized by different speech synthesis schemes was evaluated. Subjective evaluation method and objective evaluation method are adopted. Subjective evaluation methods include average opinion score, difference average opinion score, relative average opinion score and diagnostic rhyme test; objective evaluation methods include fundamental frequency parameter measurement, duration parameter measurement and perceptual speech quality evaluation. The results show that the quality of the synthesized Mandarin and Tibetan Lhasa dialect is higher than that of Tibetan Lhasa dialect when 110 Putonghua sentences and 300 Tibetan sentences are used to participate in speaker adaptive training. This paper presents a method to evaluate the speech similarity of different speakers in Chinese-Tibetan bilingual speech synthesis system by using speaker recognition technology. A speaker recognition system was trained by using Gao Si mixed model as acoustic model, combined with traditional short-time processing techniques and empirical mode decomposition to obtain acoustic features. The results show that the speaker recognition rate of synthesized speech is 88.89 when the Chinese Putonghua sentence in adaptive training is 110 sentences, and when 300 Tibetan sentences participate in adaptive training. The speaker recognition rate of synthetic speech is 94.44. 4. In this paper, a method for evaluating the sound quality of Chinese and Tibetan bilingual speech synthesis system based on speech recognition is presented. The continuous hidden Markov model with 5 states is used as the elementary acoustic model. The 13 D Mel frequency cepstrum coefficient and its first order difference and second order difference are used to form a 13 脳 3 dimensional eigenvector to train the acoustic model. The results show that the speech recognition rate of synthetic speech is 96.41 when the Putonghua sentence in speaker adaptive training is 110 sentences, and 91.27 when Tibetan language sentence is 300 sentences in adaptive training.
【學(xué)位授予單位】:西北師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TN912.3

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 王立鋒;廖琪梅;苗丹民;;合成語(yǔ)音感知學(xué)習(xí)模型的建立和效應(yīng)驗(yàn)證[J];第四軍醫(yī)大學(xué)學(xué)報(bào);2006年04期

2 霍飛;阿尼·庫(kù)珀;;機(jī)械合成語(yǔ)音,能最終實(shí)現(xiàn)嗎?[J];世界科學(xué);2012年02期

3 趙博,蔡蓮紅;合成語(yǔ)音自然度客觀測(cè)度[J];計(jì)算機(jī)工程與應(yīng)用;2005年07期

4 華一滿;;合成語(yǔ)音在智能儀器中的應(yīng)用[J];電子技術(shù);1992年07期

5 宋潔;;語(yǔ)音輸出使未來(lái)的通訊越來(lái)越方便[J];航空計(jì)算技術(shù);1985年02期

6 鄧正良;一種靈活合成語(yǔ)音庫(kù)語(yǔ)音的方法[J];廣西氣象;2000年04期

7 陳聯(lián)武;郭武;戴禮榮;;聲紋識(shí)別中合成語(yǔ)音的魯棒性[J];模式識(shí)別與人工智能;2011年06期

8 高正平;徐駿宇;黃漢輝;;PWM在合成語(yǔ)音輸出電路中的應(yīng)用[J];電子科技大學(xué)學(xué)報(bào);2006年01期

9 余志才,邵志標(biāo);PWM方式輸出合成語(yǔ)音[J];半導(dǎo)體技術(shù);2001年12期

10 劉惠華,潘建軍,周冰,范京;稀疏譜線合成對(duì)元音頻域信息分布的探討[J];北京機(jī)械工業(yè)學(xué)院學(xué)報(bào);2005年01期

相關(guān)會(huì)議論文 前6條

1 呂士楠;林凡;張連毅;;基于大語(yǔ)音庫(kù)的拼接合成語(yǔ)音特征分析[A];新世紀(jì)的現(xiàn)代語(yǔ)音學(xué)——第五屆全國(guó)現(xiàn)代語(yǔ)音學(xué)學(xué)術(shù)會(huì)議論文集[C];2001年

2 鮑懷翹;王安紅;呂士楠;鄭玉玲;;普通話合成語(yǔ)音評(píng)估方法研究[A];第七屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議(NCMMSC7)論文集[C];2003年

3 許潔萍;王安紅;鮑懷翹;鄭玉玲;陳明;呂士楠;;漢語(yǔ)合成語(yǔ)音評(píng)測(cè)實(shí)驗(yàn)研究[A];第八屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];2005年

4 初敏;;韻律研究與合成語(yǔ)音的自然度[A];新世紀(jì)的現(xiàn)代語(yǔ)音學(xué)——第五屆全國(guó)現(xiàn)代語(yǔ)音學(xué)學(xué)術(shù)會(huì)議論文集[C];2001年

5 初敏;呂士楠;;一種將PSOLA算法與語(yǔ)音正弦模型結(jié)合的合成方法[A];第五屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];1998年

6 黃玫;李雙田;;一種改進(jìn)的正弦分析/合成語(yǔ)音方法及在音頻時(shí)域修正中的應(yīng)用[A];2006年聲頻工程學(xué)術(shù)交流會(huì)論文集[C];2006年

相關(guān)重要報(bào)紙文章 前1條

1 IDG電訊;XML:位于逐漸成形的Web服務(wù)中心[N];計(jì)算機(jī)世界;2002年

相關(guān)博士學(xué)位論文 前1條

1 黃平牧;中文TTS系統(tǒng)中若干關(guān)鍵技術(shù)研究[D];北京郵電大學(xué);2008年

相關(guān)碩士學(xué)位論文 前6條

1 徐世鵬;藏語(yǔ)統(tǒng)計(jì)參數(shù)語(yǔ)音合成的合成語(yǔ)音的音質(zhì)評(píng)測(cè)[D];西北師范大學(xué);2015年

2 張策;漢藏雙語(yǔ)合成語(yǔ)音音質(zhì)評(píng)測(cè)的研究[D];西北師范大學(xué);2016年

3 王家麗;嵌入式漢語(yǔ)合成語(yǔ)音庫(kù)的構(gòu)建與搜索[D];山東大學(xué);2008年

4 楊心yN;歌聲合成技術(shù)與應(yīng)用探究[D];南京藝術(shù)學(xué)院;2015年

5 唐金峰;電話語(yǔ)音的頻帶擴(kuò)展[D];蘇州大學(xué);2009年

6 李蕾;關(guān)于可編程流程的IVR系統(tǒng)的研究與設(shè)計(jì)[D];四川大學(xué);2005年

,

本文編號(hào):2345693

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/2345693.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶02e8a***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com