藏語統(tǒng)計(jì)參數(shù)語音合成的合成語音的音質(zhì)評(píng)測(cè)
本文關(guān)鍵詞:藏語統(tǒng)計(jì)參數(shù)語音合成的合成語音的音質(zhì)評(píng)測(cè) 出處:《西北師范大學(xué)》2015年碩士論文 論文類型:學(xué)位論文
更多相關(guān)文章: 音質(zhì)評(píng)測(cè) 藏語語音合成 統(tǒng)計(jì)參數(shù)語音合成 隱馬爾可夫模型 退火性期望值最大化算法
【摘要】:統(tǒng)計(jì)參數(shù)語音合成為了語音合成領(lǐng)域的主流合成方法,該方法能夠利用有限的訓(xùn)練語料合成出不同說話人、不同風(fēng)格和不同情感的語音,具有容易改變合成語音的音質(zhì)、模型占用存儲(chǔ)空間小等優(yōu)點(diǎn)。論文以藏語的統(tǒng)計(jì)參數(shù)語音合成的合成語音質(zhì)量的評(píng)測(cè)為研究目標(biāo),提出了一種面向藏語統(tǒng)計(jì)參數(shù)語音合成的語音基元自動(dòng)標(biāo)注方法,考察了不同基元、不同時(shí)間標(biāo)注對(duì)藏語統(tǒng)計(jì)參數(shù)藏語合成系統(tǒng)合成的語音音質(zhì)的影響,同時(shí)引入說話人識(shí)別方法對(duì)合成語音和源說話人的語音的相似程度進(jìn)行了評(píng)測(cè)。論文的主要工作與創(chuàng)新如下:1.提出了一種面向藏語統(tǒng)計(jì)參數(shù)語音合成的語音基元自動(dòng)標(biāo)注方法。在基于隱Markov模型(Hidden Markov Model,HMM)的藏語統(tǒng)計(jì)參數(shù)語音合成的聲學(xué)模型訓(xùn)練中,引入了DAEM(Deterministic Annealing Expectation Maximization)算法,對(duì)沒有時(shí)間標(biāo)注的藏語訓(xùn)練語音進(jìn)行自動(dòng)時(shí)間標(biāo)注。以聲母和韻母為合成基元,在聲母和韻母的聲學(xué)模型的訓(xùn)練過程中,利用DAEM算法確定HMM模型的嵌入式重估的最佳參數(shù)。訓(xùn)練好聲學(xué)模型后,再利用強(qiáng)制對(duì)齊自動(dòng)獲得聲母和韻母的時(shí)間標(biāo)注。實(shí)驗(yàn)結(jié)果表明,該方法對(duì)聲母和韻母的時(shí)間標(biāo)注接近手工標(biāo)注的結(jié)果。2.考察了不同語音基元和不同的基元時(shí)間標(biāo)注對(duì)藏語合成語音音質(zhì)的影響。分別利用自動(dòng)標(biāo)注了時(shí)間邊界和手工標(biāo)注了時(shí)間邊界的藏語語料庫(kù)訓(xùn)練聲學(xué)模型,實(shí)現(xiàn)基于HMM的藏語統(tǒng)計(jì)參數(shù)語音合成系統(tǒng)。在此基礎(chǔ)上,分別考察了以聲、韻母為合成基元和以音節(jié)為合成基元對(duì)合成語音音質(zhì)的影響。同時(shí)也考察了手工時(shí)間標(biāo)注和自動(dòng)時(shí)間標(biāo)注對(duì)合成語音音質(zhì)的影響。結(jié)果表明,在訓(xùn)練語料少時(shí),兩種不同基元合成的藏語語音音質(zhì)都比較差。隨著訓(xùn)練語料的增加,兩種不同基元合成的藏語語音音質(zhì)都在提高。最終在一定訓(xùn)練語料情況下,兩種不同基元可以合成語音音質(zhì)近似的語音。同時(shí),以音節(jié)為基元時(shí)用自動(dòng)標(biāo)注時(shí)間的訓(xùn)練語料合成的藏語語音與用手工標(biāo)注時(shí)間的訓(xùn)練語料合成的藏語語音音質(zhì)還有一定的差距。3.提出了一種利用說話人識(shí)別方法評(píng)測(cè)合成語音與目標(biāo)說話人的相似程度的方法。采用經(jīng)驗(yàn)?zāi)B(tài)分解法(Empirical Mode Decomposition,EMD)和短時(shí)分析相結(jié)合的說話人識(shí)別方法對(duì)合成語音進(jìn)行說話人識(shí)別,通過識(shí)別結(jié)果判斷合成語音與目標(biāo)說話人的相似程度。結(jié)果表明,合成的藏語語音與目標(biāo)說人具有較高的相似程度。
[Abstract]:Statistical parametric speech synthesis method for synthesis of the mainstream field of speech synthesis, the method can use the limited training corpus to synthesize different speakers, different styles and different emotional speech, is easy to change the synthesized speech quality model, the storage space of small advantages. Based on the evaluation of Tibetan statistical parametric speech synthesis speech quality as the research target, put forward a kind of statistical parameters for Tibetan speech synthesis speech element automatic annotation method, the effects of different elements, different time labeling effect on the statistical parameters of a Tibetan Tibetan speech quality synthesis system, while the introduction of speaker recognition method of speech synthesis and speech source speech similar degree the evaluation. The main work and innovation of this paper are as follows: 1. we propose a statistical parameter for Tibetan speech synthesis speech element automatically In the annotation method based on hidden Markov model (Hidden Markov Model, HMM) of the Tibetan statistical parametric speech synthesis acoustic model training, the introduction of the DAEM (Deterministic Annealing Expectation Maximization) algorithm, the Tibetan language training speech did not have time to carry out the automatic annotation time annotation. To consonants and vowels as basic synthesis units, in the training process the acoustic model of consonants and vowels in the determination of optimum parameters of the HMM model embedded revaluation by using DAEM algorithm. The trained acoustic models, using forced alignment automatically get the initial and final time labeling. The experimental results show that the method of time of consonants and vowels marked close to the manual annotation results.2. different speech element and different element effect of the time effect on Tibetan speech synthesis sound annotation. Using automatic annotation time boundary and manually annotated time edge Acoustic model training corpus of Tibetan community, realizing the Tibetan statistical parametric speech synthesis system based on HMM. On this basis, were investigated to the sound of the vowel synthesis based on syllable element and element affecting the synthesis of synthesized speech quality. We also studied the annotation manual and automatic annotation time time of the synthesized speech quality. The results showed that in the training corpus is low, two kinds of element of Tibetan speech synthesis quality is relatively poor. With the increase of the training corpus, two kinds of element of Tibetan speech synthesis sound are improved. Finally in a training corpus, two kinds of primitives can approximate speech synthesis speech sound quality. At the same time, the syllable as the basic element for automatic annotation time training corpus for Tibetan speech synthesis and manual annotation time training corpus for Tibetan speech synthesis quality there is a certain gap.3. Put forward a method of using speaker recognition method to evaluate the synthesized speech with the target speaker similarity. The EMD method (Empirical Mode Decomposition, EMD) speaker recognition method and short-time analysis combining the speaker recognition for speech synthesis by judging the similarity of synthetic speech and the target speaker recognition results. The results show that the Tibetan speech synthesis and target people with high similarity.
【學(xué)位授予單位】:西北師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TN912.33
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 王立鋒;廖琪梅;苗丹民;;合成語音感知學(xué)習(xí)模型的建立和效應(yīng)驗(yàn)證[J];第四軍醫(yī)大學(xué)學(xué)報(bào);2006年04期
2 霍飛;阿尼·庫(kù)珀;;機(jī)械合成語音,能最終實(shí)現(xiàn)嗎?[J];世界科學(xué);2012年02期
3 趙博,蔡蓮紅;合成語音自然度客觀測(cè)度[J];計(jì)算機(jī)工程與應(yīng)用;2005年07期
4 華一滿;;合成語音在智能儀器中的應(yīng)用[J];電子技術(shù);1992年07期
5 宋潔;;語音輸出使未來的通訊越來越方便[J];航空計(jì)算技術(shù);1985年02期
6 鄧正良;一種靈活合成語音庫(kù)語音的方法[J];廣西氣象;2000年04期
7 陳聯(lián)武;郭武;戴禮榮;;聲紋識(shí)別中合成語音的魯棒性[J];模式識(shí)別與人工智能;2011年06期
8 高正平;徐駿宇;黃漢輝;;PWM在合成語音輸出電路中的應(yīng)用[J];電子科技大學(xué)學(xué)報(bào);2006年01期
9 余志才,邵志標(biāo);PWM方式輸出合成語音[J];半導(dǎo)體技術(shù);2001年12期
10 劉惠華,潘建軍,周冰,范京;稀疏譜線合成對(duì)元音頻域信息分布的探討[J];北京機(jī)械工業(yè)學(xué)院學(xué)報(bào);2005年01期
相關(guān)會(huì)議論文 前6條
1 呂士楠;林凡;張連毅;;基于大語音庫(kù)的拼接合成語音特征分析[A];新世紀(jì)的現(xiàn)代語音學(xué)——第五屆全國(guó)現(xiàn)代語音學(xué)學(xué)術(shù)會(huì)議論文集[C];2001年
2 鮑懷翹;王安紅;呂士楠;鄭玉玲;;普通話合成語音評(píng)估方法研究[A];第七屆全國(guó)人機(jī)語音通訊學(xué)術(shù)會(huì)議(NCMMSC7)論文集[C];2003年
3 許潔萍;王安紅;鮑懷翹;鄭玉玲;陳明;呂士楠;;漢語合成語音評(píng)測(cè)實(shí)驗(yàn)研究[A];第八屆全國(guó)人機(jī)語音通訊學(xué)術(shù)會(huì)議論文集[C];2005年
4 初敏;;韻律研究與合成語音的自然度[A];新世紀(jì)的現(xiàn)代語音學(xué)——第五屆全國(guó)現(xiàn)代語音學(xué)學(xué)術(shù)會(huì)議論文集[C];2001年
5 初敏;呂士楠;;一種將PSOLA算法與語音正弦模型結(jié)合的合成方法[A];第五屆全國(guó)人機(jī)語音通訊學(xué)術(shù)會(huì)議論文集[C];1998年
6 黃玫;李雙田;;一種改進(jìn)的正弦分析/合成語音方法及在音頻時(shí)域修正中的應(yīng)用[A];2006年聲頻工程學(xué)術(shù)交流會(huì)論文集[C];2006年
相關(guān)重要報(bào)紙文章 前1條
1 IDG電訊;XML:位于逐漸成形的Web服務(wù)中心[N];計(jì)算機(jī)世界;2002年
相關(guān)博士學(xué)位論文 前1條
1 黃平牧;中文TTS系統(tǒng)中若干關(guān)鍵技術(shù)研究[D];北京郵電大學(xué);2008年
相關(guān)碩士學(xué)位論文 前5條
1 楊心yN;歌聲合成技術(shù)與應(yīng)用探究[D];南京藝術(shù)學(xué)院;2015年
2 徐世鵬;藏語統(tǒng)計(jì)參數(shù)語音合成的合成語音的音質(zhì)評(píng)測(cè)[D];西北師范大學(xué);2015年
3 王家麗;嵌入式漢語合成語音庫(kù)的構(gòu)建與搜索[D];山東大學(xué);2008年
4 唐金峰;電話語音的頻帶擴(kuò)展[D];蘇州大學(xué);2009年
5 李蕾;關(guān)于可編程流程的IVR系統(tǒng)的研究與設(shè)計(jì)[D];四川大學(xué);2005年
,本文編號(hào):1367277
本文鏈接:http://sikaile.net/kejilunwen/wltx/1367277.html