基于韻律的蒙古語(yǔ)語(yǔ)音合成研究
本文選題:蒙古語(yǔ) 切入點(diǎn):語(yǔ)音合成 出處:《內(nèi)蒙古大學(xué)》2012年博士論文
【摘要】:本研究基于大規(guī)模語(yǔ)音數(shù)據(jù)庫(kù),采取語(yǔ)音實(shí)驗(yàn)的方法考察了蒙古語(yǔ)語(yǔ)音合成中遇到的韻律問題。文章主要由三個(gè)部分組成:一是開展了面向蒙古語(yǔ)合成的大規(guī)模語(yǔ)音數(shù)據(jù)庫(kù)和電子詞典等基礎(chǔ)資源的建設(shè)工作;二是細(xì)致描寫了蒙古語(yǔ)連續(xù)話語(yǔ)中的音節(jié)結(jié)構(gòu)變化現(xiàn)象,包括音段的增加和脫落以及由此引起的音節(jié)重組問題,并在此基礎(chǔ)上探討了蒙古語(yǔ)口語(yǔ)和書面語(yǔ)的音節(jié)對(duì)應(yīng)關(guān)系以及音段增減變化和話語(yǔ)韻律結(jié)構(gòu)之間的關(guān)系問題;三是深入考察了蒙古語(yǔ)在朗讀條件下的韻律組織結(jié)構(gòu)問題,并從音高和音長(zhǎng)等基本聲學(xué)參數(shù)入手,對(duì)韻律詞和韻律短語(yǔ)在朗讀話語(yǔ)中的實(shí)際表現(xiàn)進(jìn)行了細(xì)致考察,揭示出音高曲拱這一語(yǔ)音聲學(xué)特征在韻律短語(yǔ)分析過程中的重要作用。 本研究得到的結(jié)論主要有: 一、研制了一套面向蒙古語(yǔ)語(yǔ)音合成的字音轉(zhuǎn)寫符號(hào)系統(tǒng),該系統(tǒng)包括詞首、詞中、詞末位置出現(xiàn)的50個(gè)元音(包括長(zhǎng)元音、短元音、二合元音)符號(hào)和27個(gè)輔音(基本輔音和借詞輔音)符號(hào),并從語(yǔ)音區(qū)別特征方面對(duì)每個(gè)音素進(jìn)行了描寫和區(qū)分。語(yǔ)音合成結(jié)果表明本文對(duì)蒙古語(yǔ)音段系統(tǒng)的描寫和區(qū)分是有效和必要的,系統(tǒng)而細(xì)致的音素分類能在一定程度上改善合成語(yǔ)音的可懂度。 二、在連續(xù)話語(yǔ)中,詞的多個(gè)讀音在語(yǔ)義、語(yǔ)法、語(yǔ)用三個(gè)層面上存在差異。在具體的語(yǔ)境中,每個(gè)多音字的讀音具有唯一性,根據(jù)這一特點(diǎn),在字音轉(zhuǎn)寫過程中可以有效地區(qū)分多音字。沒有區(qū)別詞義也不存在語(yǔ)法和語(yǔ)用特征的多音字屬于讀音規(guī)范化范疇的問題,有進(jìn)一步整理合并的必要。 三、在單詞層面上,蒙古語(yǔ)單音節(jié)詞在口語(yǔ)和書面語(yǔ)中的音節(jié)結(jié)構(gòu)基本一致,而針對(duì)雙音節(jié)詞的書面語(yǔ)讀音與口語(yǔ)讀音之間的不對(duì)應(yīng)性,本研究細(xì)致歸納出了音節(jié)結(jié)構(gòu)變化的12條規(guī)律。多音節(jié)詞在口語(yǔ)中的音節(jié)結(jié)構(gòu)變化從詞末音節(jié)開始往前變,并遵循雙音節(jié)詞的音節(jié)結(jié)構(gòu)變化規(guī)律。在蒙古語(yǔ)口語(yǔ)中,音節(jié)重組與音節(jié)中的元音類型以及該音節(jié)在詞中的位置有一定的聯(lián)系:短元音音節(jié)的結(jié)構(gòu)容易發(fā)生變化,而長(zhǎng)元音音節(jié)和二合元音音節(jié)的結(jié)構(gòu)比較穩(wěn)定;詞首音節(jié)(不包括單音節(jié)詞)的結(jié)構(gòu)比較穩(wěn)定,詞中音節(jié)和詞末音節(jié)相對(duì)容易發(fā)生音節(jié)重組。根據(jù)這一特點(diǎn),本研究把蒙古語(yǔ)口語(yǔ)中的音節(jié)分為穩(wěn)定音節(jié)與易變音節(jié),并認(rèn)為在蒙古語(yǔ)語(yǔ)音合成的字音轉(zhuǎn)寫中易變音節(jié)是轉(zhuǎn)寫的重點(diǎn)和難點(diǎn)。 四、在連續(xù)話語(yǔ)層面上,引起音節(jié)結(jié)構(gòu)變化的主要因素是名詞附加成分和詞綴化虛詞,這些附加成分或虛詞在書寫形式上與其他成分是分開的、但在口語(yǔ)讀音中卻往往不能單獨(dú)構(gòu)成一個(gè)獨(dú)立音節(jié)。它們?cè)谶B讀后發(fā)生的音節(jié)重組規(guī)律與單詞內(nèi)部的音節(jié)變化規(guī)律基本一致。當(dāng)名詞附加成分的音節(jié)類型是V、C、 VLC時(shí),需要借助其前置音節(jié)的輔音來(lái)構(gòu)成獨(dú)立音節(jié)。當(dāng)附加成分的音節(jié)類型是CVL時(shí),其表現(xiàn)比較穩(wěn)定,在連讀時(shí)能單獨(dú)構(gòu)成詞末音節(jié)。蒙古語(yǔ)口語(yǔ)中的音段脫落和增加、音節(jié)重組等現(xiàn)象與話語(yǔ)的韻律結(jié)構(gòu)有一定的聯(lián)系:韻律詞是此類音變現(xiàn)象的作用域,名詞與名詞附加成分之間發(fā)生的音節(jié)重組以及音段增加和脫落等現(xiàn)象通常發(fā)生在韻律詞內(nèi)部。因此,可以把名詞附加成分看做預(yù)測(cè)韻律詞邊界的有用線索。研究結(jié)果還表明,詞綴化虛詞的韻律作用域存在一定區(qū)別:虛詞“(?)”的作用域是韻律詞,虛詞“(?)”的韻律作用域是韻律短語(yǔ),虛詞“(?)”和“(?)”的作用域是語(yǔ)調(diào)短語(yǔ)。 五、本研究發(fā)現(xiàn),在正常朗讀的陳述句中,每個(gè)韻律短語(yǔ)一般都包含一個(gè)相對(duì)獨(dú)立完整的音高曲拱,有且僅只有一個(gè)音高峰值,在此之前音高呈上升走勢(shì),在此之后音高呈下降走勢(shì),并且一般會(huì)一直延續(xù)到韻律短語(yǔ)的結(jié)束位置。這種“低-高-低”的音高變化模式構(gòu)成了一個(gè)個(gè)相對(duì)獨(dú)立完整的音高曲拱,起始于韻律短語(yǔ)之首,結(jié)束于韻律短語(yǔ)之末。根據(jù)這一發(fā)現(xiàn),本研究認(rèn)為,當(dāng)一個(gè)語(yǔ)句內(nèi)部既無(wú)標(biāo)點(diǎn)符號(hào)又無(wú)顯著停頓時(shí),可在一定程度上參考音高的變化走勢(shì)來(lái)幫助確定其內(nèi)部的韻律短語(yǔ)邊界位置:韻律短語(yǔ)邊界往往處于兩個(gè)音高曲拱的交界處。數(shù)據(jù)統(tǒng)計(jì)結(jié)果還表明,韻律短語(yǔ)邊界前音節(jié)會(huì)有一定的延長(zhǎng)。另外,詞末弱短元音也是預(yù)測(cè)韻律短語(yǔ)邊界的重要語(yǔ)音事件。 六、韻律詞邊界處沒有可明顯感知到的停頓,也沒有明顯的延長(zhǎng)。韻律詞內(nèi)部的每個(gè)音節(jié)的時(shí)長(zhǎng)分布與該音節(jié)在韻律詞內(nèi)的位置有一定關(guān)系:尾音節(jié)時(shí)長(zhǎng)首音節(jié)時(shí)長(zhǎng)中間音節(jié)時(shí)長(zhǎng)。韻律詞在韻律短語(yǔ)中的位置會(huì)影響韻律詞的長(zhǎng)度,通常韻律短語(yǔ)邊界處的韻律詞時(shí)長(zhǎng)比韻律短語(yǔ)中間位置上的韻律詞時(shí)長(zhǎng)略長(zhǎng)。韻律詞在韻律短語(yǔ)中的位置會(huì)影響韻律詞的音高特性。根據(jù)統(tǒng)計(jì),韻律詞主要有以下4種組構(gòu)方式:(1)1至5個(gè)音節(jié)的單個(gè)語(yǔ)法詞;(2)并列關(guān)系的兩個(gè)單音節(jié)語(yǔ)法詞;(3)1至4音節(jié)的語(yǔ)法詞和一個(gè)單音節(jié)虛詞的組合;(4)處于韻律短語(yǔ)邊界位置的單音節(jié)語(yǔ)法詞或功能詞。 七、語(yǔ)音合成結(jié)果表明,在增加韻律短語(yǔ)和韻律詞的切分信息之后,能夠在一定程度上改善合成語(yǔ)音的自然度。但由于目前用于訓(xùn)練的韻律切分語(yǔ)料還相對(duì)較少,所以導(dǎo)致合成語(yǔ)音的自然度提升效果不夠顯著。但作者相信,隨著對(duì)蒙古語(yǔ)韻律特性的研究逐漸深入,以及在訓(xùn)練過程中不斷增加包含韻律切分信息的語(yǔ)料,將有可能合成出高質(zhì)量、高自然度的蒙古語(yǔ)語(yǔ)音。
[Abstract]:Based on the large - scale speech database , this paper studies the rhythm problem encountered in Mongolian speech synthesis by adopting the method of speech experiment . The paper mainly consists of three parts : Firstly , the construction of basic resources such as large - scale voice database and electronic dictionary for Mongolian synthesis is carried out ;
Second , the syllable structure change phenomenon in Mongolian continuous discourse is described in detail , including the increase and shedding of the sound field and the problem of syllable reorganization caused by this , and on the basis of this , the relationship between the syllable correspondence relation of Mongolian spoken and written language and the relationship between the change of the phonetic section and the structure of discourse rhythm are discussed .
The third is to investigate the structure of the rhythmic structure of Mongolian language under the condition of reading aloud , and begin with the basic acoustic parameters such as pitch and length , and carefully study the actual performance of the rhythm phrase and the rhythm phrase in the reading discourse , and reveal the important role of the phonetic acoustic feature in the analysis of the rhythm phrase .
The conclusions of this study are mainly as follows :
In this paper , a set of phonetic transcription symbol system for Mongolian speech synthesis is developed . The system includes 50 vowel sounds ( including long vowel , short vowel , binary vowel ) and 27 consonant ( basic consonant and word consonant ) symbols appearing at the end of the word , and describes and distinguishes each phoneme from the aspect of speech discrimination . The results of speech synthesis indicate that the description and distinction of the Mongolian speech segment system are effective and necessary , and the systematic and detailed phoneme classification can improve the intelligibility of synthesized speech to some extent .
In the concrete context , the pronunciation of each multi - syllable word has uniqueness , and according to this feature , the pronunciation of each multi - syllable word can be effectively divided into multiple phonetic words in the process of writing and writing .
3 . In the word level , the syllable structure of Mongolian monosyllables is basically consistent with the syllable structure in the spoken and written language . In this study , 12 laws of the syllable structure change are summed up . In the spoken language of Mongolian , the syllable structure changes from the end of the word to the former , and the syllable structure of the disyllable word is followed . In the spoken Chinese , the structure of the syllable structure is easy to change , while the structure of the long vowel and the vowel syllable is relatively stable ;
According to this feature , this study divides the syllables in Mongolian spoken language into stable syllables and Yi syllables . It is believed that Yi Syllable is the focus and difficulty of transcription in Mongolian speech synthesis .
When the syllable type of the additional component is V , C and VLC , it is necessary to form an independent syllable by the consonant of its pre - syllables .
In this study , it is found that , in the declarative sentence of normal reading , each rhythm phrase generally contains a relatively independent and complete pitch curve , and only one pitch peak is only one pitch peak .
6 . There is no obvious pause at the boundary of the rhythm word , and there is no obvious prolongation . The length of each syllable in the rhythm word has a certain relation with the position of the syllable in the rhythm word : the position of the rhythm word in the rhythm phrase will affect the length of the rhythm word .
( 2 ) two monosyllables in parallel relation ;
( 3 ) a combination of a grammar word of 1 to 4 syllables and a monosyllable virtual word ;
( 4 ) a monosyllable grammatical word or function word in the position of the rhythm phrase boundary .
7 . The results of speech synthesis indicate that the natural degree of synthesized speech can be improved to a certain extent after increasing the segmentation information of the rhythm phrase and the rhythm word . However , the author believes that , with the study of the rhythm characteristics of Mongolian language , it is possible to synthesize the Mongolian voice with high quality and high natural degree .
【學(xué)位授予單位】:內(nèi)蒙古大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2012
【分類號(hào)】:H212
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 徐英瑩,張培仁;粵語(yǔ)語(yǔ)音合成系統(tǒng)語(yǔ)料庫(kù)設(shè)計(jì)研究[J];計(jì)算機(jī)工程;2005年14期
2 張力;薛惠鋒;吳曉軍;李a\;;中文TTS系統(tǒng)中多音字的一種解決方案[J];計(jì)算機(jī)應(yīng)用與軟件;2008年02期
3 努爾比婭·塔依爾;艾斯卡爾·肉孜;古麗娜爾·艾力;地里木拉提·吐爾遜;;維吾爾語(yǔ)陳述句韻律層級(jí)停頓模型研究[J];計(jì)算機(jī)與現(xiàn)代化;2010年07期
4 劉亞斌,李愛軍;朗讀語(yǔ)料與自然口語(yǔ)的差異分析[J];中文信息學(xué)報(bào);2002年01期
5 胡偉湘,徐波,黃泰翼;漢語(yǔ)韻律邊界的聲學(xué)實(shí)驗(yàn)研究[J];中文信息學(xué)報(bào);2002年01期
6 初敏;自然言語(yǔ)的韻律組織中的不確定性及其在語(yǔ)音合成中的應(yīng)用[J];中文信息學(xué)報(bào);2004年04期
7 伊·達(dá)瓦;張玉潔;上園一知;大川茂樹;章森;井佐原均;白井克彥;;蒙古語(yǔ)語(yǔ)言-文字的自動(dòng)化處理[J];中文信息學(xué)報(bào);2006年04期
8 吳義堅(jiān);王仁華;;基于HMM的可訓(xùn)練中文語(yǔ)音合成[J];中文信息學(xué)報(bào);2006年04期
9 蔡蓮紅;崔丹丹;蔡銳;;漢語(yǔ)普通話語(yǔ)音合成語(yǔ)料庫(kù)TH-CoSS的建設(shè)和分析[J];中文信息學(xué)報(bào);2007年02期
10 孫竹;;現(xiàn)代蒙古語(yǔ)的弱化元音[J];民族語(yǔ)文;1981年01期
相關(guān)會(huì)議論文 前2條
1 陶建華;蔡蓮紅;趙晟;;漢語(yǔ)語(yǔ)音合成中的文本分析和韻律處理[A];輝煌二十年——中國(guó)中文信息學(xué)會(huì)二十周年學(xué)術(shù)會(huì)議論文集[C];2001年
2 邵艷秋;趙永貞;韓紀(jì)慶;劉挺;;漢語(yǔ)文語(yǔ)轉(zhuǎn)換中韻律詞自動(dòng)切分的研究[A];第七屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議(NCMMSC7)論文集[C];2003年
相關(guān)重要報(bào)紙文章 前1條
1 熊子瑜;[N];中國(guó)社會(huì)科學(xué)院院報(bào);2006年
相關(guān)博士學(xué)位論文 前1條
1 山丹;蒙古語(yǔ)標(biāo)準(zhǔn)音聲學(xué)分析[D];內(nèi)蒙古大學(xué);2007年
相關(guān)碩士學(xué)位論文 前10條
1 白夢(mèng)璇;蒙古語(yǔ)阿拉善土語(yǔ)元音聲學(xué)分析[D];內(nèi)蒙古大學(xué);2005年
2 包世恩;蒙古語(yǔ)非特定人大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng)的研究與實(shí)現(xiàn)[D];內(nèi)蒙古大學(xué);2005年
3 阿拉坦;蒙古語(yǔ)布里亞特土語(yǔ)元音聲學(xué)分析[D];內(nèi)蒙古大學(xué);2006年
4 其布熱;蒙古語(yǔ)烏珠穆沁土語(yǔ)元音聲學(xué)析[D];內(nèi)蒙古大學(xué);2006年
5 畢力格圖;基于HMM建模的蒙古語(yǔ)連續(xù)語(yǔ)音識(shí)別系統(tǒng)的研究與實(shí)現(xiàn)[D];內(nèi)蒙古大學(xué);2006年
6 艾霞;面向語(yǔ)音識(shí)別的蒙古語(yǔ)語(yǔ)言模型的研究[D];內(nèi)蒙古大學(xué);2007年
7 田會(huì)利;基于詞干詞綴的有限條詞的蒙古語(yǔ)語(yǔ)音合成系統(tǒng)的研究[D];內(nèi)蒙古大學(xué);2007年
8 包桂蘭;蒙古語(yǔ)擦輔音實(shí)驗(yàn)語(yǔ)音學(xué)研究[D];內(nèi)蒙古大學(xué);2007年
9 哈斯其勞;面向語(yǔ)音識(shí)別的蒙古語(yǔ)聲學(xué)模型的研究[D];內(nèi)蒙古大學(xué);2008年
10 敖敏;蒙古語(yǔ)肅北土語(yǔ)元音聲學(xué)研究[D];內(nèi)蒙古大學(xué);2008年
,本文編號(hào):1729777
本文鏈接:http://sikaile.net/wenyilunwen/hanyulw/1729777.html