基于HMM的印尼語語音合成系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-06-29 08:21
印度尼西亞語(簡稱印尼語)源自于蘇門答臘島東北部的馬來語,屬于馬來-波利尼西亞語系。世界上約有三千多萬人將印尼語作為他們的母語,且大約有一億多人將其作為第二門語言,F(xiàn)代馬來語和印尼語都使用拉丁字母拼寫,兩種語言的拼寫也比較接近。論文以開發(fā)印尼語文語轉(zhuǎn)換應(yīng)用系統(tǒng)為目的,設(shè)計(jì)并實(shí)現(xiàn)基于隱馬爾可夫模型(Hidden Markov Model,HMM)的印尼語文語轉(zhuǎn)換基線系統(tǒng),并在此基礎(chǔ)上探索提高語音合成自然度的方法。論文的主要工作包括:(1)音子自動(dòng)切分。本文根據(jù)印尼語的語音特點(diǎn),分別按聲韻母結(jié)構(gòu)和按音素結(jié)構(gòu)確定了兩類合成基元。并使用基于HMM的自動(dòng)切分技術(shù),依據(jù)兩種不同的合成基元,對印尼語音子展開自動(dòng)切分工作,為本文后續(xù)文轉(zhuǎn)語的進(jìn)一步深入研究奠定基礎(chǔ)。(2)模型訓(xùn)練及語音合成的實(shí)現(xiàn)。本文在HTS(HMM-based Speech Synthesis System)的基礎(chǔ)上,建立了一個(gè)完整的語音合成系統(tǒng)框架。首先設(shè)計(jì)了三音子上下文屬性及問題集,并通過決策樹聚類進(jìn)行聲學(xué)模型的訓(xùn)練,最終實(shí)現(xiàn)印尼語語音的合成。(3)印尼語語音合成系統(tǒng)的改進(jìn)。本文對印尼語語音合成系統(tǒng)進(jìn)行了三方面的改進(jìn)工作。首先,對...
【文章來源】:云南大學(xué)云南省 211工程院校
【文章頁數(shù)】:64 頁
【學(xué)位級別】:碩士
【部分圖文】:
一l:前向遞推結(jié)構(gòu)圖
第二章基于HMM的語音合成??其次,面對解碼問題,它與上述方法相似,不同的是,維特比解碼的目的是??求得最大值…1。如圖2-2所示:??卜1?t??…、?????狀態(tài)轉(zhuǎn)移:%??^?,(/)?腿?*^〇))??:輸出概率:by(0,)??xN,??圖2-2:?Viterbi算法結(jié)構(gòu)示意圖??設(shè)屮,(/)表示在/時(shí)刻的最大輸出概率,此時(shí)由部分觀測序列確定,且觀測序??列處于y狀態(tài)。當(dāng)%⑴取得最大值時(shí),其路徑H.7,保存于2,?(_/)中。使用Viterbi??算法求取最佳序列的步驟為:??第一步:初始化%?(丨)=〇?(2-6)??第二步:根據(jù)/時(shí)刻輸出的觀察符號有迭代式中,(乃為:??屮,(_/)=max[T,.丨(/)〇"]辦"(0,)?(2-7)??(力:叩?max?[屮丨(
進(jìn)行模型訓(xùn)練,且模型結(jié)構(gòu)可以人工修改,方便實(shí)用。所以基于HMM的語音合??成系統(tǒng)在語音合成領(lǐng)域備受研究者們的歡迎。??基于HMM的語音合成系統(tǒng)框架主要包括訓(xùn)練和合成兩部分,如圖2-3所示。??首先,訓(xùn)練部分類似于語音識別系統(tǒng)【261,主要區(qū)別是頻譜和激勵(lì)參數(shù)的不同,譜??參數(shù)主要包括梅爾倒譜系數(shù)(MFCC)和動(dòng)態(tài)特征f2'激勵(lì)參數(shù)主要是對基頻取對??數(shù),即基頻對數(shù)(logFO)。而動(dòng)態(tài)特征參數(shù)主要從語音庫中提取,并且根據(jù)上下??文標(biāo)注信息訓(xùn)練HMM模型。其次,在合成階段,由圖2-3虛線下半部分所示,首??先對輸入系統(tǒng)中的文本進(jìn)行分析,再利用訓(xùn)練好的狀態(tài)持續(xù)時(shí)間模型進(jìn)行參數(shù)估??計(jì),從而產(chǎn)生相應(yīng)的激勵(lì)參數(shù)和頻譜參數(shù),最后由STRAIGHT?(Speech??Transformation?and?Representation?using?Adaptive?Interpolation?of?weiGHTed??spectrum),即基于自適應(yīng)加權(quán)譜內(nèi)插值的方法實(shí)現(xiàn)語音的轉(zhuǎn)換和重構(gòu)p8],最終產(chǎn)??生語音波形。??簡單的講,HMM在本實(shí)驗(yàn)中的應(yīng)用可概括為以下幾方面:??(1)音子的自動(dòng)切分。此項(xiàng)工作主要是用2.1節(jié)中介紹的第二個(gè)問題一一解??碼問題來實(shí)現(xiàn)
【參考文獻(xiàn)】:
期刊論文
[1]關(guān)于咸陽市方言語音的內(nèi)部分化等問題[J]. 孫立新. 咸陽師范學(xué)院學(xué)報(bào). 2018(01)
[2]一種改進(jìn)的基于Viterbi的語音切分算法[J]. 李歡歡,王金明,尹海明,徐志軍,孔磊,張開禮. 通信技術(shù). 2015(09)
[3]基于前向-后向HMM的連續(xù)語音識別系統(tǒng)的研究[J]. 于曉明,柏松. 計(jì)算機(jī)工程與設(shè)計(jì). 2009(18)
[4]基于MBIC的決策樹聚類算法在連續(xù)語音識別中的應(yīng)用[J]. 陳國平,杜利民,付躍文,王勁林. 計(jì)算機(jī)應(yīng)用. 2005(12)
[5]漢語、印尼語構(gòu)詞詞綴差異分析[J]. 顏天惠,宗世海. 暨南大學(xué)華文學(xué)院學(xué)報(bào). 2003(03)
[6]HMM連續(xù)語音識別中Viterbi算法的優(yōu)化及應(yīng)用[J]. 袁俊. 電子技術(shù). 2001(02)
[7]LSP參數(shù)的語音分析和合成研究[J]. 楊紅云,向茂楠. 北京理工大學(xué)學(xué)報(bào). 1992(01)
博士論文
[1]語音合成音庫自動(dòng)標(biāo)注方法研究[D]. 楊辰雨.中國科學(xué)技術(shù)大學(xué) 2014
[2]統(tǒng)計(jì)參數(shù)語音合成中的聲學(xué)模型建模方法研究[D]. 雷鳴.中國科學(xué)技術(shù)大學(xué) 2012
[3]中文TTS系統(tǒng)中若干關(guān)鍵技術(shù)研究[D]. 黃平牧.北京郵電大學(xué) 2008
[4]基于統(tǒng)計(jì)聲學(xué)建模的語音合成技術(shù)研究[D]. 凌震華.中國科學(xué)技術(shù)大學(xué) 2008
碩士論文
[1]基于GMM-HMM的聲學(xué)模型訓(xùn)練研究[D]. 王為凱.華南理工大學(xué) 2016
[2]統(tǒng)計(jì)參數(shù)語音合成中的頻譜建模及生成方法研究[D]. 孫瑜聲.中國科學(xué)技術(shù)大學(xué) 2015
[3]漢藏雙語跨語言統(tǒng)計(jì)參數(shù)語音合成的研究[D]. 王海燕.西北師范大學(xué) 2015
本文編號:3256098
【文章來源】:云南大學(xué)云南省 211工程院校
【文章頁數(shù)】:64 頁
【學(xué)位級別】:碩士
【部分圖文】:
一l:前向遞推結(jié)構(gòu)圖
第二章基于HMM的語音合成??其次,面對解碼問題,它與上述方法相似,不同的是,維特比解碼的目的是??求得最大值…1。如圖2-2所示:??卜1?t??…、?????狀態(tài)轉(zhuǎn)移:%??^?,(/)?腿?*^〇))??:輸出概率:by(0,)??xN,??圖2-2:?Viterbi算法結(jié)構(gòu)示意圖??設(shè)屮,(/)表示在/時(shí)刻的最大輸出概率,此時(shí)由部分觀測序列確定,且觀測序??列處于y狀態(tài)。當(dāng)%⑴取得最大值時(shí),其路徑H.7,保存于2,?(_/)中。使用Viterbi??算法求取最佳序列的步驟為:??第一步:初始化%?(丨)=〇?(2-6)??第二步:根據(jù)/時(shí)刻輸出的觀察符號有迭代式中,(乃為:??屮,(_/)=max[T,.丨(/)〇"]辦"(0,)?(2-7)??(力:叩?max?[屮丨(
進(jìn)行模型訓(xùn)練,且模型結(jié)構(gòu)可以人工修改,方便實(shí)用。所以基于HMM的語音合??成系統(tǒng)在語音合成領(lǐng)域備受研究者們的歡迎。??基于HMM的語音合成系統(tǒng)框架主要包括訓(xùn)練和合成兩部分,如圖2-3所示。??首先,訓(xùn)練部分類似于語音識別系統(tǒng)【261,主要區(qū)別是頻譜和激勵(lì)參數(shù)的不同,譜??參數(shù)主要包括梅爾倒譜系數(shù)(MFCC)和動(dòng)態(tài)特征f2'激勵(lì)參數(shù)主要是對基頻取對??數(shù),即基頻對數(shù)(logFO)。而動(dòng)態(tài)特征參數(shù)主要從語音庫中提取,并且根據(jù)上下??文標(biāo)注信息訓(xùn)練HMM模型。其次,在合成階段,由圖2-3虛線下半部分所示,首??先對輸入系統(tǒng)中的文本進(jìn)行分析,再利用訓(xùn)練好的狀態(tài)持續(xù)時(shí)間模型進(jìn)行參數(shù)估??計(jì),從而產(chǎn)生相應(yīng)的激勵(lì)參數(shù)和頻譜參數(shù),最后由STRAIGHT?(Speech??Transformation?and?Representation?using?Adaptive?Interpolation?of?weiGHTed??spectrum),即基于自適應(yīng)加權(quán)譜內(nèi)插值的方法實(shí)現(xiàn)語音的轉(zhuǎn)換和重構(gòu)p8],最終產(chǎn)??生語音波形。??簡單的講,HMM在本實(shí)驗(yàn)中的應(yīng)用可概括為以下幾方面:??(1)音子的自動(dòng)切分。此項(xiàng)工作主要是用2.1節(jié)中介紹的第二個(gè)問題一一解??碼問題來實(shí)現(xiàn)
【參考文獻(xiàn)】:
期刊論文
[1]關(guān)于咸陽市方言語音的內(nèi)部分化等問題[J]. 孫立新. 咸陽師范學(xué)院學(xué)報(bào). 2018(01)
[2]一種改進(jìn)的基于Viterbi的語音切分算法[J]. 李歡歡,王金明,尹海明,徐志軍,孔磊,張開禮. 通信技術(shù). 2015(09)
[3]基于前向-后向HMM的連續(xù)語音識別系統(tǒng)的研究[J]. 于曉明,柏松. 計(jì)算機(jī)工程與設(shè)計(jì). 2009(18)
[4]基于MBIC的決策樹聚類算法在連續(xù)語音識別中的應(yīng)用[J]. 陳國平,杜利民,付躍文,王勁林. 計(jì)算機(jī)應(yīng)用. 2005(12)
[5]漢語、印尼語構(gòu)詞詞綴差異分析[J]. 顏天惠,宗世海. 暨南大學(xué)華文學(xué)院學(xué)報(bào). 2003(03)
[6]HMM連續(xù)語音識別中Viterbi算法的優(yōu)化及應(yīng)用[J]. 袁俊. 電子技術(shù). 2001(02)
[7]LSP參數(shù)的語音分析和合成研究[J]. 楊紅云,向茂楠. 北京理工大學(xué)學(xué)報(bào). 1992(01)
博士論文
[1]語音合成音庫自動(dòng)標(biāo)注方法研究[D]. 楊辰雨.中國科學(xué)技術(shù)大學(xué) 2014
[2]統(tǒng)計(jì)參數(shù)語音合成中的聲學(xué)模型建模方法研究[D]. 雷鳴.中國科學(xué)技術(shù)大學(xué) 2012
[3]中文TTS系統(tǒng)中若干關(guān)鍵技術(shù)研究[D]. 黃平牧.北京郵電大學(xué) 2008
[4]基于統(tǒng)計(jì)聲學(xué)建模的語音合成技術(shù)研究[D]. 凌震華.中國科學(xué)技術(shù)大學(xué) 2008
碩士論文
[1]基于GMM-HMM的聲學(xué)模型訓(xùn)練研究[D]. 王為凱.華南理工大學(xué) 2016
[2]統(tǒng)計(jì)參數(shù)語音合成中的頻譜建模及生成方法研究[D]. 孫瑜聲.中國科學(xué)技術(shù)大學(xué) 2015
[3]漢藏雙語跨語言統(tǒng)計(jì)參數(shù)語音合成的研究[D]. 王海燕.西北師范大學(xué) 2015
本文編號:3256098
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/3256098.html
最近更新
教材專著