基于發(fā)音動(dòng)作特征的中文語音合成系統(tǒng)研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-02-17 04:19
語音合成技術(shù)也叫文語轉(zhuǎn)換技術(shù),能夠?qū)⑽淖洲D(zhuǎn)換成語音的形式輸出,是人機(jī)交互中必不可少的一部分。在當(dāng)今的智能音箱、智能家居、車載導(dǎo)航等許多人工智能應(yīng)用場(chǎng)景中都離不開語音合成技術(shù);谡Z料庫(kù)的波形拼接語音合成方法目前已有較高的可懂度和自然度,但在進(jìn)一步提高聽感質(zhì)量上仍有待加強(qiáng),尤其是基元的拼接產(chǎn)生的聲音突變現(xiàn)象需要進(jìn)一步改善,造成聲音突變的主要原因是傳統(tǒng)的語音合成系統(tǒng)不能使前后基元之間具有足夠的協(xié)同發(fā)音的音聯(lián)性。因?yàn)閰f(xié)同發(fā)音是源自于人體發(fā)聲器官的自然連續(xù)運(yùn)動(dòng),所以本文從發(fā)音動(dòng)作的角度進(jìn)行波形拼接語音合成,所做的工作如下:首先,為了使語料庫(kù)的基元能充分地涵蓋漢語不同協(xié)同發(fā)音情況下的聲音變體,本文基于對(duì)漢語協(xié)同發(fā)音類型的總結(jié),設(shè)計(jì)并建立了滿足變體覆蓋率的語料庫(kù),并基于研究的協(xié)同發(fā)音標(biāo)注方法,使用電磁發(fā)音儀(Electro magnetic articulography,EMA)數(shù)據(jù)對(duì)語料庫(kù)中每一個(gè)基元進(jìn)行發(fā)音動(dòng)作的標(biāo)注。高質(zhì)量的語料庫(kù)也是語音合成的基礎(chǔ)。然后,為了得到輸入文本對(duì)應(yīng)的體現(xiàn)協(xié)同發(fā)音特征的發(fā)音動(dòng)作參數(shù),本文構(gòu)建了隱馬爾科夫模型(Hide Markov Model,HMM),使模型輸出的...
【文章來源】:重慶郵電大學(xué)重慶市
【文章頁(yè)數(shù)】:91 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
發(fā)音器官構(gòu)造圖
(a) 提高基頻 (b) 降低基頻圖 2.2 基頻修改示意圖當(dāng)標(biāo)記點(diǎn)之間的距離變小,則基音周期變小,頻率加快,音調(diào)變高。調(diào)節(jié)標(biāo)記之間的距離主要是通過基頻修改音子 β ,當(dāng) β 1時(shí)基頻增大,當(dāng) β 1時(shí)基頻減小,如圖 2.2 所示。(2) 對(duì)音長(zhǎng)的修改原始軸合成軸(a) 音長(zhǎng)延長(zhǎng)的映射原始軸
重慶郵電大學(xué)碩士學(xué)位論文 第 3 章 漢語協(xié)同發(fā)音語料庫(kù)的建立的 EMA 語料庫(kù),包含了 1380 句話,每句話的內(nèi)容不僅包括.wav 格式的音頻文件、文本文件,還有與之對(duì)應(yīng)的發(fā)音動(dòng)作 EMA 參數(shù)文件,并且經(jīng)過規(guī)整處理。有了音頻來源后,要進(jìn)行基元的截取。由于本文選取聲韻母作為語料庫(kù)的基本單位,因此要將原始的語句切割成聲韻母,另外基元切分的準(zhǔn)確性也會(huì)影響語音合成的質(zhì)量,因此聲韻母的截取是一個(gè)十分耗時(shí)且需要耐心細(xì)致的工作。截取應(yīng)該保留其音聯(lián)過渡段,以充分體現(xiàn)基元的協(xié)同發(fā)音現(xiàn)象。例如切割“海明威”中的“明”,從圖 3.3 可以看出,由于受到其他聲韻母的影響,“m”切割出來之后包含了一部分后面韻母段,而“ing”包含了一部分后面的聲母段。音頻的截取使用Praat,通過 Praat 中波形與所截單元的對(duì)齊,可以提高截取的精確度。
【參考文獻(xiàn)】:
期刊論文
[1]語言發(fā)音模型研究綜述[J]. 張金光. 計(jì)算機(jī)工程與應(yīng)用. 2018(12)
[2]大規(guī)模英漢平行語料庫(kù)的檢索與應(yīng)用:大數(shù)據(jù)視角[J]. 王克非,劉鼎甲. 外語電化教學(xué). 2017(06)
[3]維吾爾語韻律建模[J]. 古力米熱·依瑪木,姑麗加瑪麗·麥麥提艾力,瑪依努爾·阿吾力提甫,艾斯卡爾·艾木都拉. 清華大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(12)
[4]Adobe Audition在聲波和拍實(shí)驗(yàn)中的仿真與優(yōu)化[J]. 張雪華,戚輝,郭春軼,郭鵬,李夢(mèng). 中原工學(xué)院學(xué)報(bào). 2017(03)
[5]播音學(xué)習(xí)札記——播音播得板、僵[J]. 張煥秋. 語文世界(中學(xué)生之窗). 2016(12)
[6]基于深度神經(jīng)網(wǎng)絡(luò)的語音驅(qū)動(dòng)發(fā)音器官的運(yùn)動(dòng)合成[J]. 唐郅,侯進(jìn). 自動(dòng)化學(xué)報(bào). 2016(06)
[7]語音同一性鑒定中口音韻母、鼻化韻母、鼻韻母的語圖判別法探究[J]. 王曉婷,楊俊杰. 中國(guó)司法鑒定. 2016(02)
[8]語音合成方法和發(fā)展綜述[J]. 張斌,全昌勤,任福繼. 小型微型計(jì)算機(jī)系統(tǒng). 2016(01)
[9]協(xié)同發(fā)音與同化的概念分析(英文)[J]. 劉妲. 語文學(xué)刊(外語教育教學(xué)). 2015(10)
[10]藏語語音合成單元選擇[J]. 才讓卓瑪,李永明,才智杰. 軟件學(xué)報(bào). 2015(06)
碩士論文
[1]基于HMM的單元挑選語音合成方法研究[D]. 何鑫.西安工業(yè)大學(xué) 2017
[2]基于聲韻母的嵌入式語音合成[D]. 李冰潔.北京交通大學(xué) 2016
[3]中文話費(fèi)文語轉(zhuǎn)換系統(tǒng)的研究與實(shí)現(xiàn)[D]. 景娟.中南大學(xué) 2011
[4]基于EPG的漢語普通話輔音的發(fā)音研究[D]. 李儉.浙江大學(xué) 2004
本文編號(hào):3037423
【文章來源】:重慶郵電大學(xué)重慶市
【文章頁(yè)數(shù)】:91 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
發(fā)音器官構(gòu)造圖
(a) 提高基頻 (b) 降低基頻圖 2.2 基頻修改示意圖當(dāng)標(biāo)記點(diǎn)之間的距離變小,則基音周期變小,頻率加快,音調(diào)變高。調(diào)節(jié)標(biāo)記之間的距離主要是通過基頻修改音子 β ,當(dāng) β 1時(shí)基頻增大,當(dāng) β 1時(shí)基頻減小,如圖 2.2 所示。(2) 對(duì)音長(zhǎng)的修改原始軸合成軸(a) 音長(zhǎng)延長(zhǎng)的映射原始軸
重慶郵電大學(xué)碩士學(xué)位論文 第 3 章 漢語協(xié)同發(fā)音語料庫(kù)的建立的 EMA 語料庫(kù),包含了 1380 句話,每句話的內(nèi)容不僅包括.wav 格式的音頻文件、文本文件,還有與之對(duì)應(yīng)的發(fā)音動(dòng)作 EMA 參數(shù)文件,并且經(jīng)過規(guī)整處理。有了音頻來源后,要進(jìn)行基元的截取。由于本文選取聲韻母作為語料庫(kù)的基本單位,因此要將原始的語句切割成聲韻母,另外基元切分的準(zhǔn)確性也會(huì)影響語音合成的質(zhì)量,因此聲韻母的截取是一個(gè)十分耗時(shí)且需要耐心細(xì)致的工作。截取應(yīng)該保留其音聯(lián)過渡段,以充分體現(xiàn)基元的協(xié)同發(fā)音現(xiàn)象。例如切割“海明威”中的“明”,從圖 3.3 可以看出,由于受到其他聲韻母的影響,“m”切割出來之后包含了一部分后面韻母段,而“ing”包含了一部分后面的聲母段。音頻的截取使用Praat,通過 Praat 中波形與所截單元的對(duì)齊,可以提高截取的精確度。
【參考文獻(xiàn)】:
期刊論文
[1]語言發(fā)音模型研究綜述[J]. 張金光. 計(jì)算機(jī)工程與應(yīng)用. 2018(12)
[2]大規(guī)模英漢平行語料庫(kù)的檢索與應(yīng)用:大數(shù)據(jù)視角[J]. 王克非,劉鼎甲. 外語電化教學(xué). 2017(06)
[3]維吾爾語韻律建模[J]. 古力米熱·依瑪木,姑麗加瑪麗·麥麥提艾力,瑪依努爾·阿吾力提甫,艾斯卡爾·艾木都拉. 清華大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(12)
[4]Adobe Audition在聲波和拍實(shí)驗(yàn)中的仿真與優(yōu)化[J]. 張雪華,戚輝,郭春軼,郭鵬,李夢(mèng). 中原工學(xué)院學(xué)報(bào). 2017(03)
[5]播音學(xué)習(xí)札記——播音播得板、僵[J]. 張煥秋. 語文世界(中學(xué)生之窗). 2016(12)
[6]基于深度神經(jīng)網(wǎng)絡(luò)的語音驅(qū)動(dòng)發(fā)音器官的運(yùn)動(dòng)合成[J]. 唐郅,侯進(jìn). 自動(dòng)化學(xué)報(bào). 2016(06)
[7]語音同一性鑒定中口音韻母、鼻化韻母、鼻韻母的語圖判別法探究[J]. 王曉婷,楊俊杰. 中國(guó)司法鑒定. 2016(02)
[8]語音合成方法和發(fā)展綜述[J]. 張斌,全昌勤,任福繼. 小型微型計(jì)算機(jī)系統(tǒng). 2016(01)
[9]協(xié)同發(fā)音與同化的概念分析(英文)[J]. 劉妲. 語文學(xué)刊(外語教育教學(xué)). 2015(10)
[10]藏語語音合成單元選擇[J]. 才讓卓瑪,李永明,才智杰. 軟件學(xué)報(bào). 2015(06)
碩士論文
[1]基于HMM的單元挑選語音合成方法研究[D]. 何鑫.西安工業(yè)大學(xué) 2017
[2]基于聲韻母的嵌入式語音合成[D]. 李冰潔.北京交通大學(xué) 2016
[3]中文話費(fèi)文語轉(zhuǎn)換系統(tǒng)的研究與實(shí)現(xiàn)[D]. 景娟.中南大學(xué) 2011
[4]基于EPG的漢語普通話輔音的發(fā)音研究[D]. 李儉.浙江大學(xué) 2004
本文編號(hào):3037423
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/3037423.html
最近更新
教材專著