基于HMM的歌詞到歌聲轉(zhuǎn)換的研究
本文關(guān)鍵詞:基于HMM的歌詞到歌聲轉(zhuǎn)換的研究
更多相關(guān)文章: 歌聲合成 旋律控制模型 基于HMM的語音合成 MIDI STRAIGHT算法
【摘要】:語音合成技術(shù)在人機交互領(lǐng)域是一個重要研究內(nèi)容,有著廣泛的應用,歌聲合成是語音合成的研究熱點。本研究利用了文語轉(zhuǎn)換(Text-To-Speech,TTS)技術(shù),通過HTS(HMM-based Speech Synthesis System)實現(xiàn)歌聲的合成。利用訓練語料建立說話人相關(guān)的聲學模型。通過MIDI(Musical Instrument Digital Interface)樂譜,獲得歌聲的音樂信息。通過分析對比說話語音和歌聲信號在聲學特征方面的差異,建立歌聲的旋律控制模型。對輸入的歌詞文本進行文本分析,獲得上下文相關(guān)的標注,并利用訓練得到的說話人相關(guān)模型,獲得說話人相關(guān)的聲學參數(shù)。通過旋律控制模型對聲學參數(shù)進行修改。最后,利用STRAIGHT(Speech Transformation and Representation based on Adaptive Interpolation of weiGHTed spectrogram)算法實現(xiàn)了基于HMM(Hidden Markov Model,HMM)的歌詞到歌聲的轉(zhuǎn)換。論文的主要工作與創(chuàng)新如下:1.建立了面向歌曲合成的基于HMM的說話人相關(guān)的聲學模型。利用多說話人的語音語料,分析語音,得到基頻(F0)、時長、頻譜(SP)以及非周期索引(AP)等聲學參數(shù),并利用說話人自適應訓練技術(shù),訓練獲得平均音模型。在此基礎上,利用目標說話人的語音,通過說話人自適應變換技術(shù),得到目標說話人的聲學模型。2.建立了旋律控制模型。從MIDI文件提取樂譜信息,分析樂譜文件結(jié)構(gòu),獲得通道標號、音符音高、鍵的速度、音符起始時間、音符持續(xù)時間等音樂信息。分析語音和歌聲在聲學特征的差異,建立了歌聲的旋律控制模型,包括基頻控制模型和時長控制模型。利用基頻控制模型將樂譜中的離散音高轉(zhuǎn)換為連續(xù)的基頻曲線,并利用時長控制模型獲得歌唱音符的發(fā)音時長。3.實現(xiàn)了歌詞到歌曲的轉(zhuǎn)換。對輸入的歌詞文本進行文本分析,獲得上下文相關(guān)的標注,并利用說話人相關(guān)的模型,生成頻譜、非周期索引2個聲學參數(shù)。同時根據(jù)MIDI文件,獲得歌詞中每個音符的音高和音長,并通過旋律控制模型獲得相應的基頻和時長,并根據(jù)音符時長獲得音節(jié)的頻譜、非周期索引和基頻的時長。最后,利用STRAIGHT算法實現(xiàn)歌聲的合成,并加入音樂伴奏。對轉(zhuǎn)換的歌聲進行了主、客觀評測,結(jié)果表明,轉(zhuǎn)換的歌聲音質(zhì)較好。
【關(guān)鍵詞】:歌聲合成 旋律控制模型 基于HMM的語音合成 MIDI STRAIGHT算法
【學位授予單位】:西北師范大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TN912.33
【目錄】:
- 摘要4-5
- Abstract5-9
- 第1章 引言9-13
- 1.1 選題背景9-11
- 1.1.1 歌聲合成研究現(xiàn)狀9-11
- 1.1.2 研究目的及意義11
- 1.2 論文結(jié)構(gòu)安排11-13
- 第2章 歌聲合成相關(guān)語音知識13-25
- 2.1 語音合成分類13-15
- 2.2 文-語轉(zhuǎn)換系統(tǒng)15
- 2.3 基于隱馬爾可夫模型的參數(shù)語音合成15-18
- 2.3.1 隱馬爾可夫模型簡介15-16
- 2.3.2 基于隱馬爾可夫模型語音合成系統(tǒng)16-18
- 2.4 說話人的自適應訓練18-21
- 2.5 STRAIGHT算法21-24
- 2.6 本章小結(jié)24-25
- 第3章 歌聲合成相關(guān)音樂知識25-32
- 3.1 MIDI技術(shù)介紹25-27
- 3.1.1 MIDI系統(tǒng)25-26
- 3.1.2 標準MIDI文件格式結(jié)構(gòu)26-27
- 3.2 樂理知識介紹27-29
- 3.3 語音與歌聲信號特征分析29-31
- 3.3.1 語音信號的分析29
- 3.3.2 語音與歌聲信號特征對比分析29-31
- 3.4 歌聲旋律轉(zhuǎn)換31
- 3.5 本章小結(jié)31-32
- 第4章 歌詞到歌聲轉(zhuǎn)換的實現(xiàn)32-42
- 4.1 HMM自適應訓練33-35
- 4.1.1 HMM訓練準備33-34
- 4.1.2 說話人自適應訓練的實現(xiàn)34-35
- 4.2 MIDI樂譜信息提取35-36
- 4.3 旋律控制模型36-39
- 4.4 STRAIGHT算法的歌聲合成39-41
- 4.5 本章小結(jié)41-42
- 第5章 實驗及評測42-45
- 5.1 實驗數(shù)據(jù)準備42
- 5.2 系統(tǒng)評測42-44
- 5.2.1 評測方法42-43
- 5.2.2 評測結(jié)果43-44
- 5.3 本章小結(jié)44-45
- 第6章 總結(jié)與展望45-47
- 6.1 論文工作總結(jié)45
- 6.2 工作展望45-47
- 參考 文獻47-50
- 攻讀學位期間的研究成果50-51
- 致謝51
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 周海濤;;語音合成中多音字識別的實現(xiàn)[J];科技資訊;2008年11期
2 彭騰;孫萍;;基于C#語音合成的實現(xiàn)[J];電腦編程技巧與維護;2010年12期
3 張世平;;會說四種話的語音合成卡——聲威一號[J];今日電子;1993年01期
4 趙建洋;;一種高效語音合成方法[J];電子技術(shù);1993年08期
5 馬義德,張新國,,羅長印;語音合成電路在我國的應用前景[J];電子技術(shù);1994年12期
6 郝杰;語音合成:引領(lǐng)“耳朵經(jīng)濟”[J];中國電子商務;2001年Z2期
7 羅三定,賈建華,沙莎;基于波形音頻段處理的中文語音合成研究[J];電腦與信息技術(shù);2002年01期
8 ;國內(nèi)語音合成領(lǐng)域?qū)@夹g(shù)發(fā)展趨勢[J];電子知識產(chǎn)權(quán);2003年10期
9 周潔,趙力,鄒采榮;情感語音合成的研究[J];電聲技術(shù);2005年10期
10 王永生;柴佩琪;曾令平;;英語語音合成中基于約束樹的音節(jié)切分算法[J];微型電腦應用;2005年11期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 楊靜;孫金城;;關(guān)于錄制語音合成數(shù)據(jù)庫的幾個問題[A];中國聲學學會2002年全國聲學學術(shù)會議論文集[C];2002年
2 徐俊;蔡蓮紅;吳志勇;;多語種語音合成平臺的設計與實現(xiàn)[A];第一屆建立和諧人機環(huán)境聯(lián)合學術(shù)會議(HHME2005)論文集[C];2005年
3 陳益強;高文;王兆其;楊長水;姜大龍;;多模式語音合成[A];第六屆全國人機語音通訊學術(shù)會議論文集[C];2001年
4 陶建華;董宏輝;許曉穎;;情感語音合成的關(guān)鍵技術(shù)分析[A];第六屆全國現(xiàn)代語音學學術(shù)會議論文集(下)[C];2003年
5 劉東華;馮靜;力梅;;深圳市新一代“12121”語音合成業(yè)務系統(tǒng)[A];中國氣象學會2007年年會氣象軟科學論壇分會場論文集[C];2007年
6 黃小明;熊子瑜;;基于古音系統(tǒng)的漢語方言語音合成研究[A];第十二屆全國人機語音通訊學術(shù)會議(NCMMSC'2013)論文集[C];2013年
7 鄒煜;何偉;侯敏;滕永林;朱維彬;;面向語音合成的新聞播報語音庫構(gòu)建及其特殊韻律結(jié)構(gòu)[A];中國計算機語言學研究前沿進展(2007-2009)[C];2009年
8 賀琳;張蕊;俞舸;;大規(guī)模語音合成語料庫的錄制及常見問題[A];中國聲學學會2002年全國聲學學術(shù)會議論文集[C];2002年
9 陶建華;康永國;;基于多元激勵的高質(zhì)量語音合成聲學模型[A];第七屆全國人機語音通訊學術(shù)會議(NCMMSC7)論文集[C];2003年
10 吳志勇;蔡蓮紅;蒙美玲;;可視語音合成中基于音視頻關(guān)聯(lián)模型的視位參數(shù)優(yōu)化[A];第八屆全國人機語音通訊學術(shù)會議論文集[C];2005年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 記者 桂運安;中科大11項語音合成指標世界第一[N];安徽日報;2014年
2 本報記者 何進偉;語音合成露崢嶸[N];網(wǎng)絡世界;2001年
3 李羚;多語種語音合成助力數(shù)字奧運[N];中國計算機報;2003年
4 清華大學計算機系人機交互與媒體集成研究所 陶建華 蔡蓮紅;語音合成的應用系統(tǒng)設計[N];計算機世界;2001年
5 ;嵌入式語音合成平臺[N];計算機世界;2002年
6 孫曉聞;語音合成 讓機器“像人一樣說話”[N];中國勞動保障報;2005年
7 ;新型語音合成軟件面世[N];人民郵電;2008年
8 炎黃新星公司供稿;炎黃之聲SinoSonic[N];計算機世界;2002年
9 劉權(quán);語音合成融入證券客服[N];中國計算機報;2003年
10 ;語音產(chǎn)品走向開放式架構(gòu)[N];中國計算機報;2004年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 高瑩瑩;面向情感語音合成的言語情感建模研究[D];北京交通大學;2016年
2 高裴裴;人眼驅(qū)動語音合成的若干關(guān)鍵技術(shù)研究[D];南開大學;2012年
3 趙暉;真實感漢語可視語音合成關(guān)鍵技術(shù)研究[D];國防科學技術(shù)大學;2010年
4 蘇莊鑾;情感語音合成[D];中國科學技術(shù)大學;2006年
5 盧恒;基于統(tǒng)計模型與發(fā)音錯誤檢測的語音合成方法研究[D];中國科學技術(shù)大學;2011年
6 雷鳴;統(tǒng)計參數(shù)語音合成中的聲學模型建模方法研究[D];中國科學技術(shù)大學;2012年
7 蔡明琦;融合發(fā)音機理的統(tǒng)計參數(shù)語音合成方法研究[D];中國科學技術(shù)大學;2015年
8 凌震華;基于統(tǒng)計聲學建模的語音合成技術(shù)研究[D];中國科學技術(shù)大學;2008年
9 楊辰雨;語音合成音庫自動標注方法研究[D];中國科學技術(shù)大學;2014年
10 尉洪;漢語基元音素獨立分量譜分析對比及語音合成研究[D];云南大學;2011年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 李冰潔;基于聲韻母的嵌入式語音合成[D];北京交通大學;2016年
2 李煥君;個性化語音合成在船舶導航系統(tǒng)中應用研究[D];大連海事大學;2016年
3 馮歡;基于HMM的歌詞到歌聲轉(zhuǎn)換的研究[D];西北師范大學;2015年
4 王海燕;漢藏雙語跨語言統(tǒng)計參數(shù)語音合成的研究[D];西北師范大學;2015年
5 孫曉輝;結(jié)合聽感度量的語音合成方法研究[D];中國科學技術(shù)大學;2016年
6 李翔凰;基于HMM-RBM的蒙古語語音合成研究[D];內(nèi)蒙古大學;2016年
7 王雨蒙;英語文語轉(zhuǎn)換系統(tǒng)中的ToBl韻律自動標注方法與實現(xiàn)[D];云南大學;2016年
8 戈永侃;改進語音合成自然度的研究[D];江南大學;2016年
9 聶軍;基于HMM可訓練的漢語語音合成系統(tǒng)[D];吉林大學;2010年
10 曾一鳴;情感語音合成的研究和系統(tǒng)實現(xiàn)[D];上海交通大學;2010年
本文編號:910498
本文鏈接:http://sikaile.net/kejilunwen/wltx/910498.html