基于HMM的歌詞到歌聲轉(zhuǎn)換的研究

發(fā)布時間：2017-09-24 09:01

本文關(guān)鍵詞：基于HMM的歌詞到歌聲轉(zhuǎn)換的研究

【摘要】：語音合成技術(shù)在人機交互領(lǐng)域是一個重要研究內(nèi)容,有著廣泛的應用,歌聲合成是語音合成的研究熱點。本研究利用了文語轉(zhuǎn)換(Text-To-Speech,TTS)技術(shù),通過HTS(HMM-based Speech Synthesis System)實現(xiàn)歌聲的合成。利用訓練語料建立說話人相關(guān)的聲學模型。通過MIDI(Musical Instrument Digital Interface)樂譜,獲得歌聲的音樂信息。通過分析對比說話語音和歌聲信號在聲學特征方面的差異,建立歌聲的旋律控制模型。對輸入的歌詞文本進行文本分析,獲得上下文相關(guān)的標注,并利用訓練得到的說話人相關(guān)模型,獲得說話人相關(guān)的聲學參數(shù)。通過旋律控制模型對聲學參數(shù)進行修改。最后,利用STRAIGHT(Speech Transformation and Representation based on Adaptive Interpolation of weiGHTed spectrogram)算法實現(xiàn)了基于HMM(Hidden Markov Model,HMM)的歌詞到歌聲的轉(zhuǎn)換。論文的主要工作與創(chuàng)新如下:1.建立了面向歌曲合成的基于HMM的說話人相關(guān)的聲學模型。利用多說話人的語音語料,分析語音,得到基頻(F0)、時長、頻譜(SP)以及非周期索引(AP)等聲學參數(shù),并利用說話人自適應訓練技術(shù),訓練獲得平均音模型。在此基礎(chǔ)上,利用目標說話人的語音,通過說話人自適應變換技術(shù),得到目標說話人的聲學模型。2.建立了旋律控制模型。從MIDI文件提取樂譜信息,分析樂譜文件結(jié)構(gòu),獲得通道標號、音符音高、鍵的速度、音符起始時間、音符持續(xù)時間等音樂信息。分析語音和歌聲在聲學特征的差異,建立了歌聲的旋律控制模型,包括基頻控制模型和時長控制模型。利用基頻控制模型將樂譜中的離散音高轉(zhuǎn)換為連續(xù)的基頻曲線,并利用時長控制模型獲得歌唱音符的發(fā)音時長。3.實現(xiàn)了歌詞到歌曲的轉(zhuǎn)換。對輸入的歌詞文本進行文本分析,獲得上下文相關(guān)的標注,并利用說話人相關(guān)的模型,生成頻譜、非周期索引2個聲學參數(shù)。同時根據(jù)MIDI文件,獲得歌詞中每個音符的音高和音長,并通過旋律控制模型獲得相應的基頻和時長,并根據(jù)音符時長獲得音節(jié)的頻譜、非周期索引和基頻的時長。最后,利用STRAIGHT算法實現(xiàn)歌聲的合成,并加入音樂伴奏。對轉(zhuǎn)換的歌聲進行了主、客觀評測,結(jié)果表明,轉(zhuǎn)換的歌聲音質(zhì)較好。
【關(guān)鍵詞】：歌聲合成 旋律控制模型 基于HMM的語音合成 MIDI STRAIGHT算法
【學位授予單位】：西北師范大學
【學位級別】：碩士
【學位授予年份】：2015
【分類號】：TN912.33
【目錄】：

摘要4-5
Abstract5-9
第1章引言9-13
1.1 選題背景9-11
1.1.1 歌聲合成研究現(xiàn)狀9-11
1.1.2 研究目的及意義11
1.2 論文結(jié)構(gòu)安排11-13
第2章歌聲合成相關(guān)語音知識13-25
2.1 語音合成分類13-15
2.2 文-語轉(zhuǎn)換系統(tǒng)15
2.3 基于隱馬爾可夫模型的參數(shù)語音合成15-18
2.3.1 隱馬爾可夫模型簡介15-16
2.3.2 基于隱馬爾可夫模型語音合成系統(tǒng)16-18
2.4 說話人的自適應訓練18-21
2.5 STRAIGHT算法21-24
2.6 本章小結(jié)24-25
第3章歌聲合成相關(guān)音樂知識25-32
3.1 MIDI技術(shù)介紹25-27
3.1.1 MIDI系統(tǒng)25-26
3.1.2 標準MIDI文件格式結(jié)構(gòu)26-27
3.2 樂理知識介紹27-29
3.3 語音與歌聲信號特征分析29-31
3.3.1 語音信號的分析29
3.3.2 語音與歌聲信號特征對比分析29-31
3.4 歌聲旋律轉(zhuǎn)換31
3.5 本章小結(jié)31-32
第4章歌詞到歌聲轉(zhuǎn)換的實現(xiàn)32-42
4.1 HMM自適應訓練33-35
4.1.1 HMM訓練準備33-34
4.1.2 說話人自適應訓練的實現(xiàn)34-35
4.2 MIDI樂譜信息提取35-36
4.3 旋律控制模型36-39
4.4 STRAIGHT算法的歌聲合成39-41
4.5 本章小結(jié)41-42
第5章實驗及評測42-45
5.1 實驗數(shù)據(jù)準備42
5.2 系統(tǒng)評測42-44
5.2.1 評測方法42-43
5.2.2 評測結(jié)果43-44
5.3 本章小結(jié)44-45
第6章總結(jié)與展望45-47
6.1 論文工作總結(jié)45
6.2 工作展望45-47
參考文獻47-50
攻讀學位期間的研究成果50-51
致謝51

【相似文獻】

中國期刊全文數(shù)據(jù)庫前10條

1 周海濤;;語音合成中多音字識別的實現(xiàn)[J];科技資訊;2008年11期

2 彭騰;孫萍;;基于C#語音合成的實現(xiàn)[J];電腦編程技巧與維護;2010年12期

3 張世平;;會說四種話的語音合成卡——聲威一號[J];今日電子;1993年01期

4 趙建洋;;一種高效語音合成方法[J];電子技術(shù);1993年08期

5 馬義德，張新國，，羅長印;語音合成電路在我國的應用前景[J];電子技術(shù);1994年12期

6 郝杰;語音合成:引領(lǐng)“耳朵經(jīng)濟”[J];中國電子商務;2001年Z2期

7 羅三定,賈建華,沙莎;基于波形音頻段處理的中文語音合成研究[J];電腦與信息技術(shù);2002年01期

8 ;國內(nèi)語音合成領(lǐng)域?qū)＠夹g(shù)發(fā)展趨勢[J];電子知識產(chǎn)權(quán);2003年10期

9 周潔,趙力,鄒采榮;情感語音合成的研究[J];電聲技術(shù);2005年10期

10 王永生;柴佩琪;曾令平;;英語語音合成中基于約束樹的音節(jié)切分算法[J];微型電腦應用;2005年11期

中國重要會議論文全文數(shù)據(jù)庫前10條

1 楊靜;孫金城;;關(guān)于錄制語音合成數(shù)據(jù)庫的幾個問題[A];中國聲學學會2002年全國聲學學術(shù)會議論文集[C];2002年

2 徐俊;蔡蓮紅;吳志勇;;多語種語音合成平臺的設計與實現(xiàn)[A];第一屆建立和諧人機環(huán)境聯(lián)合學術(shù)會議（HHME2005）論文集[C];2005年

3 陳益強;高文;王兆其;楊長水;姜大龍;;多模式語音合成[A];第六屆全國人機語音通訊學術(shù)會議論文集[C];2001年

4 陶建華;董宏輝;許曉穎;;情感語音合成的關(guān)鍵技術(shù)分析[A];第六屆全國現(xiàn)代語音學學術(shù)會議論文集（下）[C];2003年

5 劉東華;馮靜;力梅;;深圳市新一代“12121”語音合成業(yè)務系統(tǒng)[A];中國氣象學會2007年年會氣象軟科學論壇分會場論文集[C];2007年

6 黃小明;熊子瑜;;基于古音系統(tǒng)的漢語方言語音合成研究[A];第十二屆全國人機語音通訊學術(shù)會議（NCMMSC'2013）論文集[C];2013年

7 鄒煜;何偉;侯敏;滕永林;朱維彬;;面向語音合成的新聞播報語音庫構(gòu)建及其特殊韻律結(jié)構(gòu)[A];中國計算機語言學研究前沿進展（2007-2009）[C];2009年

8 賀琳;張蕊;俞舸;;大規(guī)模語音合成語料庫的錄制及常見問題[A];中國聲學學會2002年全國聲學學術(shù)會議論文集[C];2002年

9 陶建華;康永國;;基于多元激勵的高質(zhì)量語音合成聲學模型[A];第七屆全國人機語音通訊學術(shù)會議（NCMMSC7）論文集[C];2003年

10 吳志勇;蔡蓮紅;蒙美玲;;可視語音合成中基于音視頻關(guān)聯(lián)模型的視位參數(shù)優(yōu)化[A];第八屆全國人機語音通訊學術(shù)會議論文集[C];2005年

中國重要報紙全文數(shù)據(jù)庫前10條

1 記者桂運安;中科大11項語音合成指標世界第一[N];安徽日報;2014年

2 本報記者何進偉;語音合成露崢嶸[N];網(wǎng)絡世界;2001年

3 李羚;多語種語音合成助力數(shù)字奧運[N];中國計算機報;2003年

4 清華大學計算機系人機交互與媒體集成研究所陶建華蔡蓮紅;語音合成的應用系統(tǒng)設計[N];計算機世界;2001年

5 ;嵌入式語音合成平臺[N];計算機世界;2002年

6 孫曉聞;語音合成讓機器“像人一樣說話”[N];中國勞動保障報;2005年

7 ;新型語音合成軟件面世[N];人民郵電;2008年

8 炎黃新星公司供稿;炎黃之聲SinoSonic[N];計算機世界;2002年

9 劉權(quán);語音合成融入證券客服[N];中國計算機報;2003年

10 ;語音產(chǎn)品走向開放式架構(gòu)[N];中國計算機報;2004年

中國博士學位論文全文數(shù)據(jù)庫前10條

1 高瑩瑩;面向情感語音合成的言語情感建模研究[D];北京交通大學;2016年

2 高裴裴;人眼驅(qū)動語音合成的若干關(guān)鍵技術(shù)研究[D];南開大學;2012年

3 趙暉;真實感漢語可視語音合成關(guān)鍵技術(shù)研究[D];國防科學技術(shù)大學;2010年

4 蘇莊鑾;情感語音合成[D];中國科學技術(shù)大學;2006年

5 盧恒;基于統(tǒng)計模型與發(fā)音錯誤檢測的語音合成方法研究[D];中國科學技術(shù)大學;2011年

6 雷鳴;統(tǒng)計參數(shù)語音合成中的聲學模型建模方法研究[D];中國科學技術(shù)大學;2012年

7 蔡明琦;融合發(fā)音機理的統(tǒng)計參數(shù)語音合成方法研究[D];中國科學技術(shù)大學;2015年

8 凌震華;基于統(tǒng)計聲學建模的語音合成技術(shù)研究[D];中國科學技術(shù)大學;2008年

9 楊辰雨;語音合成音庫自動標注方法研究[D];中國科學技術(shù)大學;2014年

10 尉洪;漢語基元音素獨立分量譜分析對比及語音合成研究[D];云南大學;2011年

中國碩士學位論文全文數(shù)據(jù)庫前10條

1 李冰潔;基于聲韻母的嵌入式語音合成[D];北京交通大學;2016年

2 李煥君;個性化語音合成在船舶導航系統(tǒng)中應用研究[D];大連海事大學;2016年

3 馮歡;基于HMM的歌詞到歌聲轉(zhuǎn)換的研究[D];西北師范大學;2015年

4 王海燕;漢藏雙語跨語言統(tǒng)計參數(shù)語音合成的研究[D];西北師范大學;2015年

5 孫曉輝;結(jié)合聽感度量的語音合成方法研究[D];中國科學技術(shù)大學;2016年

6 李翔凰;基于HMM-RBM的蒙古語語音合成研究[D];內(nèi)蒙古大學;2016年

7 王雨蒙;英語文語轉(zhuǎn)換系統(tǒng)中的ToBl韻律自動標注方法與實現(xiàn)[D];云南大學;2016年

8 戈永侃;改進語音合成自然度的研究[D];江南大學;2016年

9 聶軍;基于HMM可訓練的漢語語音合成系統(tǒng)[D];吉林大學;2010年

10 曾一鳴;情感語音合成的研究和系統(tǒng)實現(xiàn)[D];上海交通大學;2010年

本文編號：910498

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/wltx/910498.html

上一篇：論基于FMS框架搭建下的網(wǎng)絡直播系統(tǒng)
下一篇：基于混沌映射組播技術(shù)的無線移動自組織網(wǎng)絡路由研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于HMM的歌詞到歌聲轉(zhuǎn)換的研究