基于深度學(xué)習(xí)的歌唱語(yǔ)音合成方法研究
發(fā)布時(shí)間:2021-10-08 05:50
歌唱語(yǔ)音合成(Singing Voice Synthesis,SVS)旨在實(shí)現(xiàn)將歌詞和樂譜信息(例如節(jié)奏、音高等)轉(zhuǎn)換成歌唱語(yǔ)音。統(tǒng)計(jì)參數(shù)合成方法可利用較少量歌唱數(shù)據(jù)合成平穩(wěn)流暢的歌唱語(yǔ)音,已成為主流的歌唱語(yǔ)音合成方法。傳統(tǒng)以隱馬爾科夫模型為代表的統(tǒng)計(jì)參數(shù)歌唱語(yǔ)音合成聲學(xué)模型的精度不足,合成歌唱語(yǔ)音的自然度不理想。近年來(lái),以深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)為代表的深度學(xué)習(xí)模型在統(tǒng)計(jì)參數(shù)語(yǔ)音合成中得到了廣泛應(yīng)用,顯著提高了聲學(xué)建模精度,但是DNN無(wú)法對(duì)歌唱語(yǔ)音中聲學(xué)特征的長(zhǎng)時(shí)相關(guān)性進(jìn)行建模。因此,本文圍繞基于深度學(xué)習(xí)的歌唱語(yǔ)音合成,開展了循環(huán)神經(jīng)網(wǎng)絡(luò)、深度自回歸模型、序列到序列模型等歌唱語(yǔ)音合成聲學(xué)建模方法的研究,具體包括:首先,本文研究了基于循環(huán)神經(jīng)網(wǎng)絡(luò)的歌唱語(yǔ)音合成方法。歌唱語(yǔ)音合成中存在復(fù)雜的上下文依賴關(guān)系,該方法利用循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)對(duì)這些依賴關(guān)系進(jìn)行建模,提升了傳統(tǒng)DNN模型預(yù)測(cè)基頻、頻譜、時(shí)長(zhǎng)特征的精度。其次,本文提出了基于深度自回歸模型的歌唱語(yǔ)音合成聲學(xué)建模方法。為了更好的描述在連續(xù)幀中聲學(xué)特征之間的依賴性,該方法采用深度自回歸的方式來(lái)預(yù)測(cè)基頻軌...
【文章來(lái)源】:中國(guó)科學(xué)技術(shù)大學(xué)安徽省 211工程院校 985工程院校
【文章頁(yè)數(shù)】:64 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1.1歌唱語(yǔ)音合成系統(tǒng)框圖??如圖l.i所示的是歌唱語(yǔ)音合成系統(tǒng)框圖
?第1章緒論???賊摸屏輸入?I??^?歌詞文本???語(yǔ)言處理???韻律處理???合成?——??'"^'Sy'S-h??W?*?TI'11?*??*?1'?'rt'w?1??光電掃纖入?▲?*???"?一- ̄ ̄??敗據(jù)庫(kù)輸入?音樂規(guī)則?樂遼信患?音樂庫(kù)??圖1.1歌唱語(yǔ)音合成系統(tǒng)框圖??如圖l.i所示的是歌唱語(yǔ)音合成系統(tǒng)框圖。首先,從終端的鍵盤、觸摸屏,光??電掃描或者直接從音樂數(shù)據(jù)庫(kù)當(dāng)中獲得輸入的歌詞文本。接著,歌詞文本輸入完??畢后,要根據(jù)指定的語(yǔ)言類別和相應(yīng)的音樂規(guī)則進(jìn)行歌詞文本的分析,獲得其對(duì)應(yīng)??的音素轉(zhuǎn)寫等語(yǔ)言學(xué)表征。然后,根據(jù)給定的樂譜信息進(jìn)行韻律處理,獲得歌詞文??本對(duì)應(yīng)的音高、節(jié)奏韻律表征。最后,基于以上獲得的語(yǔ)言學(xué)表征和韻律表征,采??用統(tǒng)計(jì)參數(shù)或者單元挑選與波形拼接等方法,合成最終的歌唱語(yǔ)音波形。??歌唱語(yǔ)音合成任務(wù)可以根據(jù)輸入源的差異分為兩類:第一類任務(wù)是歌詞到歌??唱語(yǔ)音[11]?(Lyrics?To?Singing,?LTS)合成,輸入是來(lái)自一首歌的歌詞。第二類任務(wù)是??語(yǔ)音到歌唱[I2]?(Speech?To?Singing,?STS)合成,輸入是來(lái)自歌詞對(duì)應(yīng)的朗讀語(yǔ)音。??歌唱語(yǔ)音中的音高(Pitch)是通過(guò)信號(hào)中的基頻(F0)來(lái)體現(xiàn)的。區(qū)別于說(shuō)話語(yǔ)??音,歌唱語(yǔ)音的基頻軌跡還包括如下幾種類型的動(dòng)態(tài)特性:過(guò)沖(Overshoot)、預(yù)??偏離(Preparation)、顫音(Vibrato)以及細(xì)微波動(dòng)(Fine?fluctuations)[12]。過(guò)沖指音高??改變后,突然轉(zhuǎn)向目標(biāo)音高的F0波動(dòng);預(yù)偏離指在音高改變之前,迅速向可觀察??的音高相
?第1章緒論???基于上述的歌唱語(yǔ)音基頻動(dòng)態(tài)特性,可采用如圖1.?3所示的流程框架[13]來(lái)生??成歌唱語(yǔ)音的基頻軌跡。首先,利用樂譜中的音高信息生成階梯狀的音符基頻。??然后將階梯狀音符基頻通過(guò)沖(Overshoot)模型、預(yù)偏離(Preparation)模型、顫音??(Vibrato)模型。最后,再通過(guò)細(xì)微波動(dòng)(Fine?fluctuations)模型微調(diào),生成最終含有??動(dòng)態(tài)特性的基頻,比例積分微分(Proportional?Integral?Differential,?PID)方法是構(gòu)建??以上模型的經(jīng)典方法[14]。??A_j ̄|?<?麵型?一??階職音符基頻?卜顫音模型?^…寸?麵頻,??\?=—/?1??\?\?/?i??<預(yù)偏離模型?細(xì)微波動(dòng)模型??圖1.3基于動(dòng)態(tài)特性的基頻生成模型框圖??PID方法通過(guò)控制一個(gè)一級(jí)、二級(jí)轉(zhuǎn)移函數(shù)來(lái)產(chǎn)生過(guò)沖、預(yù)偏離、顫音和細(xì)??微波動(dòng)。??R(s)?????C(s)?????Gc(s)?—-??H(s)????圖1.4基于PID方法生成含有動(dòng)態(tài)特性基頻的模型框圖??圖1.4所示為基于PID方法生成含有動(dòng)態(tài)特性基頻的模型框圖。鞏〇是輸??入,是PID的一級(jí)轉(zhuǎn)移函數(shù),//(〇為二級(jí)轉(zhuǎn)移函數(shù),是輸出。PID的一??級(jí)轉(zhuǎn)移函數(shù)可以寫為:??GC(S)-^P?+ ̄l+^ds?(11)??s??其中s代表拉普拉斯變換操作,代表比例增益,心代表積分增益,代表微分??增益。P丨D的一級(jí)轉(zhuǎn)移函數(shù)可以寫為:??GAs)?=?Kp+^--+Kpts?(1.2)??T,?s??其中7:代表積分時(shí)間常數(shù),r代表微分時(shí)間常數(shù)。該方法還需要一個(gè)PI
【參考文獻(xiàn)】:
期刊論文
[1]用于語(yǔ)音合成的PSOLA算法簡(jiǎn)介[J]. 涂相華,蔡蓮紅. 微型計(jì)算機(jī). 1996 (04)
博士論文
[1]基于隱馬爾科夫模型的語(yǔ)音合成技術(shù)研究[D]. 吳義堅(jiān).中國(guó)科學(xué)技術(shù)大學(xué) 2006
本文編號(hào):3423552
【文章來(lái)源】:中國(guó)科學(xué)技術(shù)大學(xué)安徽省 211工程院校 985工程院校
【文章頁(yè)數(shù)】:64 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1.1歌唱語(yǔ)音合成系統(tǒng)框圖??如圖l.i所示的是歌唱語(yǔ)音合成系統(tǒng)框圖
?第1章緒論???賊摸屏輸入?I??^?歌詞文本???語(yǔ)言處理???韻律處理???合成?——??'"^'Sy'S-h??W?*?TI'11?*??*?1'?'rt'w?1??光電掃纖入?▲?*???"?一- ̄ ̄??敗據(jù)庫(kù)輸入?音樂規(guī)則?樂遼信患?音樂庫(kù)??圖1.1歌唱語(yǔ)音合成系統(tǒng)框圖??如圖l.i所示的是歌唱語(yǔ)音合成系統(tǒng)框圖。首先,從終端的鍵盤、觸摸屏,光??電掃描或者直接從音樂數(shù)據(jù)庫(kù)當(dāng)中獲得輸入的歌詞文本。接著,歌詞文本輸入完??畢后,要根據(jù)指定的語(yǔ)言類別和相應(yīng)的音樂規(guī)則進(jìn)行歌詞文本的分析,獲得其對(duì)應(yīng)??的音素轉(zhuǎn)寫等語(yǔ)言學(xué)表征。然后,根據(jù)給定的樂譜信息進(jìn)行韻律處理,獲得歌詞文??本對(duì)應(yīng)的音高、節(jié)奏韻律表征。最后,基于以上獲得的語(yǔ)言學(xué)表征和韻律表征,采??用統(tǒng)計(jì)參數(shù)或者單元挑選與波形拼接等方法,合成最終的歌唱語(yǔ)音波形。??歌唱語(yǔ)音合成任務(wù)可以根據(jù)輸入源的差異分為兩類:第一類任務(wù)是歌詞到歌??唱語(yǔ)音[11]?(Lyrics?To?Singing,?LTS)合成,輸入是來(lái)自一首歌的歌詞。第二類任務(wù)是??語(yǔ)音到歌唱[I2]?(Speech?To?Singing,?STS)合成,輸入是來(lái)自歌詞對(duì)應(yīng)的朗讀語(yǔ)音。??歌唱語(yǔ)音中的音高(Pitch)是通過(guò)信號(hào)中的基頻(F0)來(lái)體現(xiàn)的。區(qū)別于說(shuō)話語(yǔ)??音,歌唱語(yǔ)音的基頻軌跡還包括如下幾種類型的動(dòng)態(tài)特性:過(guò)沖(Overshoot)、預(yù)??偏離(Preparation)、顫音(Vibrato)以及細(xì)微波動(dòng)(Fine?fluctuations)[12]。過(guò)沖指音高??改變后,突然轉(zhuǎn)向目標(biāo)音高的F0波動(dòng);預(yù)偏離指在音高改變之前,迅速向可觀察??的音高相
?第1章緒論???基于上述的歌唱語(yǔ)音基頻動(dòng)態(tài)特性,可采用如圖1.?3所示的流程框架[13]來(lái)生??成歌唱語(yǔ)音的基頻軌跡。首先,利用樂譜中的音高信息生成階梯狀的音符基頻。??然后將階梯狀音符基頻通過(guò)沖(Overshoot)模型、預(yù)偏離(Preparation)模型、顫音??(Vibrato)模型。最后,再通過(guò)細(xì)微波動(dòng)(Fine?fluctuations)模型微調(diào),生成最終含有??動(dòng)態(tài)特性的基頻,比例積分微分(Proportional?Integral?Differential,?PID)方法是構(gòu)建??以上模型的經(jīng)典方法[14]。??A_j ̄|?<?麵型?一??階職音符基頻?卜顫音模型?^…寸?麵頻,??\?=—/?1??\?\?/?i??<預(yù)偏離模型?細(xì)微波動(dòng)模型??圖1.3基于動(dòng)態(tài)特性的基頻生成模型框圖??PID方法通過(guò)控制一個(gè)一級(jí)、二級(jí)轉(zhuǎn)移函數(shù)來(lái)產(chǎn)生過(guò)沖、預(yù)偏離、顫音和細(xì)??微波動(dòng)。??R(s)?????C(s)?????Gc(s)?—-??H(s)????圖1.4基于PID方法生成含有動(dòng)態(tài)特性基頻的模型框圖??圖1.4所示為基于PID方法生成含有動(dòng)態(tài)特性基頻的模型框圖。鞏〇是輸??入,是PID的一級(jí)轉(zhuǎn)移函數(shù),//(〇為二級(jí)轉(zhuǎn)移函數(shù),是輸出。PID的一??級(jí)轉(zhuǎn)移函數(shù)可以寫為:??GC(S)-^P?+ ̄l+^ds?(11)??s??其中s代表拉普拉斯變換操作,代表比例增益,心代表積分增益,代表微分??增益。P丨D的一級(jí)轉(zhuǎn)移函數(shù)可以寫為:??GAs)?=?Kp+^--+Kpts?(1.2)??T,?s??其中7:代表積分時(shí)間常數(shù),r代表微分時(shí)間常數(shù)。該方法還需要一個(gè)PI
【參考文獻(xiàn)】:
期刊論文
[1]用于語(yǔ)音合成的PSOLA算法簡(jiǎn)介[J]. 涂相華,蔡蓮紅. 微型計(jì)算機(jī). 1996 (04)
博士論文
[1]基于隱馬爾科夫模型的語(yǔ)音合成技術(shù)研究[D]. 吳義堅(jiān).中國(guó)科學(xué)技術(shù)大學(xué) 2006
本文編號(hào):3423552
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3423552.html
最近更新
教材專著