天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 文藝論文 > 漢語言論文 >

端到端閩南語合成系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時間:2021-08-28 04:54
  為了更好地研究語音合成在閩南語上的應(yīng)用,建立了閩南語數(shù)據(jù)庫,并驗(yàn)證了Tacotron2為有效的語音合成模型.數(shù)據(jù)庫方面,建立起地方特色的閩南語詞庫和音素體系;模型框架方面,在Tacotron和Tacotron2以及結(jié)合了兩者不同模塊的融合框架上進(jìn)行實(shí)驗(yàn)對比.在廈門大學(xué)自主采集的廈門口音閩南語數(shù)據(jù)集的基礎(chǔ)上,使用閩南語識別模型對語音數(shù)據(jù)進(jìn)行解碼得到對應(yīng)的帶有標(biāo)點(diǎn)符號的音素序列,通過專業(yè)定制的詞典建立音素標(biāo)注體系,進(jìn)行多組實(shí)驗(yàn),比較采樣率、建模方式和模型結(jié)構(gòu)對合成音質(zhì)以及穩(wěn)定性的影響,通過梅爾譜和編碼解碼對齊圖等評測標(biāo)準(zhǔn),得到了三者的最佳搭配方案. 

【文章來源】:廈門大學(xué)學(xué)報(bào)(自然科學(xué)版). 2020,59(06)北大核心CSCD

【文章頁數(shù)】:7 頁

【部分圖文】:

端到端閩南語合成系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)


融合框架結(jié)構(gòu)

注意力,機(jī)制,位置,解碼器


解碼器采用Tacotron2中加入了位置信息的位置敏感注意力機(jī)制的解碼器(圖2).位置敏感注意力機(jī)制對基于內(nèi)容的注意力機(jī)制進(jìn)行了擴(kuò)展,能量計(jì)算公式為[12]:其中:si為第i時刻解碼器循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的隱狀態(tài);hj為第j個編碼器輸出;b為偏置值,初始為0;va、W、V、U表示不同網(wǎng)絡(luò)層的權(quán)重矩陣;fij為位置特征,由i時刻前的所有時刻的注意力權(quán)重αj累加并求卷積后得到,即

框架圖,框架,音素,文本特征


框架對比實(shí)驗(yàn)分別采用Tacotron框架、融合框架和Tacotron2框架.采用字符嵌入的建模方式時,Tacotron框架沒有很好地學(xué)習(xí)到編碼解碼對齊信息和生成有效的梅爾譜;融合框架和Tacotron2框架對應(yīng)的編碼解碼對齊圖和梅爾譜如圖3所示.同樣使用字符嵌入時,從編碼解碼對齊圖的曲線連貫性上可以看出Tacotron2框架在連續(xù)性和穩(wěn)定性上優(yōu)于融合框架,曲線的像素點(diǎn)也表明對齊準(zhǔn)確率優(yōu)于融合框架;從梅爾譜中可以看出Tacotron2框架合成的語音在能量強(qiáng)度上明顯優(yōu)于融合框架.由此可看出Tacotron框架之所以效果不佳是因?yàn)槭褂玫幕趦?nèi)容的注意力機(jī)制魯棒性不佳,不能很好地處理部分訓(xùn)練數(shù)據(jù)標(biāo)注存在不準(zhǔn)確的問題,所以沒有很好地學(xué)習(xí)到編碼解碼對齊信息;Tacotron2框架之所以比Tacotron框架效果更佳,也不僅僅是對注意力機(jī)制進(jìn)行了升級和加入了停止令牌模塊,它在編碼器和解碼器的結(jié)構(gòu)上進(jìn)行的調(diào)整也給模型帶來了更佳的學(xué)習(xí)和表達(dá)能力.嵌入方式的對比實(shí)驗(yàn)中,在Tacotron2框架下采用不同的嵌入方式進(jìn)行建模,實(shí)驗(yàn)結(jié)果如圖4所示.可以看出:使用音素嵌入方式在發(fā)音穩(wěn)定性和連續(xù)性上不如字符嵌入,但其曲線的像素點(diǎn)表明其對齊準(zhǔn)確率要優(yōu)于字符嵌入;而不同嵌入方式生成的梅爾譜在能量強(qiáng)度方面相差不大.出現(xiàn)這種現(xiàn)象的原因主要是因?yàn)槎说蕉说恼Z音合成是不等長的序列到序列的建模過程,而文本特征相比聲學(xué)特征在序列長度上相差更大,增大文本特征序列有助于模型更好地學(xué)習(xí)到對齊信息.以字符嵌入方式建模,可以擴(kuò)大文本特征序列,并且根據(jù)音素組成和發(fā)音時長動態(tài)地提取不同長度的文本特征序列;音素嵌入方式則是一種靜態(tài)的文本特征提取方式,序列長度不會隨著音素組成和發(fā)音時長而發(fā)生改變.因?yàn)橐羲厍度雽σ羲匕l(fā)音時長信息的表征不如字符嵌入魯棒,所以在發(fā)音的穩(wěn)定性和連續(xù)性上音素嵌入不如字符嵌入.但是由于音素嵌入對音素整體性的表征更佳,故在對齊準(zhǔn)確率上稍優(yōu)于字符嵌入.


本文編號:3367836

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/wenyilunwen/hanyulw/3367836.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶1bdff***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com