一種基于特征融合的耳語音向正常音的轉(zhuǎn)換方法
發(fā)布時間:2021-10-22 20:05
使用耳語音的頻譜包絡(luò)來預(yù)估正常音的基頻特征,這類算法在對正常音基頻預(yù)測的準(zhǔn)確性上存在一定不足,在合成語音自然度方面存在著明顯欠缺,有時會出現(xiàn)音調(diào)失常等問題。本文提出一種聲學(xué)特征融合的方法,通過雙向長短期記憶(Bi-long short-term memory,BLSTM)深度網(wǎng)絡(luò)來逐幀預(yù)測正常音基頻。首先,使用STRAIGHT模型和相關(guān)代碼,分別對耳語音和正常音語料進(jìn)行預(yù)處理,提取耳語音的梅爾倒譜系數(shù)(Mel-scale frequency cepstral coefficient,MFCC)、韻律及譜包絡(luò)特征,正常音的基頻與譜包絡(luò)特征。然后使用BLSTM深度網(wǎng)絡(luò),分別建立耳語音和正常音譜包絡(luò)特征之間映射關(guān)系,以及耳語音MFCC、韻律及譜包絡(luò)特征對正常音基頻F0的映射關(guān)系。最后根據(jù)耳語音的MFCC、韻律及譜包絡(luò)特征獲得對應(yīng)的正常音基頻和譜包絡(luò),使用STRAIGHT模型合成正常音。實驗結(jié)果表明,相較于僅使用譜包絡(luò)估計基頻,采用此種方法引入語音韻律和MFCC的融合特征是對基頻特征的良好補充,解決了音調(diào)失常的現(xiàn)象,轉(zhuǎn)換后的語音在韻律上更加接近正常發(fā)音。
【文章來源】:南京航空航天大學(xué)學(xué)報. 2020,52(05)北大核心CSCD
【文章頁數(shù)】:6 頁
【部分圖文】:
Bi?RNN結(jié)構(gòu)圖
LSTM記憶塊
MFCC參數(shù)提取過程
【參考文獻(xiàn)】:
期刊論文
[1]采用低維特征映射的耳語音向正常音轉(zhuǎn)換[J]. 周健,竇云峰,劉榮敏,王華彬,陶亮. 聲學(xué)學(xué)報. 2018(05)
[2]采用STRAIGHT模型和深度信念網(wǎng)絡(luò)的語音轉(zhuǎn)換方法[J]. 王民,蘇利博,王稚慧,要趁紅. 計算機工程與科學(xué). 2016(09)
[3]基于韻律特征參數(shù)的情感語音合成算法研究[J]. 何凌,黃華,劉肖珩. 計算機工程與設(shè)計. 2013(07)
[4]耳語音聲調(diào)特征的研究[J]. 沙丹青,栗學(xué)麗,徐柏齡. 電聲技術(shù). 2003(11)
碩士論文
[1]語音可懂度客觀評價策略的研究[D]. 彭曉騰.內(nèi)蒙古大學(xué) 2016
[2]語音信號韻律特征提取及其應(yīng)用研究[D]. 劉翠.五邑大學(xué) 2014
本文編號:3451766
【文章來源】:南京航空航天大學(xué)學(xué)報. 2020,52(05)北大核心CSCD
【文章頁數(shù)】:6 頁
【部分圖文】:
Bi?RNN結(jié)構(gòu)圖
LSTM記憶塊
MFCC參數(shù)提取過程
【參考文獻(xiàn)】:
期刊論文
[1]采用低維特征映射的耳語音向正常音轉(zhuǎn)換[J]. 周健,竇云峰,劉榮敏,王華彬,陶亮. 聲學(xué)學(xué)報. 2018(05)
[2]采用STRAIGHT模型和深度信念網(wǎng)絡(luò)的語音轉(zhuǎn)換方法[J]. 王民,蘇利博,王稚慧,要趁紅. 計算機工程與科學(xué). 2016(09)
[3]基于韻律特征參數(shù)的情感語音合成算法研究[J]. 何凌,黃華,劉肖珩. 計算機工程與設(shè)計. 2013(07)
[4]耳語音聲調(diào)特征的研究[J]. 沙丹青,栗學(xué)麗,徐柏齡. 電聲技術(shù). 2003(11)
碩士論文
[1]語音可懂度客觀評價策略的研究[D]. 彭曉騰.內(nèi)蒙古大學(xué) 2016
[2]語音信號韻律特征提取及其應(yīng)用研究[D]. 劉翠.五邑大學(xué) 2014
本文編號:3451766
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/3451766.html
最近更新
教材專著