短時(shí)頻譜通用背景模型群聯(lián)合韻律的年齡語音轉(zhuǎn)換
發(fā)布時(shí)間:2018-01-11 21:09
本文關(guān)鍵詞:短時(shí)頻譜通用背景模型群聯(lián)合韻律的年齡語音轉(zhuǎn)換 出處:《聲學(xué)學(xué)報(bào)》2017年06期 論文類型:期刊論文
更多相關(guān)文章: 背景模型 語音 時(shí)頻譜 通用 共振峰頻率 參數(shù)轉(zhuǎn)換 高斯混合模型 基頻 模型法 正韻律
【摘要】:提出一種短時(shí)頻譜通用背景模型群與韻律參數(shù)相結(jié)合進(jìn)行年齡語音轉(zhuǎn)換的方法。譜參數(shù)轉(zhuǎn)換方面,同一年齡段各說話者提取語音短時(shí)譜系數(shù)并建立高斯混合模型,然后依據(jù)語音特征相似性對說話者進(jìn)行聚類,每一類訓(xùn)練一個(gè)通用背景模型,最終得到通用背景模型群和一組短時(shí)頻譜轉(zhuǎn)換函數(shù)。譜參數(shù)轉(zhuǎn)換之后再對共振峰進(jìn)一步微調(diào)。韻律參數(shù)轉(zhuǎn)換方面,基頻和語速分別建立單高斯和平均時(shí)長率模型來推導(dǎo)轉(zhuǎn)換函數(shù)。實(shí)驗(yàn)結(jié)果顯示,提出的方法在ABX和MOS等評價(jià)指標(biāo)上比傳統(tǒng)的雙線性法有明顯的優(yōu)勢,相對單一通用背景模型法的對數(shù)似然度變化率提高了4%。這一結(jié)果表明提出的方法能夠使轉(zhuǎn)換語音具有良好目標(biāo)傾向性的同時(shí)有較好的語音質(zhì)量,性能較傳統(tǒng)方法有明顯提升。
[Abstract]:This paper presents a method of age speech conversion based on the combination of general background model group and prosodic parameters in short time spectrum. The speakers of the same age group extract the short-time spectral coefficients of speech and establish Gaussian mixture model, then cluster the speakers according to the similarity of speech features, and train a general background model for each class. Finally, the general background model group and a set of short-time spectrum conversion functions are obtained. After spectral parameter conversion, the resonance peak is further fine-tuned. The fundamental frequency model and the average time rate model are established to derive the conversion function. The experimental results show that the proposed method has obvious advantages over the traditional bilinear method in ABX and MOS. Compared with the single general background model, the logarithmic likelihood change rate of the proposed method is increased by 4. The results show that the proposed method can make the conversion speech with good target orientation and good speech quality. The performance is obviously improved compared with the traditional method.
【作者單位】: 蘇州大學(xué)電子信息學(xué)院;
【基金】:國家自然科學(xué)基金項(xiàng)目(61271360)資助
【分類號】:TN912.3
【正文快照】: 引言年齡語音轉(zhuǎn)換作為具有表現(xiàn)力的語音合成技術(shù)之一,是指在保持文本信息不變的情況下,改變語音中說話者的年齡信息,將具有源年齡段特征的語音轉(zhuǎn)換為具有目標(biāo)年齡段特征的語音。年齡語音轉(zhuǎn)換一般都要求是非特定人的,即轉(zhuǎn)換模型適用于某個(gè)年齡段的所有說話者,而非某個(gè)特定說話
【相似文獻(xiàn)】
相關(guān)期刊論文 前3條
1 杜立新;吳剛;;遼寧省全時(shí)頻譜監(jiān)測站建設(shè)探索——面向全時(shí)監(jiān)測的大數(shù)據(jù)挖掘[J];中國無線電;2014年03期
2 杜立新;吳剛;;遼寧省全時(shí)頻譜監(jiān)測站建設(shè)探索[J];中國無線電;2014年02期
3 吳韜;王健;嚴(yán)俊;;一種基于FFT IPcore的實(shí)時(shí)頻譜處理方案[J];航空電子技術(shù);2013年03期
相關(guān)碩士學(xué)位論文 前2條
1 吳爾杰;監(jiān)控視頻中多目標(biāo)檢測與跟蹤研究[D];合肥工業(yè)大學(xué);2015年
2 陳亮;視頻監(jiān)控中運(yùn)動(dòng)目標(biāo)的檢測與跟蹤[D];中國計(jì)量學(xué)院;2015年
,本文編號:1411218
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/1411218.html
最近更新
教材專著