特定目標(biāo)說話人的語音轉(zhuǎn)換系統(tǒng)設(shè)計
本文關(guān)鍵詞:特定目標(biāo)說話人的語音轉(zhuǎn)換系統(tǒng)設(shè)計,,由筆耕文化傳播整理發(fā)布。
【摘要】:語音轉(zhuǎn)換是保存某一個說話人(源說話人)的內(nèi)容不變,同時把說話特征向指定的一個說話人(目標(biāo)說話人)進(jìn)行轉(zhuǎn)換。而對于語音的轉(zhuǎn)換在許多方面已經(jīng)有相應(yīng)的應(yīng)用,因而對語音的轉(zhuǎn)換效果的要求也是越來越高。在語音轉(zhuǎn)換中效果較好的方法有高斯混合模型(Gaussian Mixture Model,GMM)。雖然該方法比其它方法效果更好,但是該方法的效果還達(dá)不到另人滿意的程度。因此,對現(xiàn)有的語音轉(zhuǎn)換方法的效果進(jìn)行改進(jìn)顯得尤為重要。本文主要任務(wù)是改善轉(zhuǎn)換語音的質(zhì)量與目標(biāo)傾向性,在討論和研究該基本算法的基礎(chǔ)上,對語音轉(zhuǎn)換中的訓(xùn)練部分與轉(zhuǎn)換部分進(jìn)行了相應(yīng)的改進(jìn)。具體的工作與創(chuàng)新如下:1.本文對發(fā)聲的聲道模型、各種語音轉(zhuǎn)換技術(shù)、GMM、基頻轉(zhuǎn)換、特征提取和評價方法等方面進(jìn)行了研究。在此基礎(chǔ)上實現(xiàn)了基于GMM的語音轉(zhuǎn)換系統(tǒng)。同時,在該語音轉(zhuǎn)換上提出了對時間對齊部分的兩點改進(jìn)。這兩點改進(jìn)是語音首尾有聲端點檢測與改進(jìn)的動態(tài)時間規(guī)劃(Improved Dynamic Time Warping,IDTW)。最終實驗結(jié)果表明,該基于GMM的語音轉(zhuǎn)換系統(tǒng)可以把源語音的特征向目標(biāo)語音的特征進(jìn)行轉(zhuǎn)換。2.傳統(tǒng)方法的轉(zhuǎn)換部分都是逐幀進(jìn)行轉(zhuǎn)換的,這種方法很容易導(dǎo)致相鄰幀之間的信息缺失。針對信息缺失的問題,文中加入相鄰特征(Adjacent Feature,AF)的改進(jìn)。最終增加了相鄰幀之間的關(guān)聯(lián)性并提高了轉(zhuǎn)換語音的自然度。3.語音是時變且非平穩(wěn)的,傳統(tǒng)的語音轉(zhuǎn)換的準(zhǔn)確性較差。針對特征參數(shù)轉(zhuǎn)換準(zhǔn)確性問題,本文在對所有數(shù)據(jù)先使用K-means進(jìn)行聚類后再對每個分類里的數(shù)據(jù)分別進(jìn)行訓(xùn)練與轉(zhuǎn)換。該算法的改進(jìn)使特征的轉(zhuǎn)換更有針對性并得到了傾向性更好的轉(zhuǎn)換語音。4.為了使轉(zhuǎn)換語音的自然度與目標(biāo)傾向性同時得到提升,文章在原語音轉(zhuǎn)換方法上同時使用相鄰特征與聚類進(jìn)行改進(jìn)。這種結(jié)合的方法同時繼承了兩種改進(jìn)方法的優(yōu)點并最終使轉(zhuǎn)換語音的自然度與目標(biāo)傾向性同時得到了提升。
【關(guān)鍵詞】:語音轉(zhuǎn)換 GMM AF K-means
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TN912.3
【目錄】:
- 摘要5-6
- abstract6-11
- 第一章 緒論11-16
- 1.1 語音轉(zhuǎn)換的基本概念11-12
- 1.2 語音轉(zhuǎn)換的發(fā)展現(xiàn)狀12-13
- 1.3 語音轉(zhuǎn)換的研究意義13-14
- 1.4 研究內(nèi)容及結(jié)構(gòu)安排14-16
- 第二章 語音轉(zhuǎn)換的基本原理16-26
- 2.1 語音的基礎(chǔ)知識16-17
- 2.1.1 發(fā)聲原理16-17
- 2.1.2 語音信號模型17
- 2.1.3 語音信號中說話人的特征17
- 2.2 語音轉(zhuǎn)換系統(tǒng)基礎(chǔ)知識17-20
- 2.2.1 語音庫17-18
- 2.2.2 語音特征參數(shù)18
- 2.2.3 轉(zhuǎn)換函數(shù)18
- 2.2.4 時間對齊18-20
- 2.3 特征參數(shù)轉(zhuǎn)換20-24
- 2.3.1 聲道譜參數(shù)轉(zhuǎn)換20-23
- 2.3.2 基頻轉(zhuǎn)換的方法23-24
- 2.4 語音轉(zhuǎn)換的評價方法24-25
- 2.4.1 客觀評價方法24-25
- 2.4.2 主觀評價方法25
- 2.5 本章小結(jié)25-26
- 第三章 基于GMM的語音轉(zhuǎn)換26-43
- 3.1 特征參數(shù)提取26-30
- 3.2 基于GMM的語音轉(zhuǎn)換原理30-32
- 3.2.1 GMM原理30
- 3.2.2 語音訓(xùn)練30-31
- 3.2.3 語音轉(zhuǎn)換31-32
- 3.3 系統(tǒng)框圖32-33
- 3.4 時間對齊的改進(jìn)33-38
- 3.4.1 語音首尾端點檢測34-35
- 3.4.2 改進(jìn)DTW35-38
- 3.5 實驗與結(jié)果分析38-41
- 3.5.1 主觀評價38-39
- 3.5.2 客觀評價39-41
- 3.6 本章小結(jié)41-43
- 第四章 使用相鄰特征的GMM語音轉(zhuǎn)換方法43-54
- 4.1 使用相鄰特征的基本思想43
- 4.2 系統(tǒng)框圖43-44
- 4.3 算法改進(jìn)44-48
- 4.3.1 加入相鄰特征44-45
- 4.3.2 訓(xùn)練部分的改進(jìn)45-48
- 4.4 算法描述48-49
- 4.5 實驗與結(jié)果分析49-53
- 4.5.1 主觀評價49-51
- 4.5.2 客觀評價51-53
- 4.6 本章小結(jié)53-54
- 第五章 基于聚類的GMM語音轉(zhuǎn)換方法54-65
- 5.1 K-means原理54-55
- 5.2 引入K-means的基本思想55
- 5.3 系統(tǒng)框圖55-56
- 5.4 算法改進(jìn)56-57
- 5.5 算法描述57-58
- 5.6 實驗與仿真58-60
- 5.6.1 主觀評價58-60
- 5.6.2 客觀評價60
- 5.7 GMM+K-means+AF語音轉(zhuǎn)換方法60-64
- 5.7.1 基本思想60-61
- 5.7.2 系統(tǒng)框圖61-62
- 5.7.3 算法描述62-63
- 5.7.4 實驗結(jié)果與分析63-64
- 5.8 本章小結(jié)64-65
- 第六章 總結(jié)與展望65-67
- 6.1 總結(jié)65
- 6.2 展望65-67
- 致謝67-68
- 參考文獻(xiàn)68-73
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 丁輝;唐振民;錢博;李燕萍;;易擴(kuò)展小樣本環(huán)境說話人辨認(rèn)系統(tǒng)的研究[J];系統(tǒng)仿真學(xué)報;2008年10期
2 劉明輝;黃中偉;熊繼平;;用于說話人辨識的評分規(guī)整[J];計算機(jī)工程與應(yīng)用;2010年12期
3 陳雪芳;楊繼臣;;一種三層判決的說話人索引算法[J];計算機(jī)工程;2012年02期
4 楊繼臣;何俊;李艷雄;;一種基于性別的說話人索引算法[J];計算機(jī)工程與科學(xué);2012年06期
5 何致遠(yuǎn),胡起秀,徐光yP;兩級決策的開集說話人辨認(rèn)方法[J];清華大學(xué)學(xué)報(自然科學(xué)版);2003年04期
6 殷啟新,韓春光,楊鑒;基于掌上電腦錄音的說話人辨認(rèn)[J];云南民族學(xué)院學(xué)報(自然科學(xué)版);2003年04期
7 呂聲,尹俊勛;同語種說話人轉(zhuǎn)換的實現(xiàn)[J];移動通信;2004年S3期
8 董明,劉加,劉潤生;快速口音自適應(yīng)的動態(tài)說話人選擇性訓(xùn)練[J];清華大學(xué)學(xué)報(自然科學(xué)版);2005年07期
9 曹敏;王浩川;;說話人自動識別技術(shù)研究[J];中州大學(xué)學(xué)報;2007年02期
10 王堅;;基于支撐向量選擇的說話人自適應(yīng)[J];中國新通信;2007年11期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 司羅;胡起秀;金琴;;完全無監(jiān)督的雙人對話中的說話人分隔[A];第九屆全國信號處理學(xué)術(shù)年會(CCSP-99)論文集[C];1999年
2 金乃高;侯剛;王學(xué)輝;李非墨;;基于主動感知的音視頻聯(lián)合說話人跟蹤方法[A];2010年通信理論與信號處理學(xué)術(shù)年會論文集[C];2010年
3 馬勇;鮑長春;夏丙寅;;基于辨別性深度信念網(wǎng)絡(luò)的說話人分割[A];第十二屆全國人機(jī)語音通訊學(xué)術(shù)會議(NCMMSC'2013)論文集[C];2013年
4 白俊梅;張樹武;徐波;;廣播電視中的目標(biāo)說話人跟蹤技術(shù)[A];第八屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集[C];2005年
5 索宏彬;劉曉星;;基于高斯混合模型的說話人跟蹤系統(tǒng)[A];第八屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集[C];2005年
6 羅海風(fēng);龍長才;;多話者環(huán)境下說話人辨識聽覺線索研究[A];中國聲學(xué)學(xué)會2009年青年學(xué)術(shù)會議[CYCA’09]論文集[C];2009年
7 王剛;鄔曉鈞;鄭方;王琳琳;張陳昊;;基于參考說話人模型和雙層結(jié)構(gòu)的說話人辨認(rèn)快速算法[A];第十一屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集(一)[C];2011年
8 李經(jīng)偉;;語體轉(zhuǎn)換與角色定位[A];全國語言與符號學(xué)研究會第五屆研討會論文摘要集[C];2002年
9 王剛;鄔曉鈞;鄭方;王琳琳;張陳昊;;基于參考說話人模型和雙層結(jié)構(gòu)的說話人辨認(rèn)[A];第十一屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集(二)[C];2011年
10 何磊;方棣棠;吳文虎;;說話人聚類與模型自適應(yīng)結(jié)合的說話人自適應(yīng)方法[A];第六屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集[C];2001年
中國重要報紙全文數(shù)據(jù)庫 前3條
1 ;做一名積極的傾聽者[N];中國紡織報;2003年
2 唐志強(qiáng);不聽別人說話,也能模仿其口音[N];新華每日電訊;2010年
3 黃惠慧(南京師范大學(xué)附屬揚子中學(xué));高考聽力要求及對策[N];中國教育資訊報;2002年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 李洪儒;語句中的說話人形象[D];黑龍江大學(xué);2003年
2 李威;多人會話語音中的說話人角色分析[D];華南理工大學(xué);2015年
3 楊繼臣;說話人信息分析及其在多媒體檢索中的應(yīng)用研究[D];華南理工大學(xué);2010年
4 鄭建煒;基于核方法的說話人辨認(rèn)模型研究[D];浙江工業(yè)大學(xué);2010年
5 呂聲;說話人轉(zhuǎn)換方法的研究[D];華南理工大學(xué);2004年
6 陳凌輝;說話人轉(zhuǎn)換建模方法研究[D];中國科學(xué)技術(shù)大學(xué);2013年
7 玄成君;基于語音頻率特性抑制音素影響的說話人特征提取[D];天津大學(xué);2014年
8 李燕萍;說話人辨認(rèn)中的特征參數(shù)提取和魯棒性技術(shù)研究[D];南京理工大學(xué);2009年
9 徐利敏;說話人辨認(rèn)中的特征變換和魯棒性技術(shù)研究[D];南京理工大學(xué);2008年
10 王堅;語音識別中的說話人自適應(yīng)研究[D];北京郵電大學(xué);2007年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 楊浩;基于廣義音素的文本無關(guān)說話人認(rèn)證的研究[D];北京郵電大學(xué);2008年
2 史夢潔;構(gòu)式“沒有比X更Y的(了)”研究[D];上海師范大學(xué);2015年
3 魏君;“說你什么好”的多角度研究[D];河北大學(xué);2015年
4 解冬悅;互動韻律:英語多人沖突性話語中說話人的首音模式研究[D];大連外國語大學(xué);2015年
5 朱韋巍;揚州街上話語氣詞研究[D];南京林業(yè)大學(xué);2015年
6 蔣博;特定目標(biāo)說話人的語音轉(zhuǎn)換系統(tǒng)設(shè)計[D];電子科技大學(xué);2015年
7 陸亮;多信道條件下的說話人認(rèn)證[D];北京郵電大學(xué);2010年
8 凌錦雯;基于多特征的說話人分割與聚類的研究[D];中國科學(xué)技術(shù)大學(xué);2011年
9 張志華;說話人自適應(yīng)技術(shù)研究及其在電話信道下的關(guān)鍵詞檢出系統(tǒng)應(yīng)用[D];中國人民解放軍信息工程大學(xué);2005年
10 楊e
本文編號:490770
本文鏈接:http://sikaile.net/kejilunwen/wltx/490770.html