超幀特征空間下基于深度置信網(wǎng)絡(luò)的語音轉(zhuǎn)換
本文關(guān)鍵詞:超幀特征空間下基于深度置信網(wǎng)絡(luò)的語音轉(zhuǎn)換
更多相關(guān)文章: 語音轉(zhuǎn)換 深度置信網(wǎng)絡(luò) 短時(shí)譜深度特征 超幀
【摘要】:語音轉(zhuǎn)換的目的是在保持語義內(nèi)容不變的前提下,將源說話人語音的個(gè)性特征改變,轉(zhuǎn)換成具有目標(biāo)說話人個(gè)性特征的語音,使得聽起來像目標(biāo)說話人的發(fā)音。語音轉(zhuǎn)換技術(shù)的研究是語音信號處理領(lǐng)域一個(gè)比較重要的分支,它可以促進(jìn)語音合成、語音編碼等領(lǐng)域的研究,同時(shí)也有著廣泛的應(yīng)用前景。目前比較主流的語音轉(zhuǎn)換方法是基于高斯混合模型(GMM)的轉(zhuǎn)換方法,該方法雖然可以取得較好的語音轉(zhuǎn)換效果,但是由于GMM方法假設(shè)各個(gè)語音參數(shù)幀之間是統(tǒng)計(jì)獨(dú)立,忽略了語音相鄰幀之間的相關(guān)性,從而使轉(zhuǎn)換后的語音有一定的不連續(xù),其次,由于傳統(tǒng)的GMM模型在語音的參數(shù)化表達(dá)下對特征矢量進(jìn)行加權(quán)平均,必然會(huì)引起參數(shù)的過平滑。本文提出了一種超幀特征空間下基于深度置信網(wǎng)絡(luò)(DBN-Sf,Deep Belief Nets in Super-frame feature space)的語音轉(zhuǎn)換方法,它是將深度置信網(wǎng)絡(luò)構(gòu)成的深度神經(jīng)網(wǎng)絡(luò)作為回歸模型來映射源和目標(biāo)說話人頻譜參數(shù)之間的非線性關(guān)系。首先利用STRAIGHT提取說話人的基頻和短時(shí)譜參數(shù),從短時(shí)譜參數(shù)中求得對應(yīng)的LPCC參數(shù),利用動(dòng)態(tài)時(shí)間規(guī)整將源和目標(biāo)說話人的特征參數(shù)進(jìn)行對齊,通過擴(kuò)展源說話人當(dāng)前的語音幀來構(gòu)建超幀信息作為網(wǎng)絡(luò)的輸入,目標(biāo)說話人對應(yīng)的當(dāng)前幀作為網(wǎng)絡(luò)的輸出,經(jīng)訓(xùn)練得到短時(shí)譜轉(zhuǎn)換函數(shù)。實(shí)驗(yàn)結(jié)果顯示,使用該方法的轉(zhuǎn)換語音在譜失真、目標(biāo)傾向性和語音質(zhì)量等方面均優(yōu)于傳統(tǒng)的高斯混合模型方法,轉(zhuǎn)換語音的平均譜失真度相對于傳統(tǒng)的GMM方法降低了9.5%。
【關(guān)鍵詞】:語音轉(zhuǎn)換 深度置信網(wǎng)絡(luò) 短時(shí)譜深度特征 超幀
【學(xué)位授予單位】:蘇州大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TN912.3
【目錄】:
- 中文摘要4-5
- Abstract5-8
- 第一章 緒論8-12
- 1.1 語音轉(zhuǎn)換的定義8-9
- 1.2 語音轉(zhuǎn)換的研究意義及應(yīng)用9
- 1.3 課題研究現(xiàn)狀分析9-10
- 1.4 論文的主要研究內(nèi)容10-12
- 第二章 語音轉(zhuǎn)換理論基礎(chǔ)12-30
- 2.1 語音信號概述12-16
- 2.1.1 語音信號的發(fā)音原理12-13
- 2.1.2 語音個(gè)性特征13-14
- 2.1.3 語音信號產(chǎn)生的數(shù)學(xué)模型14-16
- 2.2 語音信號分析16-24
- 2.2.1 語音信號的預(yù)處理16-21
- 2.2.2 特征參數(shù)的分析與提取21-23
- 2.2.3 語譜圖分析23-24
- 2.3 語音轉(zhuǎn)換系統(tǒng)的基本原理24-25
- 2.4 STRAIGHT語音分析與合成模型25-27
- 2.5 語音轉(zhuǎn)換效果的評價(jià)方法27-30
- 2.5.1 主觀評價(jià)27-28
- 2.5.2 客觀評價(jià)28-30
- 第三章 基于高斯混合模型的語音轉(zhuǎn)換系統(tǒng)30-36
- 3.1 系統(tǒng)構(gòu)成30-31
- 3.2 語音特征參數(shù)的時(shí)間規(guī)整31-33
- 3.3 高斯混合模型33-34
- 3.3.1 高斯混合模型的基本概念33
- 3.3.2 高斯混合模型的訓(xùn)練及參數(shù)設(shè)置33-34
- 3.4 轉(zhuǎn)換函數(shù)34-36
- 第四章 基于深度置信網(wǎng)絡(luò)的語音轉(zhuǎn)換36-46
- 4.1 限制玻爾茲曼機(jī)(RBM)36-38
- 4.2 深度置信網(wǎng)絡(luò)38-39
- 4.3 基于短時(shí)譜深度特征的語音轉(zhuǎn)換39-42
- 4.3.1 系統(tǒng)構(gòu)成39-40
- 4.3.2 轉(zhuǎn)換函數(shù)40-42
- 4.4 超幀特征空間下基于深度置信網(wǎng)絡(luò)的語音轉(zhuǎn)換42-46
- 4.4.1 語音轉(zhuǎn)換系統(tǒng)構(gòu)成43-44
- 4.4.2 網(wǎng)絡(luò)的訓(xùn)練44-46
- 第五章 語音轉(zhuǎn)換實(shí)驗(yàn)及分析46-53
- 5.1 語料庫描述及參數(shù)設(shè)置46-48
- 5.2 客觀評價(jià)48-49
- 5.3 主觀評價(jià)49-50
- 5.4 語譜圖分析50-53
- 第六章 總結(jié)與展望53-55
- 6.1 總結(jié)53
- 6.2 展望53-55
- 參考文獻(xiàn)55-59
- 攻讀碩士學(xué)位期間公開發(fā)表的論文59-60
- 致謝60-61
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前5條
1 張楠;韓笑蕾;張洋;;基于MELP算法的超幀結(jié)構(gòu)狀態(tài)統(tǒng)計(jì)及改進(jìn)算法研究[J];電腦知識與技術(shù);2012年16期
2 姚鋼;;基于IEEE802.15.4B規(guī)范超幀機(jī)制下的230MHz無線專網(wǎng)系統(tǒng)改造方案[J];數(shù)字技術(shù)與應(yīng)用;2011年02期
3 范書瑞;趙燕飛;孫鶴旭;;基于網(wǎng)絡(luò)演算的LR-WPANs端到端延遲界限[J];江南大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年04期
4 王平;劉其琛;王恒;李同波;;一種適用于ISA100.11a工業(yè)無線網(wǎng)絡(luò)的通信調(diào)度方法[J];儀器儀表學(xué)報(bào);2011年05期
5 ;[J];;年期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前1條
1 陳進(jìn)武;;淺談PHS網(wǎng)絡(luò)的尋呼區(qū)劃分[A];2007中國科協(xié)年會(huì)——通信與信息發(fā)展高層論壇論文集[C];2007年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前3條
1 葉偉;超幀特征空間下基于深度置信網(wǎng)絡(luò)的語音轉(zhuǎn)換[D];蘇州大學(xué);2016年
2 黨魁;WirelessHART網(wǎng)絡(luò)調(diào)度及管理方案的研究[D];浙江大學(xué);2012年
3 陳善濤;基于ZigBee的移動(dòng)目標(biāo)追蹤系統(tǒng)QoS改進(jìn)[D];浙江大學(xué);2011年
,本文編號:1124249
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/1124249.html