當(dāng)前位置：主頁 > 科技論文 > 網(wǎng)絡(luò)通信論文 >

耳語音轉(zhuǎn)換正常語音及耳語音識別建模方法研究

發(fā)布時(shí)間：2017-04-21 16:41

本文關(guān)鍵詞：耳語音轉(zhuǎn)換正常語音及耳語音識別建模方法研究，，由筆耕文化傳播整理發(fā)布。

【摘要】：耳語音是一種有別于正常語音的常見發(fā)音方式,廣泛地應(yīng)用于人們的日常交流當(dāng)中。由于發(fā)音器官進(jìn)行耳語音發(fā)聲時(shí),聲帶沒有振動,導(dǎo)致耳語音的濁音部分沒有基頻,并導(dǎo)致耳語音的頻譜結(jié)構(gòu)與正常語音存在很大不同。這一發(fā)音特點(diǎn)不僅導(dǎo)致耳語音的能量較低,而且也使得其自然度和可懂度比同樣條件下的正常語音低。本文主要針對耳語音轉(zhuǎn)換正常語音及耳語音識別的建模方法進(jìn)行研究。耳語音轉(zhuǎn)換正常語音的目的將一個(gè)人的耳語音通過某種方式轉(zhuǎn)換成正常語音,以提高耳語音的自然度和可懂度。在公共場所,人們出于隱私或者避免打擾他人的考慮,在語音通話時(shí)通常會采用耳語音。但是現(xiàn)有的通信系統(tǒng)都是針對正常語音發(fā)展而來,對耳語音支持度不高。耳語音轉(zhuǎn)換技術(shù)有望可以提高耳語音通話的可懂度和自然度。此外,耳語音轉(zhuǎn)換也可以應(yīng)用在失音患者的輔助發(fā)音當(dāng)中。本文先后進(jìn)行了基于規(guī)則和基于統(tǒng)計(jì)的耳語音轉(zhuǎn)換研究�；谝�(guī)則的轉(zhuǎn)換模型具有高效快速、不需要訓(xùn)練數(shù)據(jù)等優(yōu)點(diǎn),而基于統(tǒng)計(jì)的轉(zhuǎn)換模型需要訓(xùn)練數(shù)據(jù),實(shí)時(shí)性也稍遜一籌,但是其轉(zhuǎn)換音質(zhì)較高,因此都具有研究價(jià)值。已有的基于碼激勵(lì)線性預(yù)測編碼器(Code exited linear prediction, CELP)的耳語音轉(zhuǎn)換模型不僅頻譜轉(zhuǎn)換規(guī)則復(fù)雜,需要對耳語音音素進(jìn)行預(yù)分類,而且又存在基頻生成規(guī)則過于簡單的問題,使得其轉(zhuǎn)換語音音質(zhì)不佳,而且難以應(yīng)用在連續(xù)耳語音的轉(zhuǎn)換任務(wù)當(dāng)中。為此,本文提出了基于正弦語音(Sinewave speech, SWS)合成的耳語音轉(zhuǎn)換模型。這種模型不僅更加簡潔,去掉了耳語音預(yù)處理模塊,加入了根據(jù)共振峰估計(jì)基頻的模塊,而且可以作用于連續(xù)耳語音的轉(zhuǎn)換,并使得轉(zhuǎn)換語音的音質(zhì)有了一定的改善。在基于統(tǒng)計(jì)的耳語音轉(zhuǎn)換模型研究中,本文針對傳統(tǒng)基于高斯混合模型(Gaussian mixture model, GMM)的耳語音頻譜轉(zhuǎn)換模型難以對維間相關(guān)性和高維譜包絡(luò)建模的不足,提出將受限玻爾茲曼機(jī)(restricted Boltzmann machine, RBM)應(yīng)用于耳語音頻譜轉(zhuǎn)換建模。由于RBM不僅支持高維的譜包絡(luò)輸入,而且對維間相關(guān)性具有較強(qiáng)的建模的能力,使得該模型的轉(zhuǎn)換語音相對GMM模型的轉(zhuǎn)換語音有了明顯的主觀聽感提升。此外,本文還嘗試了將深層神經(jīng)網(wǎng)絡(luò)(Deep neural network, DNN)用于耳語音頻譜轉(zhuǎn)換的建模當(dāng)中。采用標(biāo)準(zhǔn)的RBM逐層預(yù)訓(xùn)練和最小均方誤差準(zhǔn)則(Minimum mean square error, MMSE)有監(jiān)督訓(xùn)練得到的DNN,在訓(xùn)練數(shù)據(jù)較少的情況下容易出現(xiàn)過擬合現(xiàn)象,且網(wǎng)絡(luò)訓(xùn)練容易受奇異數(shù)據(jù)影響。為此,本文提出了一種半監(jiān)督(Semi-supervised)耳語音轉(zhuǎn)換DNN訓(xùn)練流程。在該流程中,各采用一個(gè)RBM分別對耳語音和并行的正常語音譜包絡(luò)參數(shù)空間建模,并通過訓(xùn)練得到的模型計(jì)算RBM隱層數(shù)據(jù),這相當(dāng)于對譜包絡(luò)參數(shù)進(jìn)行二值編碼。然后,用MMSE準(zhǔn)則訓(xùn)練DNN中間網(wǎng)絡(luò),建立耳語音譜包絡(luò)二值編碼到正常語音譜包絡(luò)二值編碼的映射關(guān)系。最后,將兩兩端的RBM和DNN中間網(wǎng)絡(luò)組合成完整的DNN,完成耳語音譜包絡(luò)參數(shù)到正常語音譜包絡(luò)參數(shù)的轉(zhuǎn)換。主觀聽感實(shí)驗(yàn)表明,這種半監(jiān)督DNN不僅相對標(biāo)準(zhǔn)DNN有了明顯的聽感提升,而且相對RBM模型也有了一定的主觀聽感改善。最后,本文在DNN-HMM混合模型框架下對耳語音識別的聲學(xué)模型建模方法進(jìn)行了研究。由于耳語音的頻譜比較平緩,不同音素之間的聲學(xué)特征區(qū)分性比較小,使得傳統(tǒng)的GMM-HMM聲學(xué)模型在耳語音識別任務(wù)上識別率不佳。DNN不僅支持高維的上下文聲學(xué)特征輸入,而且逐層特征提取的結(jié)構(gòu)也更利于建立頻譜特征到HMM狀態(tài)的深層映射關(guān)系,相對傳統(tǒng)的GMM-HMM更加適合對耳語音進(jìn)行建模。同時(shí),為了解決耳語音數(shù)據(jù)資源不足難以進(jìn)一步提高DNN聲學(xué)模型性能的難題,本文提出了一種基于知識傳遞(Knowledge transfer, KT)的耳語音DNN訓(xùn)練流程,可以將海量的正常語音數(shù)據(jù)和模型資源用于耳語音DNN的訓(xùn)練,大幅提升了耳語音的識別率。此外,由于耳語音中說話人信息收到損失,用于正常語音說話人DNN自適應(yīng)方法在耳語音說話人自適應(yīng)中面臨很大的不確定性。本文分別進(jìn)行了基于DNN特征域和模型域的耳語音說話人自適應(yīng)驗(yàn)證實(shí)驗(yàn),發(fā)現(xiàn)可以通過DNN有監(jiān)督訓(xùn)練的方法從耳語音提取到有效的說話人信息,并且如果將該信息通過全連接矩陣輸入到DNN的隱層和輸出層,得到的說話人自適應(yīng)模型在僅需要少量注冊數(shù)據(jù)的情況下,就可以相對說話人無關(guān)模型取得一定的識別率提升。
【關(guān)鍵詞】：耳語音 耳語音轉(zhuǎn)換 耳語音識別 正弦語音分析 高斯混合模型 受限玻爾茲曼機(jī) 深層神經(jīng)網(wǎng)絡(luò) 知識傳遞 說話人自適應(yīng)
【學(xué)位授予單位】：中國科學(xué)技術(shù)大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2015
【分類號】：TN912.3
【目錄】：

摘要5-7
ABSTRACT7-14
第一章緒論14-22
1.1 耳語音介紹14-15
1.2 耳語音轉(zhuǎn)換技術(shù)的研究意義15-16
1.3 耳語音轉(zhuǎn)換技術(shù)的研究歷史和現(xiàn)狀16-18
1.4 耳語音識別的研究意義、歷史和現(xiàn)狀18-19
1.5 本論文的研究目標(biāo)和結(jié)構(gòu)安排19-22
第二章耳語音聲學(xué)特征分析及耳語音信號處理基礎(chǔ)22-34
2.1 耳語音的聲學(xué)特征分析22-26
2.1.1 耳語音的發(fā)音機(jī)理22-23
2.1.2 耳語音的信噪比與可懂度23-24
2.1.3 耳語音的頻譜與共振峰24-26
2.2 耳語音信號處理基礎(chǔ)26-31
2.2.1 線性預(yù)測編碼26-28
2.2.2 倒譜分析28-30
2.2.3 STRAIGHT語音分析模型30-31
2.2.4 動態(tài)時(shí)間規(guī)整算法31
2.3 耳語音轉(zhuǎn)換評測方法31-33
2.3.1 耳語音轉(zhuǎn)換客觀評測方法32
2.3.2 耳語音轉(zhuǎn)換主觀評測方法32-33
2.4 本章小結(jié)33-34
第三章基于規(guī)則的耳語音轉(zhuǎn)換34-44
3.1 現(xiàn)有的基于CELP的耳語音轉(zhuǎn)換模型34-37
3.1.1 耳語音預(yù)處理35
3.1.2 耳語音頻譜增強(qiáng)35-37
3.1.3 基頻估計(jì)37
3.1.4 基于CELP的耳語音轉(zhuǎn)換模型分析37
3.2 基于正弦語音合成的耳語音轉(zhuǎn)換37-41
3.2.1 正弦語音模型38-39
3.2.2 基于正弦合成的耳語音轉(zhuǎn)換模型39-41
3.3 實(shí)驗(yàn)及分析41-43
3.3.1 測試集數(shù)據(jù)及實(shí)驗(yàn)參數(shù)配置41
3.3.2 客觀評測結(jié)果對比41-42
3.3.3 主觀評測結(jié)果對比42-43
3.4 本章小結(jié)43-44
第四章基于受限玻爾茲曼機(jī)的耳語音轉(zhuǎn)換44-60
4.1 基于高斯混合模型的耳語音轉(zhuǎn)換模型44-50
4.1.1 高斯混合模型44-46
4.1.2 基于高斯混合模型的耳語音頻譜轉(zhuǎn)換46-48
4.1.3 基于高斯混合模型的耳語音基頻估計(jì)48-49
4.1.4 基于高斯混合模型的耳語音轉(zhuǎn)換模型訓(xùn)練流程49-50
4.1.5 基于GMM的耳語音轉(zhuǎn)換模型的優(yōu)點(diǎn)與不足50
4.2 基于受限玻爾茲曼機(jī)的耳語音頻譜轉(zhuǎn)換50-55
4.2.1 受限玻爾茲曼機(jī)51-53
4.2.2 基于受限玻爾茲曼機(jī)的耳語音頻譜轉(zhuǎn)換建模53-54
4.2.3 基于受限玻爾茲曼機(jī)的耳語音頻譜轉(zhuǎn)換模型訓(xùn)練流程54-55
4.3 實(shí)驗(yàn)及分析55-57
4.3.1 測試集數(shù)據(jù)集及實(shí)驗(yàn)參數(shù)配制55-56
4.3.2 基于GMM的耳語音基頻估計(jì)結(jié)果56
4.3.3 客觀評測結(jié)果對比56-57
4.3.4 主觀評測結(jié)果對比57
4.4 本章小結(jié)57-60
第五章基于深層神經(jīng)網(wǎng)絡(luò)的耳語音轉(zhuǎn)換60-72
5.1 標(biāo)準(zhǔn)深層神經(jīng)網(wǎng)絡(luò)60-64
5.1.1 標(biāo)準(zhǔn)深層神經(jīng)網(wǎng)絡(luò)模型及訓(xùn)練流程60-62
5.1.2 基于RBM的逐層深層神經(jīng)網(wǎng)絡(luò)預(yù)訓(xùn)練62-63
5.1.3 基于標(biāo)準(zhǔn)深層神經(jīng)網(wǎng)絡(luò)的耳語音頻譜轉(zhuǎn)換63-64
5.2 半監(jiān)督深層神經(jīng)網(wǎng)絡(luò)64-66
5.2.1 半監(jiān)督深層神經(jīng)網(wǎng)絡(luò)的訓(xùn)練流程64-65
5.2.2 基于半監(jiān)督深層神經(jīng)網(wǎng)絡(luò)的耳語音頻譜轉(zhuǎn)換65-66
5.3 基于深層神經(jīng)網(wǎng)絡(luò)的耳語音頻譜轉(zhuǎn)換實(shí)驗(yàn)66-69
5.3.1 數(shù)據(jù)集及實(shí)驗(yàn)配置66-67
5.3.2 主觀評測結(jié)果對比67
5.3.3 客觀評測結(jié)果對比67-69
5.4 本章小結(jié)69-72
第六章基于深層神經(jīng)網(wǎng)絡(luò)的耳語音識別72-82
6.1 基于DNN的語音識別聲學(xué)模型72-75
6.1.1 標(biāo)準(zhǔn)DNN-HMM混合模型及Bottleneck DNN深層特征72-74
6.1.2 基于知識傳遞的耳語音DNN-HMM聲學(xué)模型74-75
6.2 基于speaker identity的耳語音DNN說話人自適應(yīng)75-77
6.2.1 特征域耳語音DNN說話人自適應(yīng)75-76
6.2.2 特征域耳語音DNN說話人自適應(yīng)76-77
6.3 中文普通話耳語音識別任務(wù)實(shí)驗(yàn)及分析77-80
6.3.1 中文普通話耳語音數(shù)據(jù)集77
6.3.2 基于標(biāo)準(zhǔn)DNN-HMM混合模型和Bottleneck-DNN特征提取的實(shí)驗(yàn)77-78
6.3.3 基于知識傳遞的耳語音DNN訓(xùn)練流程實(shí)驗(yàn)78-79
6.3.4 特征域耳語音DNN說話人自適應(yīng)實(shí)驗(yàn)79
6.3.5 模型域耳語音DNN說話人自適應(yīng)實(shí)驗(yàn)79-80
6.4 本章小結(jié)80-82
第七章總結(jié)與展望82-86
7.1 本文的主要貢獻(xiàn)與創(chuàng)新點(diǎn)82-83
7.1.1 耳語音轉(zhuǎn)換研究工作的主要貢獻(xiàn)和創(chuàng)新點(diǎn)82-83
7.1.2 耳語音識別研究工作的主要貢獻(xiàn)和創(chuàng)新點(diǎn)83
7.2 研究展望83-86
參考文獻(xiàn)86-92
在讀期間發(fā)表的學(xué)術(shù)論文與取得的研究成果92-94
致謝94

【共引文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫前10條

1 鄧秀慧;;漢語數(shù)字耳語音識別研究[J];電聲技術(shù);2014年07期

2 宮朝輝;刁麓弘;;改進(jìn)共振峰提取的語音端點(diǎn)檢測[J];計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào);2013年08期

3 趙建東;高光來;飛龍;;基于HMM的蒙古語語音合成技術(shù)研究[J];計(jì)算機(jī)科學(xué);2014年01期

4 晁浩;宋成;彭維平;;基于發(fā)音特征的聲效相關(guān)魯棒語音識別算法[J];計(jì)算機(jī)應(yīng)用;2015年01期

5 鐘廈;;農(nóng)業(yè)智能機(jī)器人水果采摘優(yōu)化控制模型仿真[J];計(jì)算機(jī)仿真;2015年04期

6 晁浩;宋成;彭維平;;語音識別中聲效模式的分析及檢測[J];計(jì)算機(jī)應(yīng)用研究;2015年08期

7 李翠娥;周濤;屈季寧;陶澤璋;;聲帶息肉患者術(shù)后聲休方案探討[J];聽力學(xué)及言語疾病雜志;2013年05期

8 TAO Zhi;ZHAO Heming;TAN Xuedan;GU Jihua;ZHANG Xiaojun;WU Di;;Conversion from whispered speech to normal speech using the extended bilinear transformation method[J];Chinese Journal of Acoustics;2013年04期

9 CHEN Xueqin;ZHAO Heming;;Research of whispered speech vocal tract system conversion based on universal background model and effective Gaussian components[J];Chinese Journal of Acoustics;2013年04期

10 孟凡博;吳志勇;蒙美玲;賈珈;蔡蓮紅;;基于決策樹的英語焦點(diǎn)語音轉(zhuǎn)換[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2013年07期

中國重要會議論文全文數(shù)據(jù)庫前2條

1 王海燕;楊鴻武;甘振業(yè);裴東;;基于說話人自適應(yīng)訓(xùn)練的漢藏雙語語音合成[A];第十二屆全國人機(jī)語音通訊學(xué)術(shù)會議（NCMMSC'2013）論文集[C];2013年

2 王朝民;謝湘;匡鏡明;;一種嵌入式中文語音合成系統(tǒng)非周期成分音節(jié)層建模方法[A];第十二屆全國人機(jī)語音通訊學(xué)術(shù)會議（NCMMSC'2013）論文集[C];2013年

中國博士學(xué)位論文全文數(shù)據(jù)庫前6條

1 陳凌輝;說話人轉(zhuǎn)換建模方法研究[D];中國科學(xué)技術(shù)大學(xué);2013年

2 劉璋;基于結(jié)構(gòu)特征的音樂重構(gòu)關(guān)鍵技術(shù)研究[D];清華大學(xué);2013年

3 龔呈卉;基于聯(lián)合因子分析的耳語音說話人識別研究[D];蘇州大學(xué);2014年

4 楊辰雨;語音合成音庫自動標(biāo)注方法研究[D];中國科學(xué)技術(shù)大學(xué);2014年

5 孟凡博;連續(xù)語流中焦點(diǎn)重音的分析與生成[D];清華大學(xué);2013年

6 蔡明琦;融合發(fā)音機(jī)理的統(tǒng)計(jì)參數(shù)語音合成方法研究[D];中國科學(xué)技術(shù)大學(xué);2015年

中國碩士學(xué)位論文全文數(shù)據(jù)庫前10條

1 楊靜;基于RTFI的鋼琴音樂多基頻估計(jì)[D];西南交通大學(xué);2013年

2 黃程;漢語耳語音重建的研究[D];安徽大學(xué);2013年

3 何彬;基于語音識別和語音合成的漢語語音轉(zhuǎn)換技術(shù)研究[D];云南大學(xué);2013年

4 任鵬輝;情感語音合成系統(tǒng)的研究與實(shí)現(xiàn)[D];太原理工大學(xué);2013年

5 李冰潔;采用譜—韻律雙變換的語音情感轉(zhuǎn)換[D];蘇州大學(xué);2013年

6 王紅麗;基于FDA的語音基頻建模的研究[D];西北師范大學(xué);2013年

7 魯小勇;情感語音合成的研究[D];西北師范大學(xué);2013年

8 李向偉;情感語音的嗓音分析與合成[D];山東師范大學(xué);2014年

9 趙建東;基于隱馬爾科夫模型的蒙古語語音合成技術(shù)研究[D];內(nèi)蒙古大學(xué);2014年

10 宋陽;基于統(tǒng)計(jì)聲學(xué)建模的單元挑選語音合成方法研究[D];中國科學(xué)技術(shù)大學(xué);2014年

本文關(guān)鍵詞：耳語音轉(zhuǎn)換正常語音及耳語音識別建模方法研究，由筆耕文化傳播整理發(fā)布。

本文編號：320759

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/wltx/320759.html

上一篇：多用戶MIMO系統(tǒng)能效問題的研究
下一篇：復(fù)合音樂中歌聲旋律的提取

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

耳語音轉(zhuǎn)換正常語音及耳語音識別建模方法研究