耳語音轉換正常語音及耳語音識別建模方法研究
本文關鍵詞:耳語音轉換正常語音及耳語音識別建模方法研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:耳語音是一種有別于正常語音的常見發(fā)音方式,廣泛地應用于人們的日常交流當中。由于發(fā)音器官進行耳語音發(fā)聲時,聲帶沒有振動,導致耳語音的濁音部分沒有基頻,并導致耳語音的頻譜結構與正常語音存在很大不同。這一發(fā)音特點不僅導致耳語音的能量較低,而且也使得其自然度和可懂度比同樣條件下的正常語音低。本文主要針對耳語音轉換正常語音及耳語音識別的建模方法進行研究。 耳語音轉換正常語音的目的將一個人的耳語音通過某種方式轉換成正常語音,以提高耳語音的自然度和可懂度。在公共場所,人們出于隱私或者避免打擾他人的考慮,在語音通話時通常會采用耳語音。但是現(xiàn)有的通信系統(tǒng)都是針對正常語音發(fā)展而來,對耳語音支持度不高。耳語音轉換技術有望可以提高耳語音通話的可懂度和自然度。此外,耳語音轉換也可以應用在失音患者的輔助發(fā)音當中。 本文先后進行了基于規(guī)則和基于統(tǒng)計的耳語音轉換研究;谝(guī)則的轉換模型具有高效快速、不需要訓練數(shù)據(jù)等優(yōu)點,而基于統(tǒng)計的轉換模型需要訓練數(shù)據(jù),實時性也稍遜一籌,但是其轉換音質較高,因此都具有研究價值。已有的基于碼激勵線性預測編碼器(Code exited linear prediction, CELP)的耳語音轉換模型不僅頻譜轉換規(guī)則復雜,需要對耳語音音素進行預分類,而且又存在基頻生成規(guī)則過于簡單的問題,使得其轉換語音音質不佳,而且難以應用在連續(xù)耳語音的轉換任務當中。為此,本文提出了基于正弦語音(Sinewave speech, SWS)合成的耳語音轉換模型。這種模型不僅更加簡潔,去掉了耳語音預處理模塊,加入了根據(jù)共振峰估計基頻的模塊,而且可以作用于連續(xù)耳語音的轉換,并使得轉換語音的音質有了一定的改善。 在基于統(tǒng)計的耳語音轉換模型研究中,本文針對傳統(tǒng)基于高斯混合模型(Gaussian mixture model, GMM)的耳語音頻譜轉換模型難以對維間相關性和高維譜包絡建模的不足,提出將受限玻爾茲曼機(restricted Boltzmann machine, RBM)應用于耳語音頻譜轉換建模。由于RBM不僅支持高維的譜包絡輸入,而且對維間相關性具有較強的建模的能力,使得該模型的轉換語音相對GMM模型的轉換語音有了明顯的主觀聽感提升。 此外,本文還嘗試了將深層神經(jīng)網(wǎng)絡(Deep neural network, DNN)用于耳語音頻譜轉換的建模當中。采用標準的RBM逐層預訓練和最小均方誤差準則(Minimum mean square error, MMSE)有監(jiān)督訓練得到的DNN,在訓練數(shù)據(jù)較少的情況下容易出現(xiàn)過擬合現(xiàn)象,且網(wǎng)絡訓練容易受奇異數(shù)據(jù)影響。為此,本文提出了一種半監(jiān)督(Semi-supervised)耳語音轉換DNN訓練流程。在該流程中,各采用一個RBM分別對耳語音和并行的正常語音譜包絡參數(shù)空間建模,并通過訓練得到的模型計算RBM隱層數(shù)據(jù),這相當于對譜包絡參數(shù)進行二值編碼。然后,用MMSE準則訓練DNN中間網(wǎng)絡,建立耳語音譜包絡二值編碼到正常語音譜包絡二值編碼的映射關系。最后,將兩兩端的RBM和DNN中間網(wǎng)絡組合成完整的DNN,完成耳語音譜包絡參數(shù)到正常語音譜包絡參數(shù)的轉換。主觀聽感實驗表明,這種半監(jiān)督DNN不僅相對標準DNN有了明顯的聽感提升,而且相對RBM模型也有了一定的主觀聽感改善。 最后,本文在DNN-HMM混合模型框架下對耳語音識別的聲學模型建模方法進行了研究。由于耳語音的頻譜比較平緩,不同音素之間的聲學特征區(qū)分性比較小,使得傳統(tǒng)的GMM-HMM聲學模型在耳語音識別任務上識別率不佳。DNN不僅支持高維的上下文聲學特征輸入,而且逐層特征提取的結構也更利于建立頻譜特征到HMM狀態(tài)的深層映射關系,相對傳統(tǒng)的GMM-HMM更加適合對耳語音進行建模。同時,為了解決耳語音數(shù)據(jù)資源不足難以進一步提高DNN聲學模型性能的難題,本文提出了一種基于知識傳遞(Knowledge transfer, KT)的耳語音DNN訓練流程,可以將海量的正常語音數(shù)據(jù)和模型資源用于耳語音DNN的訓練,大幅提升了耳語音的識別率。此外,由于耳語音中說話人信息收到損失,用于正常語音說話人DNN自適應方法在耳語音說話人自適應中面臨很大的不確定性。本文分別進行了基于DNN特征域和模型域的耳語音說話人自適應驗證實驗,發(fā)現(xiàn)可以通過DNN有監(jiān)督訓練的方法從耳語音提取到有效的說話人信息,并且如果將該信息通過全連接矩陣輸入到DNN的隱層和輸出層,得到的說話人自適應模型在僅需要少量注冊數(shù)據(jù)的情況下,就可以相對說話人無關模型取得一定的識別率提升。
【關鍵詞】:耳語音 耳語音轉換 耳語音識別 正弦語音分析 高斯混合模型 受限玻爾茲曼機 深層神經(jīng)網(wǎng)絡 知識傳遞 說話人自適應
【學位授予單位】:中國科學技術大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TN912.3
【目錄】:
- 摘要5-7
- ABSTRACT7-14
- 第一章 緒論14-22
- 1.1 耳語音介紹14-15
- 1.2 耳語音轉換技術的研究意義15-16
- 1.3 耳語音轉換技術的研究歷史和現(xiàn)狀16-18
- 1.4 耳語音識別的研究意義、歷史和現(xiàn)狀18-19
- 1.5 本論文的研究目標和結構安排19-22
- 第二章 耳語音聲學特征分析及耳語音信號處理基礎22-34
- 2.1 耳語音的聲學特征分析22-26
- 2.1.1 耳語音的發(fā)音機理22-23
- 2.1.2 耳語音的信噪比與可懂度23-24
- 2.1.3 耳語音的頻譜與共振峰24-26
- 2.2 耳語音信號處理基礎26-31
- 2.2.1 線性預測編碼26-28
- 2.2.2 倒譜分析28-30
- 2.2.3 STRAIGHT語音分析模型30-31
- 2.2.4 動態(tài)時間規(guī)整算法31
- 2.3 耳語音轉換評測方法31-33
- 2.3.1 耳語音轉換客觀評測方法32
- 2.3.2 耳語音轉換主觀評測方法32-33
- 2.4 本章小結33-34
- 第三章 基于規(guī)則的耳語音轉換34-44
- 3.1 現(xiàn)有的基于CELP的耳語音轉換模型34-37
- 3.1.1 耳語音預處理35
- 3.1.2 耳語音頻譜增強35-37
- 3.1.3 基頻估計37
- 3.1.4 基于CELP的耳語音轉換模型分析37
- 3.2 基于正弦語音合成的耳語音轉換37-41
- 3.2.1 正弦語音模型38-39
- 3.2.2 基于正弦合成的耳語音轉換模型39-41
- 3.3 實驗及分析41-43
- 3.3.1 測試集數(shù)據(jù)及實驗參數(shù)配置41
- 3.3.2 客觀評測結果對比41-42
- 3.3.3 主觀評測結果對比42-43
- 3.4 本章小結43-44
- 第四章 基于受限玻爾茲曼機的耳語音轉換44-60
- 4.1 基于高斯混合模型的耳語音轉換模型44-50
- 4.1.1 高斯混合模型44-46
- 4.1.2 基于高斯混合模型的耳語音頻譜轉換46-48
- 4.1.3 基于高斯混合模型的耳語音基頻估計48-49
- 4.1.4 基于高斯混合模型的耳語音轉換模型訓練流程49-50
- 4.1.5 基于GMM的耳語音轉換模型的優(yōu)點與不足50
- 4.2 基于受限玻爾茲曼機的耳語音頻譜轉換50-55
- 4.2.1 受限玻爾茲曼機51-53
- 4.2.2 基于受限玻爾茲曼機的耳語音頻譜轉換建模53-54
- 4.2.3 基于受限玻爾茲曼機的耳語音頻譜轉換模型訓練流程54-55
- 4.3 實驗及分析55-57
- 4.3.1 測試集數(shù)據(jù)集及實驗參數(shù)配制55-56
- 4.3.2 基于GMM的耳語音基頻估計結果56
- 4.3.3 客觀評測結果對比56-57
- 4.3.4 主觀評測結果對比57
- 4.4 本章小結57-60
- 第五章 基于深層神經(jīng)網(wǎng)絡的耳語音轉換60-72
- 5.1 標準深層神經(jīng)網(wǎng)絡60-64
- 5.1.1 標準深層神經(jīng)網(wǎng)絡模型及訓練流程60-62
- 5.1.2 基于RBM的逐層深層神經(jīng)網(wǎng)絡預訓練62-63
- 5.1.3 基于標準深層神經(jīng)網(wǎng)絡的耳語音頻譜轉換63-64
- 5.2 半監(jiān)督深層神經(jīng)網(wǎng)絡64-66
- 5.2.1 半監(jiān)督深層神經(jīng)網(wǎng)絡的訓練流程64-65
- 5.2.2 基于半監(jiān)督深層神經(jīng)網(wǎng)絡的耳語音頻譜轉換65-66
- 5.3 基于深層神經(jīng)網(wǎng)絡的耳語音頻譜轉換實驗66-69
- 5.3.1 數(shù)據(jù)集及實驗配置66-67
- 5.3.2 主觀評測結果對比67
- 5.3.3 客觀評測結果對比67-69
- 5.4 本章小結69-72
- 第六章 基于深層神經(jīng)網(wǎng)絡的耳語音識別72-82
- 6.1 基于DNN的語音識別聲學模型72-75
- 6.1.1 標準DNN-HMM混合模型及Bottleneck DNN深層特征72-74
- 6.1.2 基于知識傳遞的耳語音DNN-HMM聲學模型74-75
- 6.2 基于speaker identity的耳語音DNN說話人自適應75-77
- 6.2.1 特征域耳語音DNN說話人自適應75-76
- 6.2.2 特征域耳語音DNN說話人自適應76-77
- 6.3 中文普通話耳語音識別任務實驗及分析77-80
- 6.3.1 中文普通話耳語音數(shù)據(jù)集77
- 6.3.2 基于標準DNN-HMM混合模型和Bottleneck-DNN特征提取的實驗77-78
- 6.3.3 基于知識傳遞的耳語音DNN訓練流程實驗78-79
- 6.3.4 特征域耳語音DNN說話人自適應實驗79
- 6.3.5 模型域耳語音DNN說話人自適應實驗79-80
- 6.4 本章小結80-82
- 第七章 總結與展望82-86
- 7.1 本文的主要貢獻與創(chuàng)新點82-83
- 7.1.1 耳語音轉換研究工作的主要貢獻和創(chuàng)新點82-83
- 7.1.2 耳語音識別研究工作的主要貢獻和創(chuàng)新點83
- 7.2 研究展望83-86
- 參考文獻86-92
- 在讀期間發(fā)表的學術論文與取得的研究成果92-94
- 致謝94
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 鄧秀慧;;漢語數(shù)字耳語音識別研究[J];電聲技術;2014年07期
2 宮朝輝;刁麓弘;;改進共振峰提取的語音端點檢測[J];計算機輔助設計與圖形學學報;2013年08期
3 趙建東;高光來;飛龍;;基于HMM的蒙古語語音合成技術研究[J];計算機科學;2014年01期
4 晁浩;宋成;彭維平;;基于發(fā)音特征的聲效相關魯棒語音識別算法[J];計算機應用;2015年01期
5 鐘廈;;農(nóng)業(yè)智能機器人水果采摘優(yōu)化控制模型仿真[J];計算機仿真;2015年04期
6 晁浩;宋成;彭維平;;語音識別中聲效模式的分析及檢測[J];計算機應用研究;2015年08期
7 李翠娥;周濤;屈季寧;陶澤璋;;聲帶息肉患者術后聲休方案探討[J];聽力學及言語疾病雜志;2013年05期
8 TAO Zhi;ZHAO Heming;TAN Xuedan;GU Jihua;ZHANG Xiaojun;WU Di;;Conversion from whispered speech to normal speech using the extended bilinear transformation method[J];Chinese Journal of Acoustics;2013年04期
9 CHEN Xueqin;ZHAO Heming;;Research of whispered speech vocal tract system conversion based on universal background model and effective Gaussian components[J];Chinese Journal of Acoustics;2013年04期
10 孟凡博;吳志勇;蒙美玲;賈珈;蔡蓮紅;;基于決策樹的英語焦點語音轉換[J];清華大學學報(自然科學版);2013年07期
中國重要會議論文全文數(shù)據(jù)庫 前2條
1 王海燕;楊鴻武;甘振業(yè);裴東;;基于說話人自適應訓練的漢藏雙語語音合成[A];第十二屆全國人機語音通訊學術會議(NCMMSC'2013)論文集[C];2013年
2 王朝民;謝湘;匡鏡明;;一種嵌入式中文語音合成系統(tǒng)非周期成分音節(jié)層建模方法[A];第十二屆全國人機語音通訊學術會議(NCMMSC'2013)論文集[C];2013年
中國博士學位論文全文數(shù)據(jù)庫 前6條
1 陳凌輝;說話人轉換建模方法研究[D];中國科學技術大學;2013年
2 劉璋;基于結構特征的音樂重構關鍵技術研究[D];清華大學;2013年
3 龔呈卉;基于聯(lián)合因子分析的耳語音說話人識別研究[D];蘇州大學;2014年
4 楊辰雨;語音合成音庫自動標注方法研究[D];中國科學技術大學;2014年
5 孟凡博;連續(xù)語流中焦點重音的分析與生成[D];清華大學;2013年
6 蔡明琦;融合發(fā)音機理的統(tǒng)計參數(shù)語音合成方法研究[D];中國科學技術大學;2015年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 楊靜;基于RTFI的鋼琴音樂多基頻估計[D];西南交通大學;2013年
2 黃程;漢語耳語音重建的研究[D];安徽大學;2013年
3 何彬;基于語音識別和語音合成的漢語語音轉換技術研究[D];云南大學;2013年
4 任鵬輝;情感語音合成系統(tǒng)的研究與實現(xiàn)[D];太原理工大學;2013年
5 李冰潔;采用譜—韻律雙變換的語音情感轉換[D];蘇州大學;2013年
6 王紅麗;基于FDA的語音基頻建模的研究[D];西北師范大學;2013年
7 魯小勇;情感語音合成的研究[D];西北師范大學;2013年
8 李向偉;情感語音的嗓音分析與合成[D];山東師范大學;2014年
9 趙建東;基于隱馬爾科夫模型的蒙古語語音合成技術研究[D];內蒙古大學;2014年
10 宋陽;基于統(tǒng)計聲學建模的單元挑選語音合成方法研究[D];中國科學技術大學;2014年
本文關鍵詞:耳語音轉換正常語音及耳語音識別建模方法研究,由筆耕文化傳播整理發(fā)布。
本文編號:320759
本文鏈接:http://sikaile.net/kejilunwen/wltx/320759.html