天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

耳語音轉(zhuǎn)換正常語音及耳語音識別建模方法研究

發(fā)布時(shí)間:2017-04-21 16:41

  本文關(guān)鍵詞:耳語音轉(zhuǎn)換正常語音及耳語音識別建模方法研究,,由筆耕文化傳播整理發(fā)布。


【摘要】:耳語音是一種有別于正常語音的常見發(fā)音方式,廣泛地應(yīng)用于人們的日常交流當(dāng)中。由于發(fā)音器官進(jìn)行耳語音發(fā)聲時(shí),聲帶沒有振動,導(dǎo)致耳語音的濁音部分沒有基頻,并導(dǎo)致耳語音的頻譜結(jié)構(gòu)與正常語音存在很大不同。這一發(fā)音特點(diǎn)不僅導(dǎo)致耳語音的能量較低,而且也使得其自然度和可懂度比同樣條件下的正常語音低。本文主要針對耳語音轉(zhuǎn)換正常語音及耳語音識別的建模方法進(jìn)行研究。 耳語音轉(zhuǎn)換正常語音的目的將一個(gè)人的耳語音通過某種方式轉(zhuǎn)換成正常語音,以提高耳語音的自然度和可懂度。在公共場所,人們出于隱私或者避免打擾他人的考慮,在語音通話時(shí)通常會采用耳語音。但是現(xiàn)有的通信系統(tǒng)都是針對正常語音發(fā)展而來,對耳語音支持度不高。耳語音轉(zhuǎn)換技術(shù)有望可以提高耳語音通話的可懂度和自然度。此外,耳語音轉(zhuǎn)換也可以應(yīng)用在失音患者的輔助發(fā)音當(dāng)中。 本文先后進(jìn)行了基于規(guī)則和基于統(tǒng)計(jì)的耳語音轉(zhuǎn)換研究;谝(guī)則的轉(zhuǎn)換模型具有高效快速、不需要訓(xùn)練數(shù)據(jù)等優(yōu)點(diǎn),而基于統(tǒng)計(jì)的轉(zhuǎn)換模型需要訓(xùn)練數(shù)據(jù),實(shí)時(shí)性也稍遜一籌,但是其轉(zhuǎn)換音質(zhì)較高,因此都具有研究價(jià)值。已有的基于碼激勵(lì)線性預(yù)測編碼器(Code exited linear prediction, CELP)的耳語音轉(zhuǎn)換模型不僅頻譜轉(zhuǎn)換規(guī)則復(fù)雜,需要對耳語音音素進(jìn)行預(yù)分類,而且又存在基頻生成規(guī)則過于簡單的問題,使得其轉(zhuǎn)換語音音質(zhì)不佳,而且難以應(yīng)用在連續(xù)耳語音的轉(zhuǎn)換任務(wù)當(dāng)中。為此,本文提出了基于正弦語音(Sinewave speech, SWS)合成的耳語音轉(zhuǎn)換模型。這種模型不僅更加簡潔,去掉了耳語音預(yù)處理模塊,加入了根據(jù)共振峰估計(jì)基頻的模塊,而且可以作用于連續(xù)耳語音的轉(zhuǎn)換,并使得轉(zhuǎn)換語音的音質(zhì)有了一定的改善。 在基于統(tǒng)計(jì)的耳語音轉(zhuǎn)換模型研究中,本文針對傳統(tǒng)基于高斯混合模型(Gaussian mixture model, GMM)的耳語音頻譜轉(zhuǎn)換模型難以對維間相關(guān)性和高維譜包絡(luò)建模的不足,提出將受限玻爾茲曼機(jī)(restricted Boltzmann machine, RBM)應(yīng)用于耳語音頻譜轉(zhuǎn)換建模。由于RBM不僅支持高維的譜包絡(luò)輸入,而且對維間相關(guān)性具有較強(qiáng)的建模的能力,使得該模型的轉(zhuǎn)換語音相對GMM模型的轉(zhuǎn)換語音有了明顯的主觀聽感提升。 此外,本文還嘗試了將深層神經(jīng)網(wǎng)絡(luò)(Deep neural network, DNN)用于耳語音頻譜轉(zhuǎn)換的建模當(dāng)中。采用標(biāo)準(zhǔn)的RBM逐層預(yù)訓(xùn)練和最小均方誤差準(zhǔn)則(Minimum mean square error, MMSE)有監(jiān)督訓(xùn)練得到的DNN,在訓(xùn)練數(shù)據(jù)較少的情況下容易出現(xiàn)過擬合現(xiàn)象,且網(wǎng)絡(luò)訓(xùn)練容易受奇異數(shù)據(jù)影響。為此,本文提出了一種半監(jiān)督(Semi-supervised)耳語音轉(zhuǎn)換DNN訓(xùn)練流程。在該流程中,各采用一個(gè)RBM分別對耳語音和并行的正常語音譜包絡(luò)參數(shù)空間建模,并通過訓(xùn)練得到的模型計(jì)算RBM隱層數(shù)據(jù),這相當(dāng)于對譜包絡(luò)參數(shù)進(jìn)行二值編碼。然后,用MMSE準(zhǔn)則訓(xùn)練DNN中間網(wǎng)絡(luò),建立耳語音譜包絡(luò)二值編碼到正常語音譜包絡(luò)二值編碼的映射關(guān)系。最后,將兩兩端的RBM和DNN中間網(wǎng)絡(luò)組合成完整的DNN,完成耳語音譜包絡(luò)參數(shù)到正常語音譜包絡(luò)參數(shù)的轉(zhuǎn)換。主觀聽感實(shí)驗(yàn)表明,這種半監(jiān)督DNN不僅相對標(biāo)準(zhǔn)DNN有了明顯的聽感提升,而且相對RBM模型也有了一定的主觀聽感改善。 最后,本文在DNN-HMM混合模型框架下對耳語音識別的聲學(xué)模型建模方法進(jìn)行了研究。由于耳語音的頻譜比較平緩,不同音素之間的聲學(xué)特征區(qū)分性比較小,使得傳統(tǒng)的GMM-HMM聲學(xué)模型在耳語音識別任務(wù)上識別率不佳。DNN不僅支持高維的上下文聲學(xué)特征輸入,而且逐層特征提取的結(jié)構(gòu)也更利于建立頻譜特征到HMM狀態(tài)的深層映射關(guān)系,相對傳統(tǒng)的GMM-HMM更加適合對耳語音進(jìn)行建模。同時(shí),為了解決耳語音數(shù)據(jù)資源不足難以進(jìn)一步提高DNN聲學(xué)模型性能的難題,本文提出了一種基于知識傳遞(Knowledge transfer, KT)的耳語音DNN訓(xùn)練流程,可以將海量的正常語音數(shù)據(jù)和模型資源用于耳語音DNN的訓(xùn)練,大幅提升了耳語音的識別率。此外,由于耳語音中說話人信息收到損失,用于正常語音說話人DNN自適應(yīng)方法在耳語音說話人自適應(yīng)中面臨很大的不確定性。本文分別進(jìn)行了基于DNN特征域和模型域的耳語音說話人自適應(yīng)驗(yàn)證實(shí)驗(yàn),發(fā)現(xiàn)可以通過DNN有監(jiān)督訓(xùn)練的方法從耳語音提取到有效的說話人信息,并且如果將該信息通過全連接矩陣輸入到DNN的隱層和輸出層,得到的說話人自適應(yīng)模型在僅需要少量注冊數(shù)據(jù)的情況下,就可以相對說話人無關(guān)模型取得一定的識別率提升。
【關(guān)鍵詞】:耳語音 耳語音轉(zhuǎn)換 耳語音識別 正弦語音分析 高斯混合模型 受限玻爾茲曼機(jī) 深層神經(jīng)網(wǎng)絡(luò) 知識傳遞 說話人自適應(yīng)
【學(xué)位授予單位】:中國科學(xué)技術(shù)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TN912.3
【目錄】:
  • 摘要5-7
  • ABSTRACT7-14
  • 第一章 緒論14-22
  • 1.1 耳語音介紹14-15
  • 1.2 耳語音轉(zhuǎn)換技術(shù)的研究意義15-16
  • 1.3 耳語音轉(zhuǎn)換技術(shù)的研究歷史和現(xiàn)狀16-18
  • 1.4 耳語音識別的研究意義、歷史和現(xiàn)狀18-19
  • 1.5 本論文的研究目標(biāo)和結(jié)構(gòu)安排19-22
  • 第二章 耳語音聲學(xué)特征分析及耳語音信號處理基礎(chǔ)22-34
  • 2.1 耳語音的聲學(xué)特征分析22-26
  • 2.1.1 耳語音的發(fā)音機(jī)理22-23
  • 2.1.2 耳語音的信噪比與可懂度23-24
  • 2.1.3 耳語音的頻譜與共振峰24-26
  • 2.2 耳語音信號處理基礎(chǔ)26-31
  • 2.2.1 線性預(yù)測編碼26-28
  • 2.2.2 倒譜分析28-30
  • 2.2.3 STRAIGHT語音分析模型30-31
  • 2.2.4 動態(tài)時(shí)間規(guī)整算法31
  • 2.3 耳語音轉(zhuǎn)換評測方法31-33
  • 2.3.1 耳語音轉(zhuǎn)換客觀評測方法32
  • 2.3.2 耳語音轉(zhuǎn)換主觀評測方法32-33
  • 2.4 本章小結(jié)33-34
  • 第三章 基于規(guī)則的耳語音轉(zhuǎn)換34-44
  • 3.1 現(xiàn)有的基于CELP的耳語音轉(zhuǎn)換模型34-37
  • 3.1.1 耳語音預(yù)處理35
  • 3.1.2 耳語音頻譜增強(qiáng)35-37
  • 3.1.3 基頻估計(jì)37
  • 3.1.4 基于CELP的耳語音轉(zhuǎn)換模型分析37
  • 3.2 基于正弦語音合成的耳語音轉(zhuǎn)換37-41
  • 3.2.1 正弦語音模型38-39
  • 3.2.2 基于正弦合成的耳語音轉(zhuǎn)換模型39-41
  • 3.3 實(shí)驗(yàn)及分析41-43
  • 3.3.1 測試集數(shù)據(jù)及實(shí)驗(yàn)參數(shù)配置41
  • 3.3.2 客觀評測結(jié)果對比41-42
  • 3.3.3 主觀評測結(jié)果對比42-43
  • 3.4 本章小結(jié)43-44
  • 第四章 基于受限玻爾茲曼機(jī)的耳語音轉(zhuǎn)換44-60
  • 4.1 基于高斯混合模型的耳語音轉(zhuǎn)換模型44-50
  • 4.1.1 高斯混合模型44-46
  • 4.1.2 基于高斯混合模型的耳語音頻譜轉(zhuǎn)換46-48
  • 4.1.3 基于高斯混合模型的耳語音基頻估計(jì)48-49
  • 4.1.4 基于高斯混合模型的耳語音轉(zhuǎn)換模型訓(xùn)練流程49-50
  • 4.1.5 基于GMM的耳語音轉(zhuǎn)換模型的優(yōu)點(diǎn)與不足50
  • 4.2 基于受限玻爾茲曼機(jī)的耳語音頻譜轉(zhuǎn)換50-55
  • 4.2.1 受限玻爾茲曼機(jī)51-53
  • 4.2.2 基于受限玻爾茲曼機(jī)的耳語音頻譜轉(zhuǎn)換建模53-54
  • 4.2.3 基于受限玻爾茲曼機(jī)的耳語音頻譜轉(zhuǎn)換模型訓(xùn)練流程54-55
  • 4.3 實(shí)驗(yàn)及分析55-57
  • 4.3.1 測試集數(shù)據(jù)集及實(shí)驗(yàn)參數(shù)配制55-56
  • 4.3.2 基于GMM的耳語音基頻估計(jì)結(jié)果56
  • 4.3.3 客觀評測結(jié)果對比56-57
  • 4.3.4 主觀評測結(jié)果對比57
  • 4.4 本章小結(jié)57-60
  • 第五章 基于深層神經(jīng)網(wǎng)絡(luò)的耳語音轉(zhuǎn)換60-72
  • 5.1 標(biāo)準(zhǔn)深層神經(jīng)網(wǎng)絡(luò)60-64
  • 5.1.1 標(biāo)準(zhǔn)深層神經(jīng)網(wǎng)絡(luò)模型及訓(xùn)練流程60-62
  • 5.1.2 基于RBM的逐層深層神經(jīng)網(wǎng)絡(luò)預(yù)訓(xùn)練62-63
  • 5.1.3 基于標(biāo)準(zhǔn)深層神經(jīng)網(wǎng)絡(luò)的耳語音頻譜轉(zhuǎn)換63-64
  • 5.2 半監(jiān)督深層神經(jīng)網(wǎng)絡(luò)64-66
  • 5.2.1 半監(jiān)督深層神經(jīng)網(wǎng)絡(luò)的訓(xùn)練流程64-65
  • 5.2.2 基于半監(jiān)督深層神經(jīng)網(wǎng)絡(luò)的耳語音頻譜轉(zhuǎn)換65-66
  • 5.3 基于深層神經(jīng)網(wǎng)絡(luò)的耳語音頻譜轉(zhuǎn)換實(shí)驗(yàn)66-69
  • 5.3.1 數(shù)據(jù)集及實(shí)驗(yàn)配置66-67
  • 5.3.2 主觀評測結(jié)果對比67
  • 5.3.3 客觀評測結(jié)果對比67-69
  • 5.4 本章小結(jié)69-72
  • 第六章 基于深層神經(jīng)網(wǎng)絡(luò)的耳語音識別72-82
  • 6.1 基于DNN的語音識別聲學(xué)模型72-75
  • 6.1.1 標(biāo)準(zhǔn)DNN-HMM混合模型及Bottleneck DNN深層特征72-74
  • 6.1.2 基于知識傳遞的耳語音DNN-HMM聲學(xué)模型74-75
  • 6.2 基于speaker identity的耳語音DNN說話人自適應(yīng)75-77
  • 6.2.1 特征域耳語音DNN說話人自適應(yīng)75-76
  • 6.2.2 特征域耳語音DNN說話人自適應(yīng)76-77
  • 6.3 中文普通話耳語音識別任務(wù)實(shí)驗(yàn)及分析77-80
  • 6.3.1 中文普通話耳語音數(shù)據(jù)集77
  • 6.3.2 基于標(biāo)準(zhǔn)DNN-HMM混合模型和Bottleneck-DNN特征提取的實(shí)驗(yàn)77-78
  • 6.3.3 基于知識傳遞的耳語音DNN訓(xùn)練流程實(shí)驗(yàn)78-79
  • 6.3.4 特征域耳語音DNN說話人自適應(yīng)實(shí)驗(yàn)79
  • 6.3.5 模型域耳語音DNN說話人自適應(yīng)實(shí)驗(yàn)79-80
  • 6.4 本章小結(jié)80-82
  • 第七章 總結(jié)與展望82-86
  • 7.1 本文的主要貢獻(xiàn)與創(chuàng)新點(diǎn)82-83
  • 7.1.1 耳語音轉(zhuǎn)換研究工作的主要貢獻(xiàn)和創(chuàng)新點(diǎn)82-83
  • 7.1.2 耳語音識別研究工作的主要貢獻(xiàn)和創(chuàng)新點(diǎn)83
  • 7.2 研究展望83-86
  • 參考文獻(xiàn)86-92
  • 在讀期間發(fā)表的學(xué)術(shù)論文與取得的研究成果92-94
  • 致謝94

【共引文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 鄧秀慧;;漢語數(shù)字耳語音識別研究[J];電聲技術(shù);2014年07期

2 宮朝輝;刁麓弘;;改進(jìn)共振峰提取的語音端點(diǎn)檢測[J];計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào);2013年08期

3 趙建東;高光來;飛龍;;基于HMM的蒙古語語音合成技術(shù)研究[J];計(jì)算機(jī)科學(xué);2014年01期

4 晁浩;宋成;彭維平;;基于發(fā)音特征的聲效相關(guān)魯棒語音識別算法[J];計(jì)算機(jī)應(yīng)用;2015年01期

5 鐘廈;;農(nóng)業(yè)智能機(jī)器人水果采摘優(yōu)化控制模型仿真[J];計(jì)算機(jī)仿真;2015年04期

6 晁浩;宋成;彭維平;;語音識別中聲效模式的分析及檢測[J];計(jì)算機(jī)應(yīng)用研究;2015年08期

7 李翠娥;周濤;屈季寧;陶澤璋;;聲帶息肉患者術(shù)后聲休方案探討[J];聽力學(xué)及言語疾病雜志;2013年05期

8 TAO Zhi;ZHAO Heming;TAN Xuedan;GU Jihua;ZHANG Xiaojun;WU Di;;Conversion from whispered speech to normal speech using the extended bilinear transformation method[J];Chinese Journal of Acoustics;2013年04期

9 CHEN Xueqin;ZHAO Heming;;Research of whispered speech vocal tract system conversion based on universal background model and effective Gaussian components[J];Chinese Journal of Acoustics;2013年04期

10 孟凡博;吳志勇;蒙美玲;賈珈;蔡蓮紅;;基于決策樹的英語焦點(diǎn)語音轉(zhuǎn)換[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2013年07期

中國重要會議論文全文數(shù)據(jù)庫 前2條

1 王海燕;楊鴻武;甘振業(yè);裴東;;基于說話人自適應(yīng)訓(xùn)練的漢藏雙語語音合成[A];第十二屆全國人機(jī)語音通訊學(xué)術(shù)會議(NCMMSC'2013)論文集[C];2013年

2 王朝民;謝湘;匡鏡明;;一種嵌入式中文語音合成系統(tǒng)非周期成分音節(jié)層建模方法[A];第十二屆全國人機(jī)語音通訊學(xué)術(shù)會議(NCMMSC'2013)論文集[C];2013年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前6條

1 陳凌輝;說話人轉(zhuǎn)換建模方法研究[D];中國科學(xué)技術(shù)大學(xué);2013年

2 劉璋;基于結(jié)構(gòu)特征的音樂重構(gòu)關(guān)鍵技術(shù)研究[D];清華大學(xué);2013年

3 龔呈卉;基于聯(lián)合因子分析的耳語音說話人識別研究[D];蘇州大學(xué);2014年

4 楊辰雨;語音合成音庫自動標(biāo)注方法研究[D];中國科學(xué)技術(shù)大學(xué);2014年

5 孟凡博;連續(xù)語流中焦點(diǎn)重音的分析與生成[D];清華大學(xué);2013年

6 蔡明琦;融合發(fā)音機(jī)理的統(tǒng)計(jì)參數(shù)語音合成方法研究[D];中國科學(xué)技術(shù)大學(xué);2015年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 楊靜;基于RTFI的鋼琴音樂多基頻估計(jì)[D];西南交通大學(xué);2013年

2 黃程;漢語耳語音重建的研究[D];安徽大學(xué);2013年

3 何彬;基于語音識別和語音合成的漢語語音轉(zhuǎn)換技術(shù)研究[D];云南大學(xué);2013年

4 任鵬輝;情感語音合成系統(tǒng)的研究與實(shí)現(xiàn)[D];太原理工大學(xué);2013年

5 李冰潔;采用譜—韻律雙變換的語音情感轉(zhuǎn)換[D];蘇州大學(xué);2013年

6 王紅麗;基于FDA的語音基頻建模的研究[D];西北師范大學(xué);2013年

7 魯小勇;情感語音合成的研究[D];西北師范大學(xué);2013年

8 李向偉;情感語音的嗓音分析與合成[D];山東師范大學(xué);2014年

9 趙建東;基于隱馬爾科夫模型的蒙古語語音合成技術(shù)研究[D];內(nèi)蒙古大學(xué);2014年

10 宋陽;基于統(tǒng)計(jì)聲學(xué)建模的單元挑選語音合成方法研究[D];中國科學(xué)技術(shù)大學(xué);2014年


  本文關(guān)鍵詞:耳語音轉(zhuǎn)換正常語音及耳語音識別建模方法研究,由筆耕文化傳播整理發(fā)布。



本文編號:320759

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/wltx/320759.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶24c33***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com