基于GMM和碼本映射相結(jié)合的語音轉(zhuǎn)換方法研究
發(fā)布時間:2017-05-19 11:03
本文關(guān)鍵詞:基于GMM和碼本映射相結(jié)合的語音轉(zhuǎn)換方法研究,由筆耕文化傳播整理發(fā)布。
【摘要】:人體發(fā)出的語音中包含有各種各樣的信息,如說話人語義信息和說話人個性特征的信息等。經(jīng)常需要用語音信號處理領(lǐng)域的相關(guān)知識來分析與處理其中包含的深層次信息。而語音轉(zhuǎn)換技術(shù)是近年來語音信號處理領(lǐng)域的一個新分支,也是目前語音信號處理領(lǐng)域的一個研究熱點。對語音轉(zhuǎn)換技術(shù)的研究主要是以語音的個性特征信息為切入點展開的。語音轉(zhuǎn)換技術(shù)就是對一個說話人的個性特征信息進行轉(zhuǎn)變,并保持語義信息不變,使其變?yōu)榱硪粋特定目標說話人的個性特征信息。對語音轉(zhuǎn)換技術(shù)的研究有助于推動語音信號處理其它領(lǐng)域不斷向前發(fā)展,甚至對目前比較熱門的智能家居及人工智能領(lǐng)域的研究起到促進作用。其具有廣闊的應(yīng)用前景和巨大的理論研究價值。本文的主要工作如下:從語音產(chǎn)生模型入手,介紹了發(fā)音系統(tǒng)的數(shù)學(xué)模型及常用的語音特征參數(shù)。并對語音轉(zhuǎn)換技術(shù)中的分析合成模型等基本理論進行了簡要介紹。提出利用KLD將源和目標特征參數(shù)進行對齊的方法,該方法減少了查找源和目標空間之間最近鄰域的搜索空間,也減少了計算量。重點研究了高斯混合模型以及矢量碼本映射兩種譜包絡(luò)轉(zhuǎn)換方法,分析了它們的優(yōu)缺點。針對用GMM轉(zhuǎn)換后語音的譜包絡(luò)過于平滑的現(xiàn)象,研究了利用碼本映射法對GMM轉(zhuǎn)換函數(shù)中的均值項和相關(guān)項進行修正的方法,以此增大轉(zhuǎn)換特征的離散程度,進而改善轉(zhuǎn)換語音的質(zhì)量。研究了基音頻率變換方法。目前對基音頻率的變換基本上都是對基音頻率和聲道譜參數(shù)分開進行建模的,這必然會影響轉(zhuǎn)換后語音的音質(zhì)。本文采用了基于徑向基函數(shù)網(wǎng)絡(luò)的基頻變換算法。該方法用徑向基函數(shù)網(wǎng)絡(luò)在基音頻率與聲道譜參數(shù)之間建立聯(lián)系。使得轉(zhuǎn)換出的基頻能夠跟隨目標基頻起伏變化,并含有更多的目標說話人個性特征信息。對上述改進方法進行仿真測試,主觀和客觀測試結(jié)果都表明,改進的語音轉(zhuǎn)換方法提高了轉(zhuǎn)換語音的質(zhì)量,得到了較好的轉(zhuǎn)換效果。
【關(guān)鍵詞】:語音轉(zhuǎn)換 基音頻率 高斯混合模型 譜包絡(luò)轉(zhuǎn)換
【學(xué)位授予單位】:西安建筑科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TN912.3
【目錄】:
- 摘要3-5
- Abstract5-9
- 1 緒論9-15
- 1.1 語音轉(zhuǎn)換概述9
- 1.2 語音轉(zhuǎn)換的研究背景及意義9-10
- 1.3 國內(nèi)外研究進展10-12
- 1.4 論文內(nèi)容安排12-15
- 2 語音轉(zhuǎn)換技術(shù)基礎(chǔ)15-27
- 2.1 語音發(fā)音系統(tǒng)模型15-17
- 2.1.1 語音的產(chǎn)生機理15-16
- 2.1.2 語音發(fā)生系統(tǒng)的數(shù)學(xué)模型16-17
- 2.2 語音轉(zhuǎn)換基礎(chǔ)技術(shù)17-25
- 2.2.1 語音預(yù)處理17-19
- 2.2.2 語音分析/合成模型19-22
- 2.2.3 語音個性特征參數(shù)22-24
- 2.2.4 語音信號的時間對齊24-25
- 2.3 語音轉(zhuǎn)換系統(tǒng)框架25
- 2.4 本章小結(jié)25-27
- 3 經(jīng)典語音轉(zhuǎn)換算法27-35
- 3.1 頻譜包絡(luò)的轉(zhuǎn)換方法27-32
- 3.1.1 矢量碼本映射法27-28
- 3.1.2 說話人插值法28-29
- 3.1.3 線性多變量回歸法29
- 3.1.4 人工神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法29-30
- 3.1.5 隱馬爾可夫模型30-31
- 3.1.6 高斯混合模型法31-32
- 3.2 韻律特征的轉(zhuǎn)換方法32-34
- 3.2.1 基音頻率的轉(zhuǎn)換32-33
- 3.2.2 時長的轉(zhuǎn)換33
- 3.2.3 能量的轉(zhuǎn)換33-34
- 3.3 語音合成與后處理34
- 3.4 本章小結(jié)34-35
- 4 基于GMM的語音轉(zhuǎn)換方法及其改進35-45
- 4.1 高斯混合模型35-37
- 4.1.1 高斯混合模型的基本概念35
- 4.1.2 高斯混合模型(GMM)的參數(shù)估計35-36
- 4.1.3 高斯混合模型(GMM)轉(zhuǎn)換算法36-37
- 4.2 高斯混合模型過平滑問題的分析37-39
- 4.3 改進的高斯混合模型算法39-42
- 4.3.1 KLD散度39
- 4.3.2 基于KLD的語音幀對齊39-41
- 4.3.3 基于GMM和碼本映射相結(jié)合的語音轉(zhuǎn)換方法41-42
- 4.4 聯(lián)合譜包絡(luò)的基頻變換42-44
- 4.4.1 徑向基函數(shù)網(wǎng)絡(luò)43-44
- 4.4.2 基于RBF的聯(lián)合變換法44
- 4.5 本章小結(jié)44-45
- 5 實驗結(jié)果及其性能分析45-53
- 5.1 實驗的框架和任務(wù)45
- 5.2 客觀測試結(jié)果45-48
- 5.3 主觀測試結(jié)果48-53
- 5.3.1 ABX測試49-50
- 5.3.2 MOS測試50-53
- 6 總結(jié)與展望53-55
- 6.1 工作總結(jié)53-54
- 6.2 研究展望54-55
- 參考文獻55-59
- 攻讀碩士期間主要研究成果59-61
- 致謝61
【參考文獻】
中國重要會議論文全文數(shù)據(jù)庫 前1條
1 馬建春;劉文舉;;基于共振峰和高斯混合模型的聲音轉(zhuǎn)換系統(tǒng)[A];第八屆全國人機語音通訊學(xué)術(shù)會議論文集[C];2005年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 馬瑞云;基于譜包絡(luò)和超音段韻律的語音轉(zhuǎn)換技術(shù)研究[D];南京郵電大學(xué);2011年
本文關(guān)鍵詞:基于GMM和碼本映射相結(jié)合的語音轉(zhuǎn)換方法研究,,由筆耕文化傳播整理發(fā)布。
本文編號:378489
本文鏈接:http://sikaile.net/kejilunwen/wltx/378489.html
最近更新
教材專著