基于Lattice-free MMI和遷移學習的藏語拉薩話聲學模型研究
發(fā)布時間:2021-08-23 09:46
人類和機器進行語音交流,讓機器聽懂人類的語音,一直是人類長久以來的夢想。隨著深度學習技術的應用,語音識別聲學模型建模方式發(fā)生了巨大的變化。但相關的研究主要集中在英語和漢語普通話這樣的數據資源充足的語言中,對于藏語這樣的資源稀缺的語言研究較少。本研究首先建立TDNN-HMM藏語拉薩話語音識別基線系統(tǒng),針對藏語拉薩話數據資源稀缺的問題,研究使用半正交因式分解TDNN-HMM聲學模型對藏語拉薩話語音數據進行聲學建模,提升復雜模型對于小數據集的建模能力。針對傳統(tǒng)區(qū)分性訓練需要進行兩遍訓練的問題,研究使用Lattice-free MMI準則進行聲學模型訓練,相比傳統(tǒng)交叉熵準則訓練的基線,獲得14.5%的性能提升,同時解碼速度更快。在此基礎上研究數據增強和說話人自適應方法,提高低資源環(huán)境下藏語拉薩話語音識別系統(tǒng)的魯棒性,進一步獲得8%的性能提升。最后本研究通過遷移學習中的權重遷移方法,進行聲學模型跨語言權重遷移,將漢語普通話半正交因式分解TDNN模型的隱層權重矩陣參數遷移到藏語拉薩話半正交因式分解TDNN模型中,研究隱層數量對遷移的影響,在之前實驗基礎上獲得4.2%的性能提升,從而證明漢語普通話到...
【文章來源】:西北民族大學甘肅省
【文章頁數】:56 頁
【學位級別】:碩士
【部分圖文】:
GMM-HMM模型
圖 2-7 DNN-HMM 聲學模型模型中 DNN 具有很強的學習能力,HMM 則具有強大的序列化建模定聲學特征后,DNN 的輸出層節(jié)點計算 HMM 的某個狀態(tài)后驗。實-HMM 模型使用嵌入式維特比算法進行訓練。DNN-HMM 模型中 DNGMM,但 DNN 和 GMM 共享音素綁定結構,同時需要 GMM-HMM齊標注,所以仍需要訓練一個 GMM-HMM 模型。模型區(qū)分性訓練大似然估計(MLE)訓練速度快,方便簡潔,語音識別通常使用最準則來進行模型訓練。但最大似然估計準則只關心訓練文本產生對應最大,忽略了模型的區(qū)分性,而區(qū)分性訓練正是研究者針對最大似然不足而提出的,希望能得到較優(yōu)的語音分類器。即最大似然估計更關模型參數用來表示訓練數據的概率分布,區(qū)分性訓練則是希望訓練文
22于是可以將音素集按照以上四種情況進行位置音素擴充。圖3-1 藏語拉薩話發(fā)音字典3.2 時延神經網絡時延神經網絡(TDNN)[48]是 Hinton 教授于 1989 年提出的一種人工神經網絡,其目的是為了解決語音識別中傳統(tǒng)方法 HMM 無法適應語音信號中的動態(tài)時域變化的問題。它對每個隱層的輸出都在時域進行擴展,即每個隱層接收到的輸入不僅是前一層在當前時刻的輸出,還有前一層在之前和之后的某些時刻的輸出,這樣就能對更長的歷史信息進行建模。而 DNN 通常通過拼接相鄰幀來獲得一定的上下文,但卻不能獲得更長時間的上下文信息,TDNN 第一層學到的上下文長度較短,隨著層數的增加,越到上層學習到越多的上下文相關信息,這也被認為是卷積神經網絡的前身。一個標準的 TDNN 結構如圖 3-2 所示,第一層最左邊的 5 個參數矩陣在時間維度上共享
【參考文獻】:
期刊論文
[1]藏語拉薩話大詞表連續(xù)語音識別聲學模型研究[J]. 李冠宇,孟猛. 計算機工程. 2012(05)
[2]藏語連續(xù)語音語料庫設計與實現[J]. 李永宏,于洪志,孔江平. 計算機工程與應用. 2010(13)
碩士論文
[1]基于深度學習的藏語拉薩方言語音識別的研究[D]. 張宇聰.西北師范大學 2016
本文編號:3357636
【文章來源】:西北民族大學甘肅省
【文章頁數】:56 頁
【學位級別】:碩士
【部分圖文】:
GMM-HMM模型
圖 2-7 DNN-HMM 聲學模型模型中 DNN 具有很強的學習能力,HMM 則具有強大的序列化建模定聲學特征后,DNN 的輸出層節(jié)點計算 HMM 的某個狀態(tài)后驗。實-HMM 模型使用嵌入式維特比算法進行訓練。DNN-HMM 模型中 DNGMM,但 DNN 和 GMM 共享音素綁定結構,同時需要 GMM-HMM齊標注,所以仍需要訓練一個 GMM-HMM 模型。模型區(qū)分性訓練大似然估計(MLE)訓練速度快,方便簡潔,語音識別通常使用最準則來進行模型訓練。但最大似然估計準則只關心訓練文本產生對應最大,忽略了模型的區(qū)分性,而區(qū)分性訓練正是研究者針對最大似然不足而提出的,希望能得到較優(yōu)的語音分類器。即最大似然估計更關模型參數用來表示訓練數據的概率分布,區(qū)分性訓練則是希望訓練文
22于是可以將音素集按照以上四種情況進行位置音素擴充。圖3-1 藏語拉薩話發(fā)音字典3.2 時延神經網絡時延神經網絡(TDNN)[48]是 Hinton 教授于 1989 年提出的一種人工神經網絡,其目的是為了解決語音識別中傳統(tǒng)方法 HMM 無法適應語音信號中的動態(tài)時域變化的問題。它對每個隱層的輸出都在時域進行擴展,即每個隱層接收到的輸入不僅是前一層在當前時刻的輸出,還有前一層在之前和之后的某些時刻的輸出,這樣就能對更長的歷史信息進行建模。而 DNN 通常通過拼接相鄰幀來獲得一定的上下文,但卻不能獲得更長時間的上下文信息,TDNN 第一層學到的上下文長度較短,隨著層數的增加,越到上層學習到越多的上下文相關信息,這也被認為是卷積神經網絡的前身。一個標準的 TDNN 結構如圖 3-2 所示,第一層最左邊的 5 個參數矩陣在時間維度上共享
【參考文獻】:
期刊論文
[1]藏語拉薩話大詞表連續(xù)語音識別聲學模型研究[J]. 李冠宇,孟猛. 計算機工程. 2012(05)
[2]藏語連續(xù)語音語料庫設計與實現[J]. 李永宏,于洪志,孔江平. 計算機工程與應用. 2010(13)
碩士論文
[1]基于深度學習的藏語拉薩方言語音識別的研究[D]. 張宇聰.西北師范大學 2016
本文編號:3357636
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3357636.html