基于Lattice-free MMI和遷移學(xué)習(xí)的藏語(yǔ)拉薩話聲學(xué)模型研究
發(fā)布時(shí)間:2021-08-23 09:46
人類和機(jī)器進(jìn)行語(yǔ)音交流,讓機(jī)器聽懂人類的語(yǔ)音,一直是人類長(zhǎng)久以來(lái)的夢(mèng)想。隨著深度學(xué)習(xí)技術(shù)的應(yīng)用,語(yǔ)音識(shí)別聲學(xué)模型建模方式發(fā)生了巨大的變化。但相關(guān)的研究主要集中在英語(yǔ)和漢語(yǔ)普通話這樣的數(shù)據(jù)資源充足的語(yǔ)言中,對(duì)于藏語(yǔ)這樣的資源稀缺的語(yǔ)言研究較少。本研究首先建立TDNN-HMM藏語(yǔ)拉薩話語(yǔ)音識(shí)別基線系統(tǒng),針對(duì)藏語(yǔ)拉薩話數(shù)據(jù)資源稀缺的問(wèn)題,研究使用半正交因式分解TDNN-HMM聲學(xué)模型對(duì)藏語(yǔ)拉薩話語(yǔ)音數(shù)據(jù)進(jìn)行聲學(xué)建模,提升復(fù)雜模型對(duì)于小數(shù)據(jù)集的建模能力。針對(duì)傳統(tǒng)區(qū)分性訓(xùn)練需要進(jìn)行兩遍訓(xùn)練的問(wèn)題,研究使用Lattice-free MMI準(zhǔn)則進(jìn)行聲學(xué)模型訓(xùn)練,相比傳統(tǒng)交叉熵準(zhǔn)則訓(xùn)練的基線,獲得14.5%的性能提升,同時(shí)解碼速度更快。在此基礎(chǔ)上研究數(shù)據(jù)增強(qiáng)和說(shuō)話人自適應(yīng)方法,提高低資源環(huán)境下藏語(yǔ)拉薩話語(yǔ)音識(shí)別系統(tǒng)的魯棒性,進(jìn)一步獲得8%的性能提升。最后本研究通過(guò)遷移學(xué)習(xí)中的權(quán)重遷移方法,進(jìn)行聲學(xué)模型跨語(yǔ)言權(quán)重遷移,將漢語(yǔ)普通話半正交因式分解TDNN模型的隱層權(quán)重矩陣參數(shù)遷移到藏語(yǔ)拉薩話半正交因式分解TDNN模型中,研究隱層數(shù)量對(duì)遷移的影響,在之前實(shí)驗(yàn)基礎(chǔ)上獲得4.2%的性能提升,從而證明漢語(yǔ)普通話到...
【文章來(lái)源】:西北民族大學(xué)甘肅省
【文章頁(yè)數(shù)】:56 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
GMM-HMM模型
圖 2-7 DNN-HMM 聲學(xué)模型模型中 DNN 具有很強(qiáng)的學(xué)習(xí)能力,HMM 則具有強(qiáng)大的序列化建模定聲學(xué)特征后,DNN 的輸出層節(jié)點(diǎn)計(jì)算 HMM 的某個(gè)狀態(tài)后驗(yàn)。實(shí)-HMM 模型使用嵌入式維特比算法進(jìn)行訓(xùn)練。DNN-HMM 模型中 DNGMM,但 DNN 和 GMM 共享音素綁定結(jié)構(gòu),同時(shí)需要 GMM-HMM齊標(biāo)注,所以仍需要訓(xùn)練一個(gè) GMM-HMM 模型。模型區(qū)分性訓(xùn)練大似然估計(jì)(MLE)訓(xùn)練速度快,方便簡(jiǎn)潔,語(yǔ)音識(shí)別通常使用最準(zhǔn)則來(lái)進(jìn)行模型訓(xùn)練。但最大似然估計(jì)準(zhǔn)則只關(guān)心訓(xùn)練文本產(chǎn)生對(duì)應(yīng)最大,忽略了模型的區(qū)分性,而區(qū)分性訓(xùn)練正是研究者針對(duì)最大似然不足而提出的,希望能得到較優(yōu)的語(yǔ)音分類器。即最大似然估計(jì)更關(guān)模型參數(shù)用來(lái)表示訓(xùn)練數(shù)據(jù)的概率分布,區(qū)分性訓(xùn)練則是希望訓(xùn)練文
22于是可以將音素集按照以上四種情況進(jìn)行位置音素?cái)U(kuò)充。圖3-1 藏語(yǔ)拉薩話發(fā)音字典3.2 時(shí)延神經(jīng)網(wǎng)絡(luò)時(shí)延神經(jīng)網(wǎng)絡(luò)(TDNN)[48]是 Hinton 教授于 1989 年提出的一種人工神經(jīng)網(wǎng)絡(luò),其目的是為了解決語(yǔ)音識(shí)別中傳統(tǒng)方法 HMM 無(wú)法適應(yīng)語(yǔ)音信號(hào)中的動(dòng)態(tài)時(shí)域變化的問(wèn)題。它對(duì)每個(gè)隱層的輸出都在時(shí)域進(jìn)行擴(kuò)展,即每個(gè)隱層接收到的輸入不僅是前一層在當(dāng)前時(shí)刻的輸出,還有前一層在之前和之后的某些時(shí)刻的輸出,這樣就能對(duì)更長(zhǎng)的歷史信息進(jìn)行建模。而 DNN 通常通過(guò)拼接相鄰幀來(lái)獲得一定的上下文,但卻不能獲得更長(zhǎng)時(shí)間的上下文信息,TDNN 第一層學(xué)到的上下文長(zhǎng)度較短,隨著層數(shù)的增加,越到上層學(xué)習(xí)到越多的上下文相關(guān)信息,這也被認(rèn)為是卷積神經(jīng)網(wǎng)絡(luò)的前身。一個(gè)標(biāo)準(zhǔn)的 TDNN 結(jié)構(gòu)如圖 3-2 所示,第一層最左邊的 5 個(gè)參數(shù)矩陣在時(shí)間維度上共享
【參考文獻(xiàn)】:
期刊論文
[1]藏語(yǔ)拉薩話大詞表連續(xù)語(yǔ)音識(shí)別聲學(xué)模型研究[J]. 李冠宇,孟猛. 計(jì)算機(jī)工程. 2012(05)
[2]藏語(yǔ)連續(xù)語(yǔ)音語(yǔ)料庫(kù)設(shè)計(jì)與實(shí)現(xiàn)[J]. 李永宏,于洪志,孔江平. 計(jì)算機(jī)工程與應(yīng)用. 2010(13)
碩士論文
[1]基于深度學(xué)習(xí)的藏語(yǔ)拉薩方言語(yǔ)音識(shí)別的研究[D]. 張宇聰.西北師范大學(xué) 2016
本文編號(hào):3357636
【文章來(lái)源】:西北民族大學(xué)甘肅省
【文章頁(yè)數(shù)】:56 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
GMM-HMM模型
圖 2-7 DNN-HMM 聲學(xué)模型模型中 DNN 具有很強(qiáng)的學(xué)習(xí)能力,HMM 則具有強(qiáng)大的序列化建模定聲學(xué)特征后,DNN 的輸出層節(jié)點(diǎn)計(jì)算 HMM 的某個(gè)狀態(tài)后驗(yàn)。實(shí)-HMM 模型使用嵌入式維特比算法進(jìn)行訓(xùn)練。DNN-HMM 模型中 DNGMM,但 DNN 和 GMM 共享音素綁定結(jié)構(gòu),同時(shí)需要 GMM-HMM齊標(biāo)注,所以仍需要訓(xùn)練一個(gè) GMM-HMM 模型。模型區(qū)分性訓(xùn)練大似然估計(jì)(MLE)訓(xùn)練速度快,方便簡(jiǎn)潔,語(yǔ)音識(shí)別通常使用最準(zhǔn)則來(lái)進(jìn)行模型訓(xùn)練。但最大似然估計(jì)準(zhǔn)則只關(guān)心訓(xùn)練文本產(chǎn)生對(duì)應(yīng)最大,忽略了模型的區(qū)分性,而區(qū)分性訓(xùn)練正是研究者針對(duì)最大似然不足而提出的,希望能得到較優(yōu)的語(yǔ)音分類器。即最大似然估計(jì)更關(guān)模型參數(shù)用來(lái)表示訓(xùn)練數(shù)據(jù)的概率分布,區(qū)分性訓(xùn)練則是希望訓(xùn)練文
22于是可以將音素集按照以上四種情況進(jìn)行位置音素?cái)U(kuò)充。圖3-1 藏語(yǔ)拉薩話發(fā)音字典3.2 時(shí)延神經(jīng)網(wǎng)絡(luò)時(shí)延神經(jīng)網(wǎng)絡(luò)(TDNN)[48]是 Hinton 教授于 1989 年提出的一種人工神經(jīng)網(wǎng)絡(luò),其目的是為了解決語(yǔ)音識(shí)別中傳統(tǒng)方法 HMM 無(wú)法適應(yīng)語(yǔ)音信號(hào)中的動(dòng)態(tài)時(shí)域變化的問(wèn)題。它對(duì)每個(gè)隱層的輸出都在時(shí)域進(jìn)行擴(kuò)展,即每個(gè)隱層接收到的輸入不僅是前一層在當(dāng)前時(shí)刻的輸出,還有前一層在之前和之后的某些時(shí)刻的輸出,這樣就能對(duì)更長(zhǎng)的歷史信息進(jìn)行建模。而 DNN 通常通過(guò)拼接相鄰幀來(lái)獲得一定的上下文,但卻不能獲得更長(zhǎng)時(shí)間的上下文信息,TDNN 第一層學(xué)到的上下文長(zhǎng)度較短,隨著層數(shù)的增加,越到上層學(xué)習(xí)到越多的上下文相關(guān)信息,這也被認(rèn)為是卷積神經(jīng)網(wǎng)絡(luò)的前身。一個(gè)標(biāo)準(zhǔn)的 TDNN 結(jié)構(gòu)如圖 3-2 所示,第一層最左邊的 5 個(gè)參數(shù)矩陣在時(shí)間維度上共享
【參考文獻(xiàn)】:
期刊論文
[1]藏語(yǔ)拉薩話大詞表連續(xù)語(yǔ)音識(shí)別聲學(xué)模型研究[J]. 李冠宇,孟猛. 計(jì)算機(jī)工程. 2012(05)
[2]藏語(yǔ)連續(xù)語(yǔ)音語(yǔ)料庫(kù)設(shè)計(jì)與實(shí)現(xiàn)[J]. 李永宏,于洪志,孔江平. 計(jì)算機(jī)工程與應(yīng)用. 2010(13)
碩士論文
[1]基于深度學(xué)習(xí)的藏語(yǔ)拉薩方言語(yǔ)音識(shí)別的研究[D]. 張宇聰.西北師范大學(xué) 2016
本文編號(hào):3357636
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3357636.html
最近更新
教材專著