天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 自動(dòng)化論文 >

基于Lattice-free MMI和遷移學(xué)習(xí)的藏語(yǔ)拉薩話聲學(xué)模型研究

發(fā)布時(shí)間:2021-08-23 09:46
  人類和機(jī)器進(jìn)行語(yǔ)音交流,讓機(jī)器聽懂人類的語(yǔ)音,一直是人類長(zhǎng)久以來(lái)的夢(mèng)想。隨著深度學(xué)習(xí)技術(shù)的應(yīng)用,語(yǔ)音識(shí)別聲學(xué)模型建模方式發(fā)生了巨大的變化。但相關(guān)的研究主要集中在英語(yǔ)和漢語(yǔ)普通話這樣的數(shù)據(jù)資源充足的語(yǔ)言中,對(duì)于藏語(yǔ)這樣的資源稀缺的語(yǔ)言研究較少。本研究首先建立TDNN-HMM藏語(yǔ)拉薩話語(yǔ)音識(shí)別基線系統(tǒng),針對(duì)藏語(yǔ)拉薩話數(shù)據(jù)資源稀缺的問(wèn)題,研究使用半正交因式分解TDNN-HMM聲學(xué)模型對(duì)藏語(yǔ)拉薩話語(yǔ)音數(shù)據(jù)進(jìn)行聲學(xué)建模,提升復(fù)雜模型對(duì)于小數(shù)據(jù)集的建模能力。針對(duì)傳統(tǒng)區(qū)分性訓(xùn)練需要進(jìn)行兩遍訓(xùn)練的問(wèn)題,研究使用Lattice-free MMI準(zhǔn)則進(jìn)行聲學(xué)模型訓(xùn)練,相比傳統(tǒng)交叉熵準(zhǔn)則訓(xùn)練的基線,獲得14.5%的性能提升,同時(shí)解碼速度更快。在此基礎(chǔ)上研究數(shù)據(jù)增強(qiáng)和說(shuō)話人自適應(yīng)方法,提高低資源環(huán)境下藏語(yǔ)拉薩話語(yǔ)音識(shí)別系統(tǒng)的魯棒性,進(jìn)一步獲得8%的性能提升。最后本研究通過(guò)遷移學(xué)習(xí)中的權(quán)重遷移方法,進(jìn)行聲學(xué)模型跨語(yǔ)言權(quán)重遷移,將漢語(yǔ)普通話半正交因式分解TDNN模型的隱層權(quán)重矩陣參數(shù)遷移到藏語(yǔ)拉薩話半正交因式分解TDNN模型中,研究隱層數(shù)量對(duì)遷移的影響,在之前實(shí)驗(yàn)基礎(chǔ)上獲得4.2%的性能提升,從而證明漢語(yǔ)普通話到... 

【文章來(lái)源】:西北民族大學(xué)甘肅省

【文章頁(yè)數(shù)】:56 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于Lattice-free MMI和遷移學(xué)習(xí)的藏語(yǔ)拉薩話聲學(xué)模型研究


GMM-HMM模型

概率分布,聲學(xué)模型


圖 2-7 DNN-HMM 聲學(xué)模型模型中 DNN 具有很強(qiáng)的學(xué)習(xí)能力,HMM 則具有強(qiáng)大的序列化建模定聲學(xué)特征后,DNN 的輸出層節(jié)點(diǎn)計(jì)算 HMM 的某個(gè)狀態(tài)后驗(yàn)。實(shí)-HMM 模型使用嵌入式維特比算法進(jìn)行訓(xùn)練。DNN-HMM 模型中 DNGMM,但 DNN 和 GMM 共享音素綁定結(jié)構(gòu),同時(shí)需要 GMM-HMM齊標(biāo)注,所以仍需要訓(xùn)練一個(gè) GMM-HMM 模型。模型區(qū)分性訓(xùn)練大似然估計(jì)(MLE)訓(xùn)練速度快,方便簡(jiǎn)潔,語(yǔ)音識(shí)別通常使用最準(zhǔn)則來(lái)進(jìn)行模型訓(xùn)練。但最大似然估計(jì)準(zhǔn)則只關(guān)心訓(xùn)練文本產(chǎn)生對(duì)應(yīng)最大,忽略了模型的區(qū)分性,而區(qū)分性訓(xùn)練正是研究者針對(duì)最大似然不足而提出的,希望能得到較優(yōu)的語(yǔ)音分類器。即最大似然估計(jì)更關(guān)模型參數(shù)用來(lái)表示訓(xùn)練數(shù)據(jù)的概率分布,區(qū)分性訓(xùn)練則是希望訓(xùn)練文

藏語(yǔ),字典,拉薩


22于是可以將音素集按照以上四種情況進(jìn)行位置音素?cái)U(kuò)充。圖3-1 藏語(yǔ)拉薩話發(fā)音字典3.2 時(shí)延神經(jīng)網(wǎng)絡(luò)時(shí)延神經(jīng)網(wǎng)絡(luò)(TDNN)[48]是 Hinton 教授于 1989 年提出的一種人工神經(jīng)網(wǎng)絡(luò),其目的是為了解決語(yǔ)音識(shí)別中傳統(tǒng)方法 HMM 無(wú)法適應(yīng)語(yǔ)音信號(hào)中的動(dòng)態(tài)時(shí)域變化的問(wèn)題。它對(duì)每個(gè)隱層的輸出都在時(shí)域進(jìn)行擴(kuò)展,即每個(gè)隱層接收到的輸入不僅是前一層在當(dāng)前時(shí)刻的輸出,還有前一層在之前和之后的某些時(shí)刻的輸出,這樣就能對(duì)更長(zhǎng)的歷史信息進(jìn)行建模。而 DNN 通常通過(guò)拼接相鄰幀來(lái)獲得一定的上下文,但卻不能獲得更長(zhǎng)時(shí)間的上下文信息,TDNN 第一層學(xué)到的上下文長(zhǎng)度較短,隨著層數(shù)的增加,越到上層學(xué)習(xí)到越多的上下文相關(guān)信息,這也被認(rèn)為是卷積神經(jīng)網(wǎng)絡(luò)的前身。一個(gè)標(biāo)準(zhǔn)的 TDNN 結(jié)構(gòu)如圖 3-2 所示,第一層最左邊的 5 個(gè)參數(shù)矩陣在時(shí)間維度上共享

【參考文獻(xiàn)】:
期刊論文
[1]藏語(yǔ)拉薩話大詞表連續(xù)語(yǔ)音識(shí)別聲學(xué)模型研究[J]. 李冠宇,孟猛.  計(jì)算機(jī)工程. 2012(05)
[2]藏語(yǔ)連續(xù)語(yǔ)音語(yǔ)料庫(kù)設(shè)計(jì)與實(shí)現(xiàn)[J]. 李永宏,于洪志,孔江平.  計(jì)算機(jī)工程與應(yīng)用. 2010(13)

碩士論文
[1]基于深度學(xué)習(xí)的藏語(yǔ)拉薩方言語(yǔ)音識(shí)別的研究[D]. 張宇聰.西北師范大學(xué) 2016



本文編號(hào):3357636

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3357636.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶a45f1***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com