基于MTL-DNN系統(tǒng)融合的混合語言模型語音識(shí)別方法
發(fā)布時(shí)間:2018-04-08 22:11
本文選題:集外詞 切入點(diǎn):混合模型 出處:《數(shù)據(jù)采集與處理》2017年05期
【摘要】:基于混合語言模型的語音識(shí)別系統(tǒng)雖然具有可以識(shí)別集外詞的優(yōu)點(diǎn),但是集外詞識(shí)別準(zhǔn)確率遠(yuǎn)低于集內(nèi)詞。為了進(jìn)一步提升混合語音識(shí)別系統(tǒng)的識(shí)別性能,本文提出了一種基于互補(bǔ)聲學(xué)模型的多系統(tǒng)融合方法。首先,通過采用不同的聲學(xué)建模單元,構(gòu)建了兩套基于隱馬爾科夫模型和深層神經(jīng)網(wǎng)絡(luò)(Hidden Markov model and deep neural network,HMM-DNN)的混合語音識(shí)別系統(tǒng);然后,針對這兩種識(shí)別任務(wù)之間的關(guān)聯(lián)性,采用多任務(wù)學(xué)習(xí)(Multi-task learning DNN,MTL-DNN)思想,實(shí)現(xiàn)DNN網(wǎng)絡(luò)輸入層和隱含層的共享,并通過聯(lián)合訓(xùn)練提高建模精度。最后,采用ROVER(Recognizer output voting error reduction)方法對兩套系統(tǒng)的輸出結(jié)果進(jìn)行融合。實(shí)驗(yàn)結(jié)果表明,相比于單任務(wù)學(xué)習(xí)DNN(Single-task learning DNN,STL-DNN)建模方式,MTL-DNN可以獲得更好的識(shí)別性能;將兩個(gè)系統(tǒng)的輸出進(jìn)行融合,能夠進(jìn)一步降低詞錯(cuò)誤率。
[Abstract]:Although the speech recognition system based on the hybrid language model has the advantage of recognizing extrinsic words, the accuracy of extrinsic words recognition is much lower than that of intra-set words.In order to improve the recognition performance of hybrid speech recognition system, a multi-system fusion method based on complementary acoustic model is proposed in this paper.Firstly, two hybrid speech recognition systems based on Hidden Markov model and deep neural Network (HMM-DNN) are constructed by using different acoustic modeling units.Multi-task learning learning MTL-DNN is adopted to realize the sharing of input layer and hidden layer in DNN network, and the modeling accuracy is improved by joint training.Finally, the output results of the two systems are fused by ROVER(Recognizer output voting error reduction method.The experimental results show that the MTL-DNN can obtain better recognition performance than the single-task learning DNN(Single-task learning DNNN (STL-DNNN) modeling method, and can further reduce the word error rate by merging the output of the two systems.
【作者單位】: 解放軍信息工程大學(xué)信息系統(tǒng)工程學(xué)院;
【基金】:國家自然科學(xué)基金(61175017,61403415,61302107)資助項(xiàng)目
【分類號(hào)】:TN912.34
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 吳軍,,王作英;漢語信息熵和語言模型的復(fù)雜度[J];電子學(xué)報(bào);1996年10期
2 金凌,吳文虎,鄭方,吳根清;距離加權(quán)統(tǒng)計(jì)語言模型及其應(yīng)用[J];中文信息學(xué)報(bào);2001年06期
3 陳浪舟,黃泰翼,nlpr.ia.ac.cn;基于模糊訓(xùn)練集的領(lǐng)域相關(guān)統(tǒng)計(jì)語言模型[J];軟件學(xué)報(bào);2000年07期
4 劉長娥;王世鎮(zhèn);劉加;夏善紅;;語種確認(rèn)中基于段長的語言模型修正方法[J];計(jì)算機(jī)應(yīng)用研究;2006年07期
5 張瑞強(qiáng),王作英,陸大 ;關(guān)于漢語音字轉(zhuǎn)換中語言模型零概率的問題[J];電子學(xué)報(bào);1998年08期
6 汪洪波;;高效的語音識(shí)別系統(tǒng)[J];中國物流與采購;2006年12期
7 汪洪波;;語音識(shí)別系統(tǒng)在配送中心的應(yīng)用[J];信息與電腦;2006年06期
8 楊q
本文編號(hào):1723568
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/1723568.html
最近更新
教材專著