天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于序列記憶神經(jīng)網(wǎng)絡(luò)的藏語聲學(xué)建模方法研究

發(fā)布時間:2020-08-09 22:40
【摘要】:隨著深度學(xué)習(xí)的興起,作為語音識別系統(tǒng)的核心部分,聲學(xué)模型經(jīng)歷了從基于高斯混合模型聲學(xué)建模到基于神經(jīng)網(wǎng)絡(luò)的聲學(xué)建模的發(fā)展歷程,其識別性能也取得了質(zhì)的飛躍。藏語是我國一門重要的少數(shù)民族語言。與漢語、英語等主流語言相比,藏語作為一個小語種,藏語語音識別仍然面臨許多挑戰(zhàn)。在此背景下,本文從藏語聲學(xué)模型的結(jié)構(gòu)出發(fā),展開了系統(tǒng)而全面的研究。一方面結(jié)合藏語和漢語的共同發(fā)音特點,優(yōu)化建模單元,既提升了識別率,又解決了藏漢雙語語音識別問題。另一方面,本文也提出了一些方法來增強聲學(xué)模型的魯棒性以及加快聲學(xué)模型的訓(xùn)練速度。首先,本文研究了基于端到端技術(shù)的藏漢雙語混合聲學(xué)建模方法。在藏語語音識別任務(wù)上,分別探索不同建模單元對藏語聲學(xué)模型的影響。在已有發(fā)音字典的情況下,本文將鏈接時序分類技術(shù)(Connectionist Temporal Classi-fication,CTC)與高斯混合模型-隱馬爾科夫模型(Gaussian Mixture Model-Hidden MarkovModel,GMM-HMM)、發(fā)音字典等先驗知識結(jié)合起來,進一步優(yōu)化端到端的聲學(xué)模型,識別率獲得進一步提升。在藏漢雙語混合語音識別任務(wù)上,藏漢聯(lián)合發(fā)音字典的缺乏使得傳統(tǒng)的基于隱馬爾科夫模型的聲學(xué)建模方法不再適用。本文提出采用端到端的混合建模方法,以字取代音素作為建模單元,訓(xùn)練聲學(xué)模型,共享隱層。然而,在資源稀少情況下,建模單元的稀疏性是聲學(xué)建模過程中不可避免的問題。本文提出兩種方法解決建模單元的稀疏性問題。其一,漢語音節(jié)取代漢字成為建模單元。其二,采用加噪算法來增加藏漢雙語語音。實驗證明,在藏漢混合識別任務(wù)上,基于上述方法的實驗結(jié)果獲得了明顯提升。其次,針對低資源情況下端到端聲學(xué)模型的魯棒性問題,本文提出采用多任務(wù)學(xué)習(xí)的策略來增強聲學(xué)模型的魯棒性。分別采用音素、藏字作為多任務(wù)學(xué)習(xí)的候選。此外,本文還將基于CTC準(zhǔn)則的多任務(wù)學(xué)習(xí)與交叉熵(Cross Entropy,CE)準(zhǔn)則結(jié)合起來,采用綁定的三因子作為建模單元,以此作為附屬任務(wù)進一步優(yōu)化端到端的聲學(xué)模型。實驗結(jié)果證明,在藏語語音識別任務(wù)上,上述方法相比基于遷移學(xué)習(xí)的聲學(xué)模型,藏字識別率獲得明顯提升。最后,本文提出采用前饋序列記憶網(wǎng)絡(luò)(Feedforward Sequential Memory Net-works,FSMN)作為端到端的聲學(xué)模型進一步加速聲學(xué)模型訓(xùn)練。前饋序列記憶網(wǎng)絡(luò)通過記憶塊對時序信號的長時相關(guān)性建模,從而避免了循環(huán)神經(jīng)網(wǎng)絡(luò)雙向記憶時間步耗時等待的問題。其具有抽頭延遲結(jié)構(gòu)的記憶模塊使得基于前饋序列記憶網(wǎng)絡(luò)的端到端的聲學(xué)模型訓(xùn)練過程更加快速穩(wěn)定。實驗表明,在藏語語音識別任務(wù)上,上述方法在識別率下降0.19%的前提下,聲學(xué)模型的訓(xùn)練速度提高了至少5倍以上。
【學(xué)位授予單位】:中國科學(xué)技術(shù)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:TN912.34;TP18
【圖文】:

序列,語音識別,語言模型


w逡逑式1.3中,條件概率P(X/\V)表示某個詞模型生成觀察序列X的概率,而P(W)逡逑則是詞序列的先驗概率,由數(shù)理統(tǒng)計得到。在圖1.1中,聲學(xué)模型(AcousticModel,逡逑AM)對尸(X/W)建模,而P(W)則是由語言模型(Language邋Model,LM)給出。逡逑如圖1.1所示,信號預(yù)處理、AM、LM和識別器是語音識別系統(tǒng)的四大組成部分。逡逑訓(xùn)練語音逡逑t。咤澹澹保辈罚娢谋菊Z料逡逑聲學(xué)模型邐語言模型逡逑一 ̄?邋(vadTIi?)邋一 ̄?特征提取—?識別器——?識別文本逡逑測試語音逡逑圖1.1語音識別基本框圖逡逑信號預(yù)處理可以說是一個語音去噪增強并數(shù)字化的過程,將語音轉(zhuǎn)換成計逡逑算機能夠處理的數(shù)據(jù)格式。主要包括消除噪聲干擾,提取特征以及特征規(guī)整等逡逑方面。在聲學(xué)特征的提取過程中,首先通過預(yù)加重提升高頻成分,然后基于語音逡逑信號的短時平穩(wěn)性,我們對原始語音進行加窗分幀,得到短時間內(nèi)的一個平穩(wěn)逡逑信號,再將該平穩(wěn)信號做快速傅里葉變換(Fast邋Fourier邋Transform,邋FFT)、三角逡逑濾波以及離散余弦變換等

序列,聲學(xué)特征,提取過程


w逡逑式1.3中,條件概率P(X/\V)表示某個詞模型生成觀察序列X的概率,而P(W)逡逑則是詞序列的先驗概率,由數(shù)理統(tǒng)計得到。在圖1.1中,聲學(xué)模型(AcousticModel,逡逑AM)對尸(X/W)建模,而P(W)則是由語言模型(Language邋Model,LM)給出。逡逑如圖1.1所示,信號預(yù)處理、AM、LM和識別器是語音識別系統(tǒng)的四大組成部分。逡逑訓(xùn)練語音逡逑t。咤澹澹保辈罚娢谋菊Z料逡逑聲學(xué)模型邐語言模型逡逑一 ̄?邋(vadTIi?)邋一 ̄?特征提取—?識別器——?識別文本逡逑測試語音逡逑圖1.1語音識別基本框圖逡逑信號預(yù)處理可以說是一個語音去噪增強并數(shù)字化的過程,將語音轉(zhuǎn)換成計逡逑算機能夠處理的數(shù)據(jù)格式。主要包括消除噪聲干擾,提取特征以及特征規(guī)整等逡逑方面。在聲學(xué)特征的提取過程中,首先通過預(yù)加重提升高頻成分,然后基于語音逡逑信號的短時平穩(wěn)性,我們對原始語音進行加窗分幀,得到短時間內(nèi)的一個平穩(wěn)逡逑信號,再將該平穩(wěn)信號做快速傅里葉變換(Fast邋Fourier邋Transform,邋FFT)、三角逡逑濾波以及離散余弦變換等

結(jié)構(gòu)示意圖,聲學(xué),無記憶


,,模[37],獲得了巨大成功。而微軟研宄院ndent,CD)的深度神經(jīng)網(wǎng)絡(luò)和隱馬爾科模型在LVCSR任務(wù)上相比傳統(tǒng)的主流G從此,DNN-HMM取代GMM-HMM成說語音識別性能的每一次飛躍,神經(jīng)網(wǎng)度學(xué)習(xí)的聲學(xué)建模逡逑首次被用于聲學(xué)建模,識別性能相比G是一個層內(nèi)無記憶,層間也無記憶的神經(jīng)關(guān)信號,相鄰幀之間的特征和類別也有過程中我們通常通過拼幀操作來獲取上。此外,在基于DNN的聲學(xué)建模過程的強制對齊操作。因此,基于DNN的聲級別的標(biāo)注信息。逡逑

【參考文獻】

相關(guān)期刊論文 前5條

1 袁勝龍;郭武;戴禮榮;;基于深層神經(jīng)網(wǎng)絡(luò)的藏語識別[J];模式識別與人工智能;2015年03期

2 李冠宇;孟猛;;藏語拉薩話大詞表連續(xù)語音識別聲學(xué)模型研究[J];計算機工程;2012年05期

3 姚徐;李永宏;單廣榮;于洪志;;藏語孤立詞語音識別系統(tǒng)研究[J];西北民族大學(xué)學(xué)報(自然科學(xué)版);2009年01期

4 鄭方 ,張國亮 ,宋戰(zhàn)江;Comparison of Different Implementations of MFCC[J];Journal of Computer Science and Technology;2001年06期

5 丁松;;堅持“務(wù)實”精神的語言學(xué)家——訪中國社會科學(xué)院語言研究所名譽所長呂叔湘先生[J];世界漢語教學(xué);1987年03期

相關(guān)博士學(xué)位論文 前1條

1 張仕良;基于深度神經(jīng)網(wǎng)絡(luò)的語音識別模型研究[D];中國科學(xué)技術(shù)大學(xué);2017年

相關(guān)碩士學(xué)位論文 前3條

1 劉曉鳳;藏語語音深度特征提取及語音識別研究[D];中央民族大學(xué);2016年

2 袁勝龍;資源受限情況下基于ASR的關(guān)鍵詞檢索研究[D];中國科學(xué)技術(shù)大學(xué);2016年

3 拉龍東智;藏語語音識別技術(shù)研究[D];西藏大學(xué);2015年



本文編號:2787654

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/wltx/2787654.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶06bb1***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com