基于序列記憶神經(jīng)網(wǎng)絡(luò)的藏語聲學(xué)建模方法研究
【學(xué)位授予單位】:中國科學(xué)技術(shù)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:TN912.34;TP18
【圖文】:
w逡逑式1.3中,條件概率P(X/\V)表示某個詞模型生成觀察序列X的概率,而P(W)逡逑則是詞序列的先驗概率,由數(shù)理統(tǒng)計得到。在圖1.1中,聲學(xué)模型(AcousticModel,逡逑AM)對尸(X/W)建模,而P(W)則是由語言模型(Language邋Model,LM)給出。逡逑如圖1.1所示,信號預(yù)處理、AM、LM和識別器是語音識別系統(tǒng)的四大組成部分。逡逑訓(xùn)練語音逡逑t。咤澹澹保辈罚娢谋菊Z料逡逑聲學(xué)模型邐語言模型逡逑一 ̄?邋(vadTIi?)邋一 ̄?特征提取—?識別器——?識別文本逡逑測試語音逡逑圖1.1語音識別基本框圖逡逑信號預(yù)處理可以說是一個語音去噪增強并數(shù)字化的過程,將語音轉(zhuǎn)換成計逡逑算機能夠處理的數(shù)據(jù)格式。主要包括消除噪聲干擾,提取特征以及特征規(guī)整等逡逑方面。在聲學(xué)特征的提取過程中,首先通過預(yù)加重提升高頻成分,然后基于語音逡逑信號的短時平穩(wěn)性,我們對原始語音進行加窗分幀,得到短時間內(nèi)的一個平穩(wěn)逡逑信號,再將該平穩(wěn)信號做快速傅里葉變換(Fast邋Fourier邋Transform,邋FFT)、三角逡逑濾波以及離散余弦變換等
w逡逑式1.3中,條件概率P(X/\V)表示某個詞模型生成觀察序列X的概率,而P(W)逡逑則是詞序列的先驗概率,由數(shù)理統(tǒng)計得到。在圖1.1中,聲學(xué)模型(AcousticModel,逡逑AM)對尸(X/W)建模,而P(W)則是由語言模型(Language邋Model,LM)給出。逡逑如圖1.1所示,信號預(yù)處理、AM、LM和識別器是語音識別系統(tǒng)的四大組成部分。逡逑訓(xùn)練語音逡逑t。咤澹澹保辈罚娢谋菊Z料逡逑聲學(xué)模型邐語言模型逡逑一 ̄?邋(vadTIi?)邋一 ̄?特征提取—?識別器——?識別文本逡逑測試語音逡逑圖1.1語音識別基本框圖逡逑信號預(yù)處理可以說是一個語音去噪增強并數(shù)字化的過程,將語音轉(zhuǎn)換成計逡逑算機能夠處理的數(shù)據(jù)格式。主要包括消除噪聲干擾,提取特征以及特征規(guī)整等逡逑方面。在聲學(xué)特征的提取過程中,首先通過預(yù)加重提升高頻成分,然后基于語音逡逑信號的短時平穩(wěn)性,我們對原始語音進行加窗分幀,得到短時間內(nèi)的一個平穩(wěn)逡逑信號,再將該平穩(wěn)信號做快速傅里葉變換(Fast邋Fourier邋Transform,邋FFT)、三角逡逑濾波以及離散余弦變換等
,,模[37],獲得了巨大成功。而微軟研宄院ndent,CD)的深度神經(jīng)網(wǎng)絡(luò)和隱馬爾科模型在LVCSR任務(wù)上相比傳統(tǒng)的主流G從此,DNN-HMM取代GMM-HMM成說語音識別性能的每一次飛躍,神經(jīng)網(wǎng)度學(xué)習(xí)的聲學(xué)建模逡逑首次被用于聲學(xué)建模,識別性能相比G是一個層內(nèi)無記憶,層間也無記憶的神經(jīng)關(guān)信號,相鄰幀之間的特征和類別也有過程中我們通常通過拼幀操作來獲取上。此外,在基于DNN的聲學(xué)建模過程的強制對齊操作。因此,基于DNN的聲級別的標(biāo)注信息。逡逑
【參考文獻】
相關(guān)期刊論文 前5條
1 袁勝龍;郭武;戴禮榮;;基于深層神經(jīng)網(wǎng)絡(luò)的藏語識別[J];模式識別與人工智能;2015年03期
2 李冠宇;孟猛;;藏語拉薩話大詞表連續(xù)語音識別聲學(xué)模型研究[J];計算機工程;2012年05期
3 姚徐;李永宏;單廣榮;于洪志;;藏語孤立詞語音識別系統(tǒng)研究[J];西北民族大學(xué)學(xué)報(自然科學(xué)版);2009年01期
4 鄭方 ,張國亮 ,宋戰(zhàn)江;Comparison of Different Implementations of MFCC[J];Journal of Computer Science and Technology;2001年06期
5 丁松;;堅持“務(wù)實”精神的語言學(xué)家——訪中國社會科學(xué)院語言研究所名譽所長呂叔湘先生[J];世界漢語教學(xué);1987年03期
相關(guān)博士學(xué)位論文 前1條
1 張仕良;基于深度神經(jīng)網(wǎng)絡(luò)的語音識別模型研究[D];中國科學(xué)技術(shù)大學(xué);2017年
相關(guān)碩士學(xué)位論文 前3條
1 劉曉鳳;藏語語音深度特征提取及語音識別研究[D];中央民族大學(xué);2016年
2 袁勝龍;資源受限情況下基于ASR的關(guān)鍵詞檢索研究[D];中國科學(xué)技術(shù)大學(xué);2016年
3 拉龍東智;藏語語音識別技術(shù)研究[D];西藏大學(xué);2015年
本文編號:2787654
本文鏈接:http://sikaile.net/kejilunwen/wltx/2787654.html