基于DNN-HMM的藏語多任務(wù)學(xué)習(xí)聲學(xué)模型研究
發(fā)布時(shí)間:2021-06-15 06:25
自動(dòng)語音識(shí)別技術(shù)是可以使人與機(jī)器交流更加順暢的關(guān)鍵技術(shù)之一。近年來隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,語音識(shí)別的準(zhǔn)確率得到了很大程度的提升。通過研究發(fā)現(xiàn),充足且有效的訓(xùn)練數(shù)據(jù)可以使語音識(shí)別效果有很大的提升。例如英語和漢語普通話這樣的數(shù)據(jù)資源充足的語言,語音識(shí)別的準(zhǔn)確性已經(jīng)達(dá)到了人的水平,但是很多語言的數(shù)據(jù)資源相對(duì)有限,這就導(dǎo)致這類語言在語音識(shí)別的研究上沒有取得很好的進(jìn)展。本文在藏語語音識(shí)別中對(duì)訓(xùn)練數(shù)據(jù)獲取有限的前提下,我們來研究藏語自動(dòng)語音識(shí)別中使用深度神經(jīng)網(wǎng)絡(luò)的方法進(jìn)行聲學(xué)模型的建模。在聲學(xué)模型的構(gòu)建上面嘗試著使用多任務(wù)學(xué)習(xí)的思想,通過多個(gè)任務(wù)聯(lián)合訓(xùn)練,從而提高語音識(shí)別正確率,一定程度上緩解訓(xùn)練數(shù)據(jù)不足的問題。在對(duì)聲學(xué)模型的多任務(wù)學(xué)習(xí)研究上面,我們選擇藏語拉薩話作為研究對(duì)象,在聲學(xué)模型深度神經(jīng)網(wǎng)絡(luò)的選取上,我們對(duì)時(shí)延神經(jīng)網(wǎng)絡(luò)進(jìn)行了研究和嘗試。為了探尋深度神經(jīng)網(wǎng)絡(luò)對(duì)藏語拉薩話語音識(shí)別的影響,我們首先建立基于TDNN-HMM的藏語拉薩話語音識(shí)別基線系統(tǒng),然后針對(duì)模型建模能力和訓(xùn)練速度以及訓(xùn)練數(shù)據(jù)有限等問題,我們進(jìn)行分析和研究,選擇使用半正交因式分解TDNN結(jié)構(gòu)進(jìn)行藏語拉薩話聲學(xué)模型的建模,實(shí)驗(yàn)結(jié)...
【文章來源】:西北民族大學(xué)甘肅省
【文章頁數(shù)】:58 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
語音識(shí)別系統(tǒng)的架構(gòu)
西北民族大學(xué)碩士學(xué)位論文82.1信號(hào)處理和特征提取語音識(shí)別中所有特征提取的共同目標(biāo)是:使語音信息更可用于統(tǒng)計(jì)建模。原始音頻信號(hào)不利于建模語音,因?yàn)檎Z音信號(hào)在時(shí)域上面是一個(gè)不平穩(wěn)的隨機(jī)過程,而在頻域上面我們可以通過分析觀察它們的共振峰特性、基音頻率和諧波頻率等信息。如下圖2.2所示:原始波形顯示音頻(上面),在頻域上面的表述(下面)。所以在特征提取的時(shí)候通常是將原始音頻信號(hào)經(jīng)過傅里葉變換之后,在頻域上面分析語音信號(hào)的特性。圖2.2波形圖和語譜圖語音識(shí)別中常用的特征提取方法有很多種:基于濾波器組的Fbank特征和梅爾頻率倒譜系數(shù)(MFCC)等,本文提取的特征是梅爾頻率倒譜系數(shù)特征,如下圖2.3所示是MFCC特征的提取流程:圖2.3MFCC特征提取流程MFCC是指在Mel標(biāo)度頻率域提取出來的倒譜參數(shù),Mel標(biāo)度描述了人耳頻率的非線性特性,它與頻率的關(guān)系可用下式近似表示:)4-2()7001lg(2595)(ffMel
西北民族大學(xué)碩士學(xué)位論文82.1信號(hào)處理和特征提取語音識(shí)別中所有特征提取的共同目標(biāo)是:使語音信息更可用于統(tǒng)計(jì)建模。原始音頻信號(hào)不利于建模語音,因?yàn)檎Z音信號(hào)在時(shí)域上面是一個(gè)不平穩(wěn)的隨機(jī)過程,而在頻域上面我們可以通過分析觀察它們的共振峰特性、基音頻率和諧波頻率等信息。如下圖2.2所示:原始波形顯示音頻(上面),在頻域上面的表述(下面)。所以在特征提取的時(shí)候通常是將原始音頻信號(hào)經(jīng)過傅里葉變換之后,在頻域上面分析語音信號(hào)的特性。圖2.2波形圖和語譜圖語音識(shí)別中常用的特征提取方法有很多種:基于濾波器組的Fbank特征和梅爾頻率倒譜系數(shù)(MFCC)等,本文提取的特征是梅爾頻率倒譜系數(shù)特征,如下圖2.3所示是MFCC特征的提取流程:圖2.3MFCC特征提取流程MFCC是指在Mel標(biāo)度頻率域提取出來的倒譜參數(shù),Mel標(biāo)度描述了人耳頻率的非線性特性,它與頻率的關(guān)系可用下式近似表示:)4-2()7001lg(2595)(ffMel
【參考文獻(xiàn)】:
期刊論文
[1]基于端到端技術(shù)的藏語語音識(shí)別[J]. 王慶楠,郭武,解傳棟. 模式識(shí)別與人工智能. 2017(04)
[2]基于深度特征學(xué)習(xí)的藏語語音識(shí)別[J]. 王輝,趙悅,劉曉鳳,徐曉娜,周楠,許彥敏. 東北師大學(xué)報(bào)(自然科學(xué)版). 2015(04)
[3]藏語拉薩話大詞表連續(xù)語音識(shí)別聲學(xué)模型研究[J]. 李冠宇,孟猛. 計(jì)算機(jī)工程. 2012(05)
[4]藏語連續(xù)語音語料庫設(shè)計(jì)與實(shí)現(xiàn)[J]. 李永宏,于洪志,孔江平. 計(jì)算機(jī)工程與應(yīng)用. 2010(13)
本文編號(hào):3230627
【文章來源】:西北民族大學(xué)甘肅省
【文章頁數(shù)】:58 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
語音識(shí)別系統(tǒng)的架構(gòu)
西北民族大學(xué)碩士學(xué)位論文82.1信號(hào)處理和特征提取語音識(shí)別中所有特征提取的共同目標(biāo)是:使語音信息更可用于統(tǒng)計(jì)建模。原始音頻信號(hào)不利于建模語音,因?yàn)檎Z音信號(hào)在時(shí)域上面是一個(gè)不平穩(wěn)的隨機(jī)過程,而在頻域上面我們可以通過分析觀察它們的共振峰特性、基音頻率和諧波頻率等信息。如下圖2.2所示:原始波形顯示音頻(上面),在頻域上面的表述(下面)。所以在特征提取的時(shí)候通常是將原始音頻信號(hào)經(jīng)過傅里葉變換之后,在頻域上面分析語音信號(hào)的特性。圖2.2波形圖和語譜圖語音識(shí)別中常用的特征提取方法有很多種:基于濾波器組的Fbank特征和梅爾頻率倒譜系數(shù)(MFCC)等,本文提取的特征是梅爾頻率倒譜系數(shù)特征,如下圖2.3所示是MFCC特征的提取流程:圖2.3MFCC特征提取流程MFCC是指在Mel標(biāo)度頻率域提取出來的倒譜參數(shù),Mel標(biāo)度描述了人耳頻率的非線性特性,它與頻率的關(guān)系可用下式近似表示:)4-2()7001lg(2595)(ffMel
西北民族大學(xué)碩士學(xué)位論文82.1信號(hào)處理和特征提取語音識(shí)別中所有特征提取的共同目標(biāo)是:使語音信息更可用于統(tǒng)計(jì)建模。原始音頻信號(hào)不利于建模語音,因?yàn)檎Z音信號(hào)在時(shí)域上面是一個(gè)不平穩(wěn)的隨機(jī)過程,而在頻域上面我們可以通過分析觀察它們的共振峰特性、基音頻率和諧波頻率等信息。如下圖2.2所示:原始波形顯示音頻(上面),在頻域上面的表述(下面)。所以在特征提取的時(shí)候通常是將原始音頻信號(hào)經(jīng)過傅里葉變換之后,在頻域上面分析語音信號(hào)的特性。圖2.2波形圖和語譜圖語音識(shí)別中常用的特征提取方法有很多種:基于濾波器組的Fbank特征和梅爾頻率倒譜系數(shù)(MFCC)等,本文提取的特征是梅爾頻率倒譜系數(shù)特征,如下圖2.3所示是MFCC特征的提取流程:圖2.3MFCC特征提取流程MFCC是指在Mel標(biāo)度頻率域提取出來的倒譜參數(shù),Mel標(biāo)度描述了人耳頻率的非線性特性,它與頻率的關(guān)系可用下式近似表示:)4-2()7001lg(2595)(ffMel
【參考文獻(xiàn)】:
期刊論文
[1]基于端到端技術(shù)的藏語語音識(shí)別[J]. 王慶楠,郭武,解傳棟. 模式識(shí)別與人工智能. 2017(04)
[2]基于深度特征學(xué)習(xí)的藏語語音識(shí)別[J]. 王輝,趙悅,劉曉鳳,徐曉娜,周楠,許彥敏. 東北師大學(xué)報(bào)(自然科學(xué)版). 2015(04)
[3]藏語拉薩話大詞表連續(xù)語音識(shí)別聲學(xué)模型研究[J]. 李冠宇,孟猛. 計(jì)算機(jī)工程. 2012(05)
[4]藏語連續(xù)語音語料庫設(shè)計(jì)與實(shí)現(xiàn)[J]. 李永宏,于洪志,孔江平. 計(jì)算機(jī)工程與應(yīng)用. 2010(13)
本文編號(hào):3230627
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/3230627.html
最近更新
教材專著