深度神經(jīng)網(wǎng)絡(luò)在中文語音識別系統(tǒng)中的實現(xiàn)
本文關(guān)鍵詞:深度神經(jīng)網(wǎng)絡(luò)在中文語音識別系統(tǒng)中的實現(xiàn)
更多相關(guān)文章: 語音識別 隱馬爾科夫模型 深度神經(jīng)網(wǎng)絡(luò) 聲學(xué)特征
【摘要】:GMM-HMM聲學(xué)模型在語音識別技術(shù)中取得了巨大的成功,但隨著語音數(shù)據(jù)量的增加,數(shù)據(jù)的復(fù)雜性也越來越大,訓(xùn)練時間也越來越長。同時,由于高斯混合模型(Gaussian Mixture Model,簡稱GMM)是一個淺層模型,在復(fù)雜數(shù)據(jù)上的構(gòu)建模型能力明顯存在著不足,需要找到一種對數(shù)據(jù)建模能力更強的聲學(xué)建模方法,而深度神經(jīng)網(wǎng)絡(luò)在聲學(xué)模型建模上就具備了這種能力。此外,在特征提取方面,梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficients,簡稱MFCC)是一種在語音識別過程廣泛使用的特征,但由于其計算時進行了去相關(guān)或者降維處理,勢必造成部分信息的丟失。所以,本文還實驗了對數(shù)域的Mel濾波器的輸出為聲學(xué)特征,即Filter-bank特征(簡稱Fbank), Fbank特征包含有更多的語音信息可用于之后的訓(xùn)練。 本文完成了一個中文深度神經(jīng)網(wǎng)絡(luò)模型語音識別系統(tǒng),主要工作包括: (1)搭建Kaldi語音識別系統(tǒng)開發(fā)平臺,編譯源代碼,配置運行環(huán)境,安裝CUDA并行計算架構(gòu),使用GPU加速深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程; (2)在中文DNN語音識別系統(tǒng)開發(fā)平臺上訓(xùn)練單音子模型,并在此模型上優(yōu)化訓(xùn)練三音子模型,以三音子模型為基礎(chǔ)訓(xùn)練和測試中文深度神經(jīng)網(wǎng)絡(luò)模型識別性能; (3)進行聲學(xué)特征實驗,對分別使用MFCC特征和Fbank特征的DNN模型進行訓(xùn)練解碼;對濾波器組加密處理,提取不同維度的Fbank特征,用于訓(xùn)練DNN模型;濾波器組相同的情況下,增加Fbank特征幀數(shù),用于訓(xùn)練DNN模型。 實驗結(jié)果顯示:DNN模型在有限語音訓(xùn)練數(shù)據(jù)條件下的詞錯率WER (Word Error Rate)與傳統(tǒng)GMM模型相比有12.05%的絕對降低(28.02%降至15.97%)以及43%的相對降低;采用Fbank特征與MFCC特征的DNN模型的詞錯率WER相比有0.86%的絕對降低(15.97%降至15.11%)以及5.38%的相對降低;Fbank特征進行濾波器組加密處理訓(xùn)練DNN模型的詞錯率WER的最好結(jié)果為14.87%;Fbank特征幀數(shù)增加訓(xùn)練DNN模型的詞錯率WER最好結(jié)果為14.33%。實驗結(jié)果表明:深度神經(jīng)網(wǎng)絡(luò)模型能有效提升中文語音識別率;Fbank特征與MFCC特征相比更適合深度神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練;在一定范圍內(nèi)對Fbank特征進行濾波器組加密處理能夠提升中文語音識別率;保證Fbank特征濾波器組相同的情況下,在一定范圍內(nèi)幀數(shù)增加可以提升中文語音識別率。
【關(guān)鍵詞】:語音識別 隱馬爾科夫模型 深度神經(jīng)網(wǎng)絡(luò) 聲學(xué)特征
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TN912.34;TP183
【目錄】:
- 致謝5-6
- 摘要6-7
- ABSTRACT7-11
- 1 引言11-16
- 1.1 研究背景與意義11
- 1.2 國內(nèi)外研究現(xiàn)狀11-13
- 1.3 論文主要研究問題及內(nèi)容13-14
- 1.3.1 研究問題13-14
- 1.3.2 研究內(nèi)容14
- 1.4 論文結(jié)構(gòu)14-16
- 2 語音識別基本原理16-25
- 2.1 語音識別基礎(chǔ)理論16-17
- 2.2 聲學(xué)模型17-19
- 2.2.1 隱馬爾科夫模型17-19
- 2.2.2 高斯混合模型19
- 2.3 聲學(xué)解碼19-20
- 2.4 聲學(xué)特征20-24
- 2.4.1 特征分類21-22
- 2.4.2 特征處理22-24
- 2.5 本章總結(jié)24-25
- 3 深度學(xué)習(xí)模型25-37
- 3.1 深度學(xué)習(xí)背景25-27
- 3.1.1 深度模型和淺層模型26-27
- 3.1.2 深度學(xué)習(xí)的訓(xùn)練過程27
- 3.2 深度學(xué)習(xí)模型分類及方法27-32
- 3.2.1 自動編碼器27-28
- 3.2.2 卷積神經(jīng)網(wǎng)絡(luò)28-29
- 3.2.3 遞歸神經(jīng)網(wǎng)絡(luò)29
- 3.2.4 深度信念網(wǎng)絡(luò)29-32
- 3.3 深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練加速32-33
- 3.3.1 GPU 簡介32
- 3.3.2 CUDA 介紹32-33
- 3.4 深度神經(jīng)網(wǎng)絡(luò)在聲學(xué)模型中的應(yīng)用33-36
- 3.4.1 GMM-HMM DNN-HMM系統(tǒng)33-36
- 3.4.2 特征優(yōu)化36
- 3.5 本章總結(jié)36-37
- 4 Kaldi語音識別系統(tǒng)開發(fā)平臺37-44
- 4.1 系統(tǒng)基本結(jié)構(gòu)框架37-38
- 4.1.1 外部庫38
- 4.2 系統(tǒng)安裝38-41
- 4.2.1 安裝前配置38-39
- 4.2.2 Kaldi安裝步驟39-41
- 4.3 CUDA安裝及調(diào)試41-43
- 4.3.1 實驗訓(xùn)練時間比較43
- 4.4 本章總結(jié)43-44
- 5 中文DNN-HMM模型語音識別系統(tǒng)44-60
- 5.1 識別單元設(shè)置44-46
- 5.1.1 聲母44-45
- 5.1.2 韻母45
- 5.1.3 音調(diào)45
- 5.1.4 實驗建模單元45-46
- 5.2 實驗數(shù)據(jù)庫46-47
- 5.3 數(shù)據(jù)準備47-53
- 5.3.1 語音數(shù)據(jù)47-50
- 5.3.2 語言數(shù)據(jù)50-53
- 5.4 模型訓(xùn)練53-56
- 5.4.1 GMM模型訓(xùn)練53-54
- 5.4.2 DNN模型訓(xùn)練54-55
- 5.4.3 特征提取過程55-56
- 5.4.4 訓(xùn)練及解碼腳本56
- 5.5 實驗結(jié)果及分析56-59
- 5.6 本章總結(jié)59-60
- 6 總結(jié)與展望60-62
- 6.1 總結(jié)60
- 6.2 展望60-62
- 參考文獻62-65
- 附錄A65-72
- 附錄B72-78
- 作者簡歷及攻讀碩士學(xué)位期間取得的研究成果78-80
- 學(xué)位論文數(shù)據(jù)集80
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 陳蘊谷;;基于譜減法和經(jīng)驗?zāi)J椒纸獾恼Z音增強[J];安慶師范學(xué)院學(xué)報(自然科學(xué)版);2010年01期
2 馮哲;孫吉貴;張長勝;王巖;;漢語語音合成的研究進展[J];吉林大學(xué)學(xué)報(信息科學(xué)版);2007年02期
3 張余生;夏秀渝;楊莎;;基于神經(jīng)網(wǎng)絡(luò)和卡爾曼濾波算法的說話人識別[J];成都信息工程學(xué)院學(xué)報;2008年04期
4 冀常鵬;高茉;;嘈雜環(huán)境下語音信號端點檢測方法研究[J];成都信息工程學(xué)院學(xué)報;2011年03期
5 吳晶;柳洪軼;;基于子帶編碼的數(shù)字音頻水印算法研究[J];長春工程學(xué)院學(xué)報(自然科學(xué)版);2008年03期
6 張東;林暉;;基于子帶編碼的數(shù)字音頻隱藏算法研究[J];長春工程學(xué)院學(xué)報(自然科學(xué)版);2009年04期
7 趙立業(yè);;數(shù)字助聽器系統(tǒng)中的回聲消除方法[J];傳感器與微系統(tǒng);2009年11期
8 王易川;李智忠;;基于Mel倒譜和BP神經(jīng)網(wǎng)絡(luò)的船舶目標分類研究[J];傳感器與微系統(tǒng);2011年06期
9 王宏;郭艷麗;賈新民;;基于HMM的孤立字識別[J];昌吉學(xué)院學(xué)報;2006年01期
10 王宏;李鑫;高陽;;基于大學(xué)生的漢語說話人識別語音庫設(shè)計[J];昌吉學(xué)院學(xué)報;2008年06期
,本文編號:728297
本文鏈接:http://sikaile.net/kejilunwen/wltx/728297.html