基于深度學(xué)習(xí)的語音識(shí)別應(yīng)用研究
發(fā)布時(shí)間:2017-07-03 10:23
本文關(guān)鍵詞:基于深度學(xué)習(xí)的語音識(shí)別應(yīng)用研究
更多相關(guān)文章: 語音識(shí)別 深度學(xué)習(xí) 特征提取 聲學(xué)建模 深度神經(jīng)網(wǎng)絡(luò) 卷積神經(jīng)網(wǎng)絡(luò)
【摘要】:隨著智能家居、車載語音系統(tǒng)以及各種語音識(shí)別軟件流行,語音識(shí)別逐漸走進(jìn)人們的視野,憑借其實(shí)用性準(zhǔn)確性得到了廣大用戶的喜愛,同時(shí)語音識(shí)別作為人機(jī)交互的重要接口,成為人工智能領(lǐng)域研究的重點(diǎn)。在大數(shù)據(jù)的背景下,深度學(xué)習(xí)得到長足的發(fā)展,由于它對海量數(shù)據(jù)超強(qiáng)的建模能力,被廣泛應(yīng)用與圖像、語音識(shí)別,并取得了驚人的效果。考慮到理論意義和實(shí)用價(jià)值,在深度學(xué)習(xí)的基礎(chǔ)上研究語音識(shí)別是一個(gè)可行的方向。深度學(xué)習(xí)是一種多層非線性變換網(wǎng)絡(luò),通過大量的有監(jiān)督參數(shù)調(diào)整計(jì)算來建模數(shù)據(jù)間的復(fù)雜關(guān)系。本文詳細(xì)介紹了語音識(shí)別以及深度學(xué)習(xí)的基本原理,然后闡述了怎樣將深度學(xué)習(xí)高效的應(yīng)用與語音識(shí)別中。 1、基于深度神經(jīng)網(wǎng)絡(luò)的聲學(xué)特征提取研究 深度神經(jīng)網(wǎng)絡(luò)是一種有監(jiān)督訓(xùn)練的多層網(wǎng)絡(luò),主要用于分類問題,但是截取它的一部分訓(xùn)練好的網(wǎng)絡(luò)用于特征轉(zhuǎn)換,新生成的特征在語音識(shí)別上相比于MFCC特征也有很好的表現(xiàn)。本文主要從深度神經(jīng)網(wǎng)絡(luò)的預(yù)訓(xùn)練、參數(shù)調(diào)整、系統(tǒng)優(yōu)化方面進(jìn)行了研究,并在Kaldi平臺(tái)上搭建了用于語音特征提取的深度神經(jīng)網(wǎng)絡(luò),從MFCC特征中提取魯棒性區(qū)分性更強(qiáng)的語音特征,并用這些新特征訓(xùn)練基于GMM-HMM的聲學(xué)模型搭建語音識(shí)別系統(tǒng),最好的DNN網(wǎng)絡(luò)與原始MFCC訓(xùn)練的聲學(xué)模型搭建的系統(tǒng)相比,在詞錯(cuò)誤率和句錯(cuò)誤率上下降了1.98%和4.21% 2、基于深度神經(jīng)網(wǎng)絡(luò)的聲韻母屬性提取研究 聲韻母屬性屬于語音屬性的一種,它可以看做是語音識(shí)別中比聲韻母更小的基元,用這種粒度更小的基元更能細(xì)致的描述語音現(xiàn)象,而且這種方法在以前語音基于概率統(tǒng)計(jì)的基礎(chǔ)上加入了語音知識(shí)的東西,提高系統(tǒng)的識(shí)別性能。本文主要研究了語音屬性的基礎(chǔ)理論,并從語音屬性的提取入手,結(jié)合了深度學(xué)習(xí)的原理,搭建了語音屬性提取器,用提取出的語音屬性搭建了基于GMM-HM M和基于DNN-HMM的聲韻母識(shí)別器,通過與MFCC搭建的聲韻母識(shí)別器比較,在聲韻母識(shí)別率上分別有0.65%和1.37%的提升,通過與MFCC搭建的語音識(shí)別器比較,在詞識(shí)別錯(cuò)誤率上有5.61%的下降。 3、基于深度學(xué)習(xí)的聲學(xué)建模研究 有監(jiān)督的深度網(wǎng)絡(luò)本質(zhì)上是區(qū)分性模型,通過用建模能力強(qiáng)大的深度網(wǎng)絡(luò)取代淺層GMM模型做狀態(tài)輸出,并與HMM模型結(jié)合訓(xùn)練聲學(xué)模型。在Kaldi上分別實(shí)現(xiàn)了基于GMM-HMM、基于DNN-HMM和基于CNN-HMM,并在863語料上通過實(shí)驗(yàn)證明了基于DNN-HMM和基于CNN-HMM的聲學(xué)模型搭建的系統(tǒng)比GMM-HMM的系統(tǒng)在詞識(shí)別錯(cuò)誤率上分別有7.98%和9.01%的下降。并對三種方法進(jìn)行了比較分析。
【關(guān)鍵詞】:語音識(shí)別 深度學(xué)習(xí) 特征提取 聲學(xué)建模 深度神經(jīng)網(wǎng)絡(luò) 卷積神經(jīng)網(wǎng)絡(luò)
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TN912.34;TP183
【目錄】:
- 摘要4-6
- ABSTRACT6-10
- 第一章 緒論10-14
- 1.1 語音識(shí)別發(fā)展概述10
- 1.2 語音識(shí)別的發(fā)展與現(xiàn)狀10-11
- 1.3 深度學(xué)習(xí)對語音識(shí)別的意義11-12
- 1.4 研究問題及內(nèi)容12-13
- 1.4.1 研究問題12
- 1.4.2 研究內(nèi)容12-13
- 1.5 論文結(jié)構(gòu)13-14
- 第二章 語音識(shí)別相關(guān)理論研究14-31
- 2.1 語音識(shí)別基本原理14
- 2.2 聲學(xué)特征分析14-15
- 2.3 聲學(xué)模型15-17
- 2.4 語言模型17-18
- 2.5 解碼器介紹18-20
- 2.6 深度學(xué)習(xí)的基礎(chǔ)理論20-30
- 2.6.1 深度學(xué)習(xí)的背景20
- 2.6.2 深度學(xué)習(xí)的模型20-22
- 2.6.3 深度學(xué)習(xí)的模型構(gòu)成22-30
- 2.7 語音識(shí)別技術(shù)面臨的挑戰(zhàn)30
- 2.8 本章小結(jié)30-31
- 第三章 基于深度神經(jīng)網(wǎng)絡(luò)的語音特征提取31-40
- 3.1 深度神經(jīng)網(wǎng)絡(luò)的基本原理31-37
- 3.1.1 網(wǎng)絡(luò)訓(xùn)練算法32-36
- 3.1.2 深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練中用到的技術(shù)36-37
- 3.2 基于深度神經(jīng)網(wǎng)絡(luò)的聲學(xué)特征提取實(shí)驗(yàn)37-39
- 3.2.1 實(shí)驗(yàn)配置37-38
- 3.2.2 深度特征的提取38-39
- 3.2.3 實(shí)驗(yàn)的結(jié)果39
- 3.3 本章總結(jié)39-40
- 第四章 基于深度神經(jīng)網(wǎng)絡(luò)的語音屬性的提取40-49
- 4.1 語音屬性的研究背景40
- 4.2 語音屬性提取理論基礎(chǔ)40-41
- 4.3 基于DNN-ASAT的聲韻母識(shí)別41-45
- 4.3.1 聲韻母屬性設(shè)計(jì)實(shí)現(xiàn)41-44
- 4.3.2 DNN-ASAT的系統(tǒng)實(shí)現(xiàn)44-45
- 4.4 語音屬性提取器實(shí)驗(yàn)45-46
- 4.4.1 實(shí)驗(yàn)數(shù)據(jù)準(zhǔn)備45
- 4.4.2 實(shí)驗(yàn)步驟45-46
- 4.5 實(shí)驗(yàn)結(jié)果與分析46-48
- 4.5.1 實(shí)驗(yàn)結(jié)果46-48
- 4.5.2 實(shí)驗(yàn)結(jié)果分析48
- 4.6 本章小結(jié)48-49
- 第五章 基于深度學(xué)習(xí)語音識(shí)別系統(tǒng)搭建49-55
- 5.1 深度學(xué)習(xí)在聲學(xué)模型中的應(yīng)用背景49
- 5.2 基于深度學(xué)習(xí)的聲學(xué)模型訓(xùn)練49-51
- 5.2.1 基于深度神經(jīng)網(wǎng)路的聲學(xué)模型訓(xùn)練49-50
- 5.2.2 基于卷積神經(jīng)網(wǎng)路的聲學(xué)模型訓(xùn)練50-51
- 5.3 深度學(xué)習(xí)的聲學(xué)模型訓(xùn)練實(shí)驗(yàn)51-54
- 5.3.1 實(shí)驗(yàn)步驟51-52
- 5.3.2 實(shí)驗(yàn)結(jié)果分析52-54
- 5.4 三種方法的比較54
- 5.5 本章總結(jié)54-55
- 第六章 總結(jié)與展望55-57
- 6.1 課題總結(jié)55-56
- 6.2 未來展望56-57
- 參考文獻(xiàn)57-59
- 致謝59-60
- 作者攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄60
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前2條
1 李海峰;李純果;;深度學(xué)習(xí)結(jié)構(gòu)和算法比較分析[J];河北大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年05期
2 余凱;賈磊;陳雨強(qiáng);徐偉;;深度學(xué)習(xí)的昨天、今天和明天[J];計(jì)算機(jī)研究與發(fā)展;2013年09期
本文關(guān)鍵詞:基于深度學(xué)習(xí)的語音識(shí)別應(yīng)用研究
更多相關(guān)文章: 語音識(shí)別 深度學(xué)習(xí) 特征提取 聲學(xué)建模 深度神經(jīng)網(wǎng)絡(luò) 卷積神經(jīng)網(wǎng)絡(luò)
,
本文編號(hào):513312
本文鏈接:http://sikaile.net/kejilunwen/wltx/513312.html
最近更新
教材專著