基于深度學(xué)習(xí)的大詞匯量連續(xù)語音識別的研究
發(fā)布時間:2020-06-28 02:40
【摘要】:自動語音識別的主要目的是讓機(jī)器可以“聽懂”人們說話的內(nèi)容,并將語音信號轉(zhuǎn)化為文本信息,能實(shí)現(xiàn)人類與機(jī)器之間快速、無障礙的交流。近年來,隨著深度學(xué)習(xí)技術(shù)的廣泛應(yīng)用,DNN-HMM語音識別架構(gòu)逐漸取代了傳統(tǒng)的GMM-HMM語音識別架構(gòu),成為當(dāng)前大詞匯量連續(xù)語音識別系統(tǒng)的主流架構(gòu)。本文以深度學(xué)習(xí)為基礎(chǔ),從特征提取和聲學(xué)模型兩個方面展開深入研究,具有較高的理論意義和研究價(jià)值。首先,闡述了語音識別技術(shù)的國內(nèi)外研究現(xiàn)狀,介紹了深度學(xué)習(xí)理論基礎(chǔ)和語音識別關(guān)鍵技術(shù),對基于深度學(xué)習(xí)的大詞匯量連續(xù)語音識別系統(tǒng)的整體方案進(jìn)行了設(shè)計(jì)。著重分析原始聲學(xué)特征提取和DNN-HMM聲學(xué)模型存在的不足之處,明確本論文研究的關(guān)鍵技術(shù)是語音特征提取和聲學(xué)模型優(yōu)化。其次,針對MFCC、Fbank、瓶頸特征等常用語音特征對語音前后幀相關(guān)性信息提取不足導(dǎo)致識別率不高的問題,提出一種基于重疊組套索稀疏深度神經(jīng)網(wǎng)絡(luò)的語音瓶頸特征提取改進(jìn)方法。該方法利用重疊組套索算法對DNN進(jìn)行改進(jìn),并從MFCC聲學(xué)特征中提取到具有語音相關(guān)性信息的語音瓶頸特征。實(shí)驗(yàn)結(jié)果表明,利用DNN得到的語音瓶頸特征與原始的MFCC相比,語音識別率得到顯著提高。然后,為解決DBLSTM中常出現(xiàn)的梯度消失和模型過擬合問題,提出利用Maxout神經(jīng)元和Dropout正則化算法改進(jìn)DBLSTM-HMM聲學(xué)模型。為適應(yīng)DBLSTM對語音信息每個時間步長的雙向依賴性,進(jìn)一步提出利用CSC-BPTT訓(xùn)練算法訓(xùn)練DBLSTM神經(jīng)網(wǎng)絡(luò)。實(shí)驗(yàn)結(jié)果表明本文改進(jìn)的DBLSTM-HMM聲學(xué)模型優(yōu)于DNN-HMM、RNN-HMM等典型的聲學(xué)模型,語音識別性能得到較大的提高。最后,利用本文改進(jìn)的語音特征提取方法和聲學(xué)模型構(gòu)建基于DBLSTM-HMM的大詞匯量連續(xù)語音識別系統(tǒng),并在THCHS-30中文語料庫和自制語料庫中進(jìn)行實(shí)驗(yàn)驗(yàn)證和分析。實(shí)驗(yàn)結(jié)果表明,本文建立的語音識別系統(tǒng)與傳統(tǒng)的基于DNN-HMM的語音識別系統(tǒng)相比,WER低7.44%,系統(tǒng)泛化能力更強(qiáng),語音識別率更高。
【學(xué)位授予單位】:重慶郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:TN912.34;TP18
【圖文】:
種基于深度神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法,是通過非線性處理的一種算法體系。深度神經(jīng)網(wǎng)多隱含層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),包括:DBN、CN連接的前饋神經(jīng)網(wǎng)絡(luò)。下面將詳細(xì)介紹DN構(gòu)建瓶頸深度神經(jīng)網(wǎng)絡(luò)提供理論依據(jù),另,為第 4 章聲學(xué)模型研究和實(shí)驗(yàn)對比驗(yàn)證網(wǎng)絡(luò)架構(gòu)人工神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上通過增加隱含層,次網(wǎng)絡(luò)結(jié)構(gòu)。DNN 模型結(jié)構(gòu)圖如圖 2.1 所
電大學(xué)碩士學(xué)位論文 第 2 章 基于深度學(xué)習(xí)的語音識別理論基礎(chǔ)及系統(tǒng)在深度神經(jīng)網(wǎng)絡(luò)采用無監(jiān)督特征學(xué)習(xí)的方法預(yù)訓(xùn)練得到初始值,這樣可后期參數(shù)調(diào)整的時間,而且讓大多數(shù)參數(shù)達(dá)到最優(yōu)值附近,利于參數(shù)調(diào)文采用 DBN 進(jìn)行 DNN 網(wǎng)絡(luò)參數(shù)預(yù)訓(xùn)練。DBN 是一種概率生成模型,限玻爾茲曼機(jī)(Restricted Boltzmann Machines, RBM)網(wǎng)絡(luò)逐層訓(xùn)練得到[32BN 模型參數(shù)作為 DNN 訓(xùn)練模型的初始參數(shù),其過程如圖 2.2 所示。
本文編號:2732444
【學(xué)位授予單位】:重慶郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:TN912.34;TP18
【圖文】:
種基于深度神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法,是通過非線性處理的一種算法體系。深度神經(jīng)網(wǎng)多隱含層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),包括:DBN、CN連接的前饋神經(jīng)網(wǎng)絡(luò)。下面將詳細(xì)介紹DN構(gòu)建瓶頸深度神經(jīng)網(wǎng)絡(luò)提供理論依據(jù),另,為第 4 章聲學(xué)模型研究和實(shí)驗(yàn)對比驗(yàn)證網(wǎng)絡(luò)架構(gòu)人工神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上通過增加隱含層,次網(wǎng)絡(luò)結(jié)構(gòu)。DNN 模型結(jié)構(gòu)圖如圖 2.1 所
電大學(xué)碩士學(xué)位論文 第 2 章 基于深度學(xué)習(xí)的語音識別理論基礎(chǔ)及系統(tǒng)在深度神經(jīng)網(wǎng)絡(luò)采用無監(jiān)督特征學(xué)習(xí)的方法預(yù)訓(xùn)練得到初始值,這樣可后期參數(shù)調(diào)整的時間,而且讓大多數(shù)參數(shù)達(dá)到最優(yōu)值附近,利于參數(shù)調(diào)文采用 DBN 進(jìn)行 DNN 網(wǎng)絡(luò)參數(shù)預(yù)訓(xùn)練。DBN 是一種概率生成模型,限玻爾茲曼機(jī)(Restricted Boltzmann Machines, RBM)網(wǎng)絡(luò)逐層訓(xùn)練得到[32BN 模型參數(shù)作為 DNN 訓(xùn)練模型的初始參數(shù),其過程如圖 2.2 所示。
【參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 劉建偉;崔立鵬;羅雄麟;;組稀疏模型及其算法綜述[J];電子學(xué)報(bào);2015年04期
相關(guān)博士學(xué)位論文 前4條
1 張仕良;基于深度神經(jīng)網(wǎng)絡(luò)的語音識別模型研究[D];中國科學(xué)技術(shù)大學(xué);2017年
2 薛少飛;DNN-HMM語音識別聲學(xué)模型的說話人自適應(yīng)[D];中國科學(xué)技術(shù)大學(xué);2015年
3 周盼;基于深層神經(jīng)網(wǎng)絡(luò)的語音識別聲學(xué)建模研究[D];中國科學(xué)技術(shù)大學(xué);2014年
4 羅恒;基于協(xié)同過濾視角的受限玻爾茲曼機(jī)研究[D];上海交通大學(xué);2011年
相關(guān)碩士學(xué)位論文 前3條
1 孫穎華;高階離散隱馬爾科夫模型的嚴(yán)格定義及等價(jià)性質(zhì)[D];江蘇大學(xué);2016年
2 時雪煜;基于回歸神經(jīng)網(wǎng)絡(luò)的語音識別抗噪研究[D];中國科學(xué)技術(shù)大學(xué);2016年
3 張德良;深度神經(jīng)網(wǎng)絡(luò)在中文語音識別系統(tǒng)中的實(shí)現(xiàn)[D];北京交通大學(xué);2015年
本文編號:2732444
本文鏈接:http://sikaile.net/kejilunwen/wltx/2732444.html
最近更新
教材專著