當(dāng)前位置：主頁 > 科技論文 > 網(wǎng)絡(luò)通信論文 >

基于深度學(xué)習(xí)的大詞匯量連續(xù)語音識別的研究

發(fā)布時間：2020-06-28 02:40

【摘要】：自動語音識別的主要目的是讓機(jī)器可以“聽懂”人們說話的內(nèi)容,并將語音信號轉(zhuǎn)化為文本信息,能實(shí)現(xiàn)人類與機(jī)器之間快速、無障礙的交流。近年來,隨著深度學(xué)習(xí)技術(shù)的廣泛應(yīng)用,DNN-HMM語音識別架構(gòu)逐漸取代了傳統(tǒng)的GMM-HMM語音識別架構(gòu),成為當(dāng)前大詞匯量連續(xù)語音識別系統(tǒng)的主流架構(gòu)。本文以深度學(xué)習(xí)為基礎(chǔ),從特征提取和聲學(xué)模型兩個方面展開深入研究,具有較高的理論意義和研究價(jià)值。首先,闡述了語音識別技術(shù)的國內(nèi)外研究現(xiàn)狀,介紹了深度學(xué)習(xí)理論基礎(chǔ)和語音識別關(guān)鍵技術(shù),對基于深度學(xué)習(xí)的大詞匯量連續(xù)語音識別系統(tǒng)的整體方案進(jìn)行了設(shè)計(jì)。著重分析原始聲學(xué)特征提取和DNN-HMM聲學(xué)模型存在的不足之處,明確本論文研究的關(guān)鍵技術(shù)是語音特征提取和聲學(xué)模型優(yōu)化。其次,針對MFCC、Fbank、瓶頸特征等常用語音特征對語音前后幀相關(guān)性信息提取不足導(dǎo)致識別率不高的問題,提出一種基于重疊組套索稀疏深度神經(jīng)網(wǎng)絡(luò)的語音瓶頸特征提取改進(jìn)方法。該方法利用重疊組套索算法對DNN進(jìn)行改進(jìn),并從MFCC聲學(xué)特征中提取到具有語音相關(guān)性信息的語音瓶頸特征。實(shí)驗(yàn)結(jié)果表明,利用DNN得到的語音瓶頸特征與原始的MFCC相比,語音識別率得到顯著提高。然后,為解決DBLSTM中常出現(xiàn)的梯度消失和模型過擬合問題,提出利用Maxout神經(jīng)元和Dropout正則化算法改進(jìn)DBLSTM-HMM聲學(xué)模型。為適應(yīng)DBLSTM對語音信息每個時間步長的雙向依賴性,進(jìn)一步提出利用CSC-BPTT訓(xùn)練算法訓(xùn)練DBLSTM神經(jīng)網(wǎng)絡(luò)。實(shí)驗(yàn)結(jié)果表明本文改進(jìn)的DBLSTM-HMM聲學(xué)模型優(yōu)于DNN-HMM、RNN-HMM等典型的聲學(xué)模型,語音識別性能得到較大的提高。最后,利用本文改進(jìn)的語音特征提取方法和聲學(xué)模型構(gòu)建基于DBLSTM-HMM的大詞匯量連續(xù)語音識別系統(tǒng),并在THCHS-30中文語料庫和自制語料庫中進(jìn)行實(shí)驗(yàn)驗(yàn)證和分析。實(shí)驗(yàn)結(jié)果表明,本文建立的語音識別系統(tǒng)與傳統(tǒng)的基于DNN-HMM的語音識別系統(tǒng)相比,WER低7.44%,系統(tǒng)泛化能力更強(qiáng),語音識別率更高。
【學(xué)位授予單位】：重慶郵電大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2018
【分類號】：TN912.34;TP18
【圖文】：

結(jié)構(gòu)圖,神經(jīng)網(wǎng)絡(luò)模型,結(jié)構(gòu)圖,隱含層

種基于深度神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法，是通過非線性處理的一種算法體系。深度神經(jīng)網(wǎng)多隱含層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，包括：DBN、CN連接的前饋神經(jīng)網(wǎng)絡(luò)。下面將詳細(xì)介紹DN構(gòu)建瓶頸深度神經(jīng)網(wǎng)絡(luò)提供理論依據(jù)，另，為第 4 章聲學(xué)模型研究和實(shí)驗(yàn)對比驗(yàn)證網(wǎng)絡(luò)架構(gòu)人工神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上通過增加隱含層，次網(wǎng)絡(luò)結(jié)構(gòu)。DNN 模型結(jié)構(gòu)圖如圖 2.1 所

過程圖,參數(shù)初始化,過程

電大學(xué)碩士學(xué)位論文第 2 章基于深度學(xué)習(xí)的語音識別理論基礎(chǔ)及系統(tǒng)在深度神經(jīng)網(wǎng)絡(luò)采用無監(jiān)督特征學(xué)習(xí)的方法預(yù)訓(xùn)練得到初始值，這樣可后期參數(shù)調(diào)整的時間，而且讓大多數(shù)參數(shù)達(dá)到最優(yōu)值附近，利于參數(shù)調(diào)文采用 DBN 進(jìn)行 DNN 網(wǎng)絡(luò)參數(shù)預(yù)訓(xùn)練。DBN 是一種概率生成模型，限玻爾茲曼機(jī)(Restricted Boltzmann Machines, RBM)網(wǎng)絡(luò)逐層訓(xùn)練得到[32BN 模型參數(shù)作為 DNN 訓(xùn)練模型的初始參數(shù)，其過程如圖 2.2 所示。

【參考文獻(xiàn)】

相關(guān)期刊論文前1條

1 劉建偉;崔立鵬;羅雄麟;;組稀疏模型及其算法綜述[J];電子學(xué)報(bào);2015年04期

相關(guān)博士學(xué)位論文前4條

1 張仕良;基于深度神經(jīng)網(wǎng)絡(luò)的語音識別模型研究[D];中國科學(xué)技術(shù)大學(xué);2017年

2 薛少飛;DNN-HMM語音識別聲學(xué)模型的說話人自適應(yīng)[D];中國科學(xué)技術(shù)大學(xué);2015年

3 周盼;基于深層神經(jīng)網(wǎng)絡(luò)的語音識別聲學(xué)建模研究[D];中國科學(xué)技術(shù)大學(xué);2014年

4 羅恒;基于協(xié)同過濾視角的受限玻爾茲曼機(jī)研究[D];上海交通大學(xué);2011年

相關(guān)碩士學(xué)位論文前3條

1 孫穎華;高階離散隱馬爾科夫模型的嚴(yán)格定義及等價(jià)性質(zhì)[D];江蘇大學(xué);2016年

2 時雪煜;基于回歸神經(jīng)網(wǎng)絡(luò)的語音識別抗噪研究[D];中國科學(xué)技術(shù)大學(xué);2016年

3 張德良;深度神經(jīng)網(wǎng)絡(luò)在中文語音識別系統(tǒng)中的實(shí)現(xiàn)[D];北京交通大學(xué);2015年

本文編號：2732444

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/wltx/2732444.html

上一篇：異構(gòu)無線網(wǎng)絡(luò)中接入決策算法研究
下一篇：基于Wi-Fi網(wǎng)絡(luò)的單AP室內(nèi)定位方案的研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度學(xué)習(xí)的大詞匯量連續(xù)語音識別的研究