基于深度學習的維語語音識別研究
本文關(guān)鍵詞:基于深度學習的維語語音識別研究,由筆耕文化傳播整理發(fā)布。
【摘要】:語音識別就是將原始語音信號識別成相對應的文本或者其它形式的可以被計算機所處理的信息。語音識別技術(shù)是人工智能領(lǐng)域一個重要的研究方向,具有很高的研究價值和商業(yè)價值。近年來,隨著深度學習在機器學習和模式識別領(lǐng)域的興起,以及深度學習所具備的超強建模能力,能從海量的數(shù)據(jù)里“學習”到有效的信息,迅速吸引了眾多國內(nèi)外研究者的關(guān)注。深度學習也被應用到語音識別領(lǐng)域,并且取得了很好的效果,基于深度神經(jīng)網(wǎng)絡-隱馬爾科夫模型(Deep Neural Network-Hidden Markov Model, DNN-HMM)的語音識別框架更是迅速取代了傳統(tǒng)基于高斯混合模型(Gaussian Mixture Model, GMM)-隱馬爾科夫模型的框架,成為當今語音識別系統(tǒng)的標準配置。以往語音識別所關(guān)注的語種主要是那些使用人口多或普及率高的語言,比如漢語、英語、阿拉伯語等,研究過程中所開發(fā)的技術(shù)成果在不經(jīng)過太大改動的情況下就可以直接被推廣到具有相似特點的語種中。經(jīng)過幾十年的發(fā)展,這些語種的語音識別技術(shù)發(fā)展已經(jīng)日趨成熟。然而一些像維吾爾語這樣的小語種的語音識別技術(shù)在國外卻沒有得到廣泛的關(guān)注和發(fā)展。隨著新疆經(jīng)濟的快速發(fā)展,新疆也變的越來越開放,關(guān)于維吾爾語語音識別系統(tǒng)開發(fā)工作的必要性及極其廣闊的市場前景是不可忽略的。本文對基于深度學習的網(wǎng)絡模型及其建模方法做了詳細分析,并將基于深度學習的語音識別技術(shù)用在了維吾爾語的識別上。1、研究了基于DNN-HMM的聲學建模聲學模型(Acoustic Model, AM)是語音識別系統(tǒng)最重要的組成部分,一個好的聲學模型可以提高語音識別的系統(tǒng)性能。本文首先介紹了深度神經(jīng)網(wǎng)絡的網(wǎng)絡結(jié)構(gòu)以及算法,然后分別用300小時和500小時的維吾爾語語音數(shù)據(jù)訓練基于深度神經(jīng)網(wǎng)絡結(jié)合隱馬爾科夫模型的聲學模型。通過實驗發(fā)現(xiàn)500小時的訓練集訓出的聲學模型比300小時的訓練集訓出的聲學模型在詞識別錯誤率上相對下降了3.03%,這說明訓練集合越大聲學模型識別率越高。2、研究了基于LSTM-HMM的聲學建模介紹了循環(huán)神經(jīng)網(wǎng)絡(Recurrent neural Network, RNN),但由于RNN存在后面時間節(jié)點對前面時間節(jié)點感知力下降導致的梯度消失問題,因此研究了長短期記憶(Long-Short Term Memory, LSTM)網(wǎng)絡。通過實驗發(fā)現(xiàn)LSTM-HMM聲學模型較DNN-HMM聲學模型在詞識別錯誤率上相對下降了12.49%,這說明LSTM-HMM聲學模型較DNN-HMM聲學模型有很大的性能提升。3、維語語言模型優(yōu)化由于維吾爾語為黏著性語言,黏著語超大詞匯量會帶來傳統(tǒng)整詞語言模型數(shù)據(jù)稀疏、魯棒性不強等問題。本文通過子詞建模的方法對維語語言模型進行了優(yōu)化,緩解了黏著語超大詞匯量帶來的傳統(tǒng)整詞語言模型數(shù)據(jù)稀疏性、魯棒性不強等問題,使詞識別錯誤率相對下降了2.4%。
【關(guān)鍵詞】:語音識別 深度學習 聲學建模 深度神經(jīng)網(wǎng)絡 長短期記憶網(wǎng)絡 語言模型
【學位授予單位】:安徽大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TN912.34
【目錄】:
- 摘要3-5
- ABSTRACT5-10
- 第一章 緒論10-18
- 1.1 語音識別概述10-11
- 1.2 語音識別的發(fā)展與現(xiàn)狀11-13
- 1.3 深度學習對語音識別的意義13-14
- 1.4 維語語音識別14-16
- 1.4.1 維吾爾語的特點14-15
- 1.4.2 維語語音識別的發(fā)展現(xiàn)狀及研究意義15-16
- 1.5 本文的主要內(nèi)容及組織結(jié)構(gòu)16-18
- 1.5.1 主要內(nèi)容16
- 1.5.2 組織結(jié)構(gòu)16-18
- 第二章 語音識別基礎理論18-36
- 2.1 語音識別基本理論18-19
- 2.2 語音信號的預處理19-21
- 2.2.1 語音信號預加重19
- 2.2.2 語音信號加窗分幀處理19-20
- 2.2.3 語音信號端點檢測20-21
- 2.3 語音識別系統(tǒng)框架21-35
- 2.3.1 聲學特征提取22-25
- 2.3.2 聲學模型25-32
- 2.3.3 語言模型32-34
- 2.3.4 解碼器34-35
- 2.4 本章小結(jié)35-36
- 第三章 基于DNN-HMM的聲學建模36-45
- 3.1 深度學習發(fā)展36
- 3.2 感知器36-38
- 3.3 多層感知器網(wǎng)絡38-42
- 3.3.1 BP算法39-42
- 3.4 深度神經(jīng)網(wǎng)絡DNN-HMM聲學建模42
- 3.5 基于DNN的聲學模型訓練42-44
- 3.5.1 網(wǎng)絡參數(shù)配置43
- 3.5.2 訓練步驟43
- 3.5.3 實驗結(jié)果及分析43-44
- 3.6 本章小結(jié)44-45
- 第四章 基于循環(huán)神經(jīng)網(wǎng)絡的聲學建模45-56
- 4.1 循環(huán)神經(jīng)網(wǎng)絡45-48
- 4.1.1 單向RNN45-46
- 4.1.2 雙向RNN46-48
- 4.2 基于LSTM的循環(huán)神經(jīng)網(wǎng)絡48-54
- 4.2.1 LSTM前向49-50
- 4.2.2 LSTM后向50-54
- 4.3 基于RNN的聲學模型訓練54-55
- 4.3.1 網(wǎng)絡參數(shù)配置54
- 4.3.2 實驗結(jié)果與分析54-55
- 4.4 本章小結(jié)55-56
- 第五章 維語語言模型優(yōu)化56-61
- 5.1 N-Gram介紹56-57
- 5.2 整詞語言模型面臨的問題57-58
- 5.3 子詞語言模型58-59
- 5.4 實驗結(jié)果與分析59-60
- 5.5 本章小結(jié)60-61
- 第六章 總結(jié)與展望61-63
- 6.1 總結(jié)61
- 6.2 展望61-63
- 參考文獻63-66
- 致謝66-67
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 郭遠瓊;提高語音識別率點滴[J];電腦技術(shù);2000年03期
2 邢文;語音識別[J];個人電腦;2000年02期
3 ;語音識別的真相[J];個人電腦;2001年12期
4 ;語音識別漸入佳境[J];個人電腦;2002年03期
5 ;微軟語音識別軟件可與人直接對話[J];自動化博覽;2003年04期
6 ;語音識別[J];印刷世界;2004年01期
7 杰里米·瓦格斯塔夫;讓語音識別軟件 解放你的雙手[J];農(nóng)業(yè)圖書情報學刊;2004年03期
8 韓紀慶,王歡良,李海峰,鄭鐵然;基于語音識別的發(fā)音學習技術(shù)[J];電聲技術(shù);2004年09期
9 陳孝強;語音識別擬起新潮[J];微電腦世界;2005年07期
10 韓紀慶;張磊;鄭鐵然;;網(wǎng)絡環(huán)境下的語音識別方法[J];計算機科學;2005年01期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 張歆奕;吳今培;張其善;;語音的共性特征及其在語音識別中的應用[A];第十屆全國信號處理學術(shù)年會(CCSP-2001)論文集[C];2001年
2 杜樹木;何良華;;一種新的基于段長分布的語音識別模型[A];2009年通信理論與信號處理學術(shù)年會論文集[C];2009年
3 李楨;高萬林;歐文浩;徐山川;;基于關(guān)鍵詞語音識別的農(nóng)業(yè)信息語音服務系統(tǒng)的研究與實現(xiàn)[A];中國農(nóng)業(yè)工程學會電氣信息與自動化專業(yè)委員會、中國電機工程學會農(nóng)村電氣化分會科技與教育專委會2010年學術(shù)年會論文摘要[C];2010年
4 張冰;龍長才;羅海風;;熟悉掩蔽音背景下的目標語音識別[A];泛在信息社會中的聲學——中國聲學學會2010年全國會員代表大會暨學術(shù)會議論文集[C];2010年
5 王承發(fā);趙德彬;金山;苗百利;朱志瑩;;語音識別應用中抗噪聲干擾方法的初步探討[A];第二屆全國人機語音通訊學術(shù)會議論文集[C];1992年
6 杜笑平;楊啟綱;楊家沅;;過零周期轉(zhuǎn)移概率矩陣語音識別部件的研制[A];第二屆全國人機語音通訊學術(shù)會議論文集[C];1992年
7 季宏;劉志文;杜燕玲;黃曾陽;;語音識別中的音字轉(zhuǎn)換[A];第三屆全國人機語音通訊學術(shù)會議論文集[C];1994年
8 葛余博;楊大利;曾德超;;噪聲環(huán)境下語音識別的幾個問題(一)[A];第三屆全國人機語音通訊學術(shù)會議論文集[C];1994年
9 朱奇峰;俞鐵城;;聽覺中的協(xié)同現(xiàn)象和其對語音識別影響的探討[A];第四屆全國人機語音通訊學術(shù)會議論文集[C];1996年
10 姚磊;黃泰翼;陳景東;;一種高魯棒性語音識別的通用自適應方法研究[A];第四屆全國人機語音通訊學術(shù)會議論文集[C];1996年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 黃夢;方案商積極切入語音識別市場[N];電腦商報;2006年
2 閆婷;語音識別 理想與現(xiàn)實的距離[N];計算機世界;2007年
3 劉喜喜;語音識別將把鼠標鍵盤打入冷宮?[N];中國計算機報;2008年
4 樂天;語音識別:讓你的手機更聰明[N];計算機世界;2011年
5 特約作者 王佳彬;語音識別漸入佳境[N];電腦報;2002年
6 雨夏;語音識別重在應用[N];計算機世界;2001年
7 ;語音識別企業(yè)應用前景光明[N];計算機世界;2003年
8 王向東 欒煥博 林守勛 錢躍良;語音識別:抗噪音能力有待加強[N];計算機世界;2006年
9 上海 高博;讓電腦“聽懂”人話[N];電腦報;2008年
10 張彤;語音識別融入統(tǒng)一通信[N];網(wǎng)絡世界;2008年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 許金普;農(nóng)產(chǎn)品市場信息采集的語音識別魯棒性方法研究[D];中國農(nóng)業(yè)科學院;2015年
2 包希日莫;面向蒙古語的語音識別聲學建模研究[D];內(nèi)蒙古大學;2016年
3 吳斌;語音識別中的后處理技術(shù)研究[D];北京郵電大學;2008年
4 奉小慧;音頻噪聲環(huán)境下唇動信息在語音識別中的應用技術(shù)研究[D];華南理工大學;2010年
5 孫f,
本文編號:275600
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/275600.html