基于深度學(xué)習(xí)的維語(yǔ)語(yǔ)音識(shí)別研究
本文關(guān)鍵詞:基于深度學(xué)習(xí)的維語(yǔ)語(yǔ)音識(shí)別研究,由筆耕文化傳播整理發(fā)布。
【摘要】:語(yǔ)音識(shí)別就是將原始語(yǔ)音信號(hào)識(shí)別成相對(duì)應(yīng)的文本或者其它形式的可以被計(jì)算機(jī)所處理的信息。語(yǔ)音識(shí)別技術(shù)是人工智能領(lǐng)域一個(gè)重要的研究方向,具有很高的研究?jī)r(jià)值和商業(yè)價(jià)值。近年來(lái),隨著深度學(xué)習(xí)在機(jī)器學(xué)習(xí)和模式識(shí)別領(lǐng)域的興起,以及深度學(xué)習(xí)所具備的超強(qiáng)建模能力,能從海量的數(shù)據(jù)里“學(xué)習(xí)”到有效的信息,迅速吸引了眾多國(guó)內(nèi)外研究者的關(guān)注。深度學(xué)習(xí)也被應(yīng)用到語(yǔ)音識(shí)別領(lǐng)域,并且取得了很好的效果,基于深度神經(jīng)網(wǎng)絡(luò)-隱馬爾科夫模型(Deep Neural Network-Hidden Markov Model, DNN-HMM)的語(yǔ)音識(shí)別框架更是迅速取代了傳統(tǒng)基于高斯混合模型(Gaussian Mixture Model, GMM)-隱馬爾科夫模型的框架,成為當(dāng)今語(yǔ)音識(shí)別系統(tǒng)的標(biāo)準(zhǔn)配置。以往語(yǔ)音識(shí)別所關(guān)注的語(yǔ)種主要是那些使用人口多或普及率高的語(yǔ)言,比如漢語(yǔ)、英語(yǔ)、阿拉伯語(yǔ)等,研究過(guò)程中所開(kāi)發(fā)的技術(shù)成果在不經(jīng)過(guò)太大改動(dòng)的情況下就可以直接被推廣到具有相似特點(diǎn)的語(yǔ)種中。經(jīng)過(guò)幾十年的發(fā)展,這些語(yǔ)種的語(yǔ)音識(shí)別技術(shù)發(fā)展已經(jīng)日趨成熟。然而一些像維吾爾語(yǔ)這樣的小語(yǔ)種的語(yǔ)音識(shí)別技術(shù)在國(guó)外卻沒(méi)有得到廣泛的關(guān)注和發(fā)展。隨著新疆經(jīng)濟(jì)的快速發(fā)展,新疆也變的越來(lái)越開(kāi)放,關(guān)于維吾爾語(yǔ)語(yǔ)音識(shí)別系統(tǒng)開(kāi)發(fā)工作的必要性及極其廣闊的市場(chǎng)前景是不可忽略的。本文對(duì)基于深度學(xué)習(xí)的網(wǎng)絡(luò)模型及其建模方法做了詳細(xì)分析,并將基于深度學(xué)習(xí)的語(yǔ)音識(shí)別技術(shù)用在了維吾爾語(yǔ)的識(shí)別上。1、研究了基于DNN-HMM的聲學(xué)建模聲學(xué)模型(Acoustic Model, AM)是語(yǔ)音識(shí)別系統(tǒng)最重要的組成部分,一個(gè)好的聲學(xué)模型可以提高語(yǔ)音識(shí)別的系統(tǒng)性能。本文首先介紹了深度神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)以及算法,然后分別用300小時(shí)和500小時(shí)的維吾爾語(yǔ)語(yǔ)音數(shù)據(jù)訓(xùn)練基于深度神經(jīng)網(wǎng)絡(luò)結(jié)合隱馬爾科夫模型的聲學(xué)模型。通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)500小時(shí)的訓(xùn)練集訓(xùn)出的聲學(xué)模型比300小時(shí)的訓(xùn)練集訓(xùn)出的聲學(xué)模型在詞識(shí)別錯(cuò)誤率上相對(duì)下降了3.03%,這說(shuō)明訓(xùn)練集合越大聲學(xué)模型識(shí)別率越高。2、研究了基于LSTM-HMM的聲學(xué)建模介紹了循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neural Network, RNN),但由于RNN存在后面時(shí)間節(jié)點(diǎn)對(duì)前面時(shí)間節(jié)點(diǎn)感知力下降導(dǎo)致的梯度消失問(wèn)題,因此研究了長(zhǎng)短期記憶(Long-Short Term Memory, LSTM)網(wǎng)絡(luò)。通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)LSTM-HMM聲學(xué)模型較DNN-HMM聲學(xué)模型在詞識(shí)別錯(cuò)誤率上相對(duì)下降了12.49%,這說(shuō)明LSTM-HMM聲學(xué)模型較DNN-HMM聲學(xué)模型有很大的性能提升。3、維語(yǔ)語(yǔ)言模型優(yōu)化由于維吾爾語(yǔ)為黏著性語(yǔ)言,黏著語(yǔ)超大詞匯量會(huì)帶來(lái)傳統(tǒng)整詞語(yǔ)言模型數(shù)據(jù)稀疏、魯棒性不強(qiáng)等問(wèn)題。本文通過(guò)子詞建模的方法對(duì)維語(yǔ)語(yǔ)言模型進(jìn)行了優(yōu)化,緩解了黏著語(yǔ)超大詞匯量帶來(lái)的傳統(tǒng)整詞語(yǔ)言模型數(shù)據(jù)稀疏性、魯棒性不強(qiáng)等問(wèn)題,使詞識(shí)別錯(cuò)誤率相對(duì)下降了2.4%。
【關(guān)鍵詞】:語(yǔ)音識(shí)別 深度學(xué)習(xí) 聲學(xué)建模 深度神經(jīng)網(wǎng)絡(luò) 長(zhǎng)短期記憶網(wǎng)絡(luò) 語(yǔ)言模型
【學(xué)位授予單位】:安徽大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TN912.34
【目錄】:
- 摘要3-5
- ABSTRACT5-10
- 第一章 緒論10-18
- 1.1 語(yǔ)音識(shí)別概述10-11
- 1.2 語(yǔ)音識(shí)別的發(fā)展與現(xiàn)狀11-13
- 1.3 深度學(xué)習(xí)對(duì)語(yǔ)音識(shí)別的意義13-14
- 1.4 維語(yǔ)語(yǔ)音識(shí)別14-16
- 1.4.1 維吾爾語(yǔ)的特點(diǎn)14-15
- 1.4.2 維語(yǔ)語(yǔ)音識(shí)別的發(fā)展現(xiàn)狀及研究意義15-16
- 1.5 本文的主要內(nèi)容及組織結(jié)構(gòu)16-18
- 1.5.1 主要內(nèi)容16
- 1.5.2 組織結(jié)構(gòu)16-18
- 第二章 語(yǔ)音識(shí)別基礎(chǔ)理論18-36
- 2.1 語(yǔ)音識(shí)別基本理論18-19
- 2.2 語(yǔ)音信號(hào)的預(yù)處理19-21
- 2.2.1 語(yǔ)音信號(hào)預(yù)加重19
- 2.2.2 語(yǔ)音信號(hào)加窗分幀處理19-20
- 2.2.3 語(yǔ)音信號(hào)端點(diǎn)檢測(cè)20-21
- 2.3 語(yǔ)音識(shí)別系統(tǒng)框架21-35
- 2.3.1 聲學(xué)特征提取22-25
- 2.3.2 聲學(xué)模型25-32
- 2.3.3 語(yǔ)言模型32-34
- 2.3.4 解碼器34-35
- 2.4 本章小結(jié)35-36
- 第三章 基于DNN-HMM的聲學(xué)建模36-45
- 3.1 深度學(xué)習(xí)發(fā)展36
- 3.2 感知器36-38
- 3.3 多層感知器網(wǎng)絡(luò)38-42
- 3.3.1 BP算法39-42
- 3.4 深度神經(jīng)網(wǎng)絡(luò)DNN-HMM聲學(xué)建模42
- 3.5 基于DNN的聲學(xué)模型訓(xùn)練42-44
- 3.5.1 網(wǎng)絡(luò)參數(shù)配置43
- 3.5.2 訓(xùn)練步驟43
- 3.5.3 實(shí)驗(yàn)結(jié)果及分析43-44
- 3.6 本章小結(jié)44-45
- 第四章 基于循環(huán)神經(jīng)網(wǎng)絡(luò)的聲學(xué)建模45-56
- 4.1 循環(huán)神經(jīng)網(wǎng)絡(luò)45-48
- 4.1.1 單向RNN45-46
- 4.1.2 雙向RNN46-48
- 4.2 基于LSTM的循環(huán)神經(jīng)網(wǎng)絡(luò)48-54
- 4.2.1 LSTM前向49-50
- 4.2.2 LSTM后向50-54
- 4.3 基于RNN的聲學(xué)模型訓(xùn)練54-55
- 4.3.1 網(wǎng)絡(luò)參數(shù)配置54
- 4.3.2 實(shí)驗(yàn)結(jié)果與分析54-55
- 4.4 本章小結(jié)55-56
- 第五章 維語(yǔ)語(yǔ)言模型優(yōu)化56-61
- 5.1 N-Gram介紹56-57
- 5.2 整詞語(yǔ)言模型面臨的問(wèn)題57-58
- 5.3 子詞語(yǔ)言模型58-59
- 5.4 實(shí)驗(yàn)結(jié)果與分析59-60
- 5.5 本章小結(jié)60-61
- 第六章 總結(jié)與展望61-63
- 6.1 總結(jié)61
- 6.2 展望61-63
- 參考文獻(xiàn)63-66
- 致謝66-67
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 郭遠(yuǎn)瓊;提高語(yǔ)音識(shí)別率點(diǎn)滴[J];電腦技術(shù);2000年03期
2 邢文;語(yǔ)音識(shí)別[J];個(gè)人電腦;2000年02期
3 ;語(yǔ)音識(shí)別的真相[J];個(gè)人電腦;2001年12期
4 ;語(yǔ)音識(shí)別漸入佳境[J];個(gè)人電腦;2002年03期
5 ;微軟語(yǔ)音識(shí)別軟件可與人直接對(duì)話[J];自動(dòng)化博覽;2003年04期
6 ;語(yǔ)音識(shí)別[J];印刷世界;2004年01期
7 杰里米·瓦格斯塔夫;讓語(yǔ)音識(shí)別軟件 解放你的雙手[J];農(nóng)業(yè)圖書(shū)情報(bào)學(xué)刊;2004年03期
8 韓紀(jì)慶,王歡良,李海峰,鄭鐵然;基于語(yǔ)音識(shí)別的發(fā)音學(xué)習(xí)技術(shù)[J];電聲技術(shù);2004年09期
9 陳孝強(qiáng);語(yǔ)音識(shí)別擬起新潮[J];微電腦世界;2005年07期
10 韓紀(jì)慶;張磊;鄭鐵然;;網(wǎng)絡(luò)環(huán)境下的語(yǔ)音識(shí)別方法[J];計(jì)算機(jī)科學(xué);2005年01期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 張歆奕;吳今培;張其善;;語(yǔ)音的共性特征及其在語(yǔ)音識(shí)別中的應(yīng)用[A];第十屆全國(guó)信號(hào)處理學(xué)術(shù)年會(huì)(CCSP-2001)論文集[C];2001年
2 杜樹(shù)木;何良華;;一種新的基于段長(zhǎng)分布的語(yǔ)音識(shí)別模型[A];2009年通信理論與信號(hào)處理學(xué)術(shù)年會(huì)論文集[C];2009年
3 李楨;高萬(wàn)林;歐文浩;徐山川;;基于關(guān)鍵詞語(yǔ)音識(shí)別的農(nóng)業(yè)信息語(yǔ)音服務(wù)系統(tǒng)的研究與實(shí)現(xiàn)[A];中國(guó)農(nóng)業(yè)工程學(xué)會(huì)電氣信息與自動(dòng)化專業(yè)委員會(huì)、中國(guó)電機(jī)工程學(xué)會(huì)農(nóng)村電氣化分會(huì)科技與教育專委會(huì)2010年學(xué)術(shù)年會(huì)論文摘要[C];2010年
4 張冰;龍長(zhǎng)才;羅海風(fēng);;熟悉掩蔽音背景下的目標(biāo)語(yǔ)音識(shí)別[A];泛在信息社會(huì)中的聲學(xué)——中國(guó)聲學(xué)學(xué)會(huì)2010年全國(guó)會(huì)員代表大會(huì)暨學(xué)術(shù)會(huì)議論文集[C];2010年
5 王承發(fā);趙德彬;金山;苗百利;朱志瑩;;語(yǔ)音識(shí)別應(yīng)用中抗噪聲干擾方法的初步探討[A];第二屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];1992年
6 杜笑平;楊啟綱;楊家沅;;過(guò)零周期轉(zhuǎn)移概率矩陣語(yǔ)音識(shí)別部件的研制[A];第二屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];1992年
7 季宏;劉志文;杜燕玲;黃曾陽(yáng);;語(yǔ)音識(shí)別中的音字轉(zhuǎn)換[A];第三屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];1994年
8 葛余博;楊大利;曾德超;;噪聲環(huán)境下語(yǔ)音識(shí)別的幾個(gè)問(wèn)題(一)[A];第三屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];1994年
9 朱奇峰;俞鐵城;;聽(tīng)覺(jué)中的協(xié)同現(xiàn)象和其對(duì)語(yǔ)音識(shí)別影響的探討[A];第四屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];1996年
10 姚磊;黃泰翼;陳景東;;一種高魯棒性語(yǔ)音識(shí)別的通用自適應(yīng)方法研究[A];第四屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];1996年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前10條
1 黃夢(mèng);方案商積極切入語(yǔ)音識(shí)別市場(chǎng)[N];電腦商報(bào);2006年
2 閆婷;語(yǔ)音識(shí)別 理想與現(xiàn)實(shí)的距離[N];計(jì)算機(jī)世界;2007年
3 劉喜喜;語(yǔ)音識(shí)別將把鼠標(biāo)鍵盤(pán)打入冷宮?[N];中國(guó)計(jì)算機(jī)報(bào);2008年
4 樂(lè)天;語(yǔ)音識(shí)別:讓你的手機(jī)更聰明[N];計(jì)算機(jī)世界;2011年
5 特約作者 王佳彬;語(yǔ)音識(shí)別漸入佳境[N];電腦報(bào);2002年
6 雨夏;語(yǔ)音識(shí)別重在應(yīng)用[N];計(jì)算機(jī)世界;2001年
7 ;語(yǔ)音識(shí)別企業(yè)應(yīng)用前景光明[N];計(jì)算機(jī)世界;2003年
8 王向東 欒煥博 林守勛 錢(qián)躍良;語(yǔ)音識(shí)別:抗噪音能力有待加強(qiáng)[N];計(jì)算機(jī)世界;2006年
9 上海 高博;讓電腦“聽(tīng)懂”人話[N];電腦報(bào);2008年
10 張彤;語(yǔ)音識(shí)別融入統(tǒng)一通信[N];網(wǎng)絡(luò)世界;2008年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 許金普;農(nóng)產(chǎn)品市場(chǎng)信息采集的語(yǔ)音識(shí)別魯棒性方法研究[D];中國(guó)農(nóng)業(yè)科學(xué)院;2015年
2 包希日莫;面向蒙古語(yǔ)的語(yǔ)音識(shí)別聲學(xué)建模研究[D];內(nèi)蒙古大學(xué);2016年
3 吳斌;語(yǔ)音識(shí)別中的后處理技術(shù)研究[D];北京郵電大學(xué);2008年
4 奉小慧;音頻噪聲環(huán)境下唇動(dòng)信息在語(yǔ)音識(shí)別中的應(yīng)用技術(shù)研究[D];華南理工大學(xué);2010年
5 孫f,
本文編號(hào):275600
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/275600.html