RNN-DNN語音識別系統(tǒng)研究及其應(yīng)用

發(fā)布時間：2020-07-09 06:24

【摘要】：隨著智能可穿戴設(shè)備和智能家居市場的升溫,語音識別作為其中最重要的人機交互手段,其市場也水漲船高。在非現(xiàn)場說話人認證系統(tǒng)中,良好的語音識別系統(tǒng)能讓非現(xiàn)場說話人認證系統(tǒng)的人機交互更加自然。傳統(tǒng)連續(xù)語音識別技術(shù)的主流代表是GMM-HMM,但是其識別率遠不能滿足商業(yè)應(yīng)用需求。深度神經(jīng)網(wǎng)絡(luò)由多層非線性變換網(wǎng)絡(luò)構(gòu)成,較多的隱層數(shù)量和較多的隱層神經(jīng)元數(shù),使得深度神經(jīng)網(wǎng)絡(luò)能適應(yīng)語音識別這樣的復(fù)雜模式分類問題。2011年前后,微軟、谷歌等公司開始將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用到語音識別的聲學(xué)模型中,并取得飛躍性的進步,使其成為現(xiàn)代語音識別的主流技術(shù)。隨著計算能力的提升,循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型技術(shù)也得到了很好的發(fā)展,困惑度已經(jīng)低于傳統(tǒng)N-gram,在機器翻譯、對話生成等領(lǐng)域的應(yīng)用效果也超出了傳統(tǒng)的N-gram方案的效果。所以本文將會使用循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型取代N-gram語言模型,與DNN-HMM聲學(xué)模型搭配來提升語音識別識別率。為了給本實驗室的“遠程說話人認證系統(tǒng)”對話控制模塊的挑戰(zhàn)響應(yīng)檢測提供語音識別支持,本文使用Kaldi深度學(xué)習(xí)工具箱,搭建一套基于循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型和深度神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的中文大詞匯量連續(xù)語音識別系統(tǒng)。本文的主要工作和貢獻如下:1、通過理論分析和實驗對比選擇了聲母加帶調(diào)韻母方案作為中文語音識別系統(tǒng)的識別基元方案;通過理論分析和實驗對比選擇DNN-HMM作為聲學(xué)模型;通過理論分析和實驗對比選擇循環(huán)神經(jīng)網(wǎng)絡(luò)作為語言模型,并最終證明該方案的優(yōu)越性。2、將RNN語言模型和DNN聲學(xué)模型進行結(jié)合,取得了比N-gram語言模型搭配GMM-HMM或者DNN-HMM聲學(xué)模型的語音識別系統(tǒng)更高的識別率。3、搭建基于RNN語言模型和DNN聲學(xué)模型的中文語音識別系統(tǒng),并將其與遠程說話人認證系統(tǒng)連接運行,取得良好的識別效果。
【學(xué)位授予單位】：華南理工大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2018
【分類號】：TN912.34
【圖文】：

產(chǎn)業(yè)規(guī)模,數(shù)據(jù)來源,智能產(chǎn)業(yè),緒論

第一章緒論及意義與人之間互相交流最原始最自然的手段，也是最自然的日 Amazon 發(fā)布的 Echo 語音助手音箱、2016 年 5 月 19、2016 年 10 月 Facebook 將發(fā)布的 AI 管家都無一例外。穿戴設(shè)備和智能家居市場的升溫，語音識別作為其中的也越來越大。2016 年，Research and Markets 公司發(fā)產(chǎn)業(yè)報告》顯示，隨著智能語音技術(shù)在智能產(chǎn)業(yè)應(yīng)用領(lǐng)域的市場規(guī)模將近 192 億美元。據(jù)中國工業(yè)和信息化，2017 年，中國智能語音產(chǎn)業(yè)規(guī)模突破 100 億人民幣

序列,語音識別系統(tǒng)

圖 2-1 語音識別系統(tǒng)詞典，是一個描述詞與拼音對應(yīng)關(guān)系的文本。發(fā)聲詞典在聲學(xué)和語言中每個詞由哪些子詞連接而成。其內(nèi)容也因語種和采取的語音識別。比如聲韻母+聲調(diào)識別基元方案的中文發(fā)聲詞典可以對華南這一：華南 h ua2 n an2；模型，也稱語言學(xué)模型，主要是描述人類語言習(xí)慣，語言中的詞語間俗地講，就是教會機器人類語言有哪些詞語組合。在語音識別的數(shù)負責計算 P( W )，文字序列本身符合語言習(xí)慣的概率。語言模型一一句話的概率拆成每個詞語的概率的積。設(shè)句子W 是由詞語1 2, ,w w 1 2 1 3 1 2 1 2 1( ) ( ) ( | ) ( | , )... ( | , ,..., )n nP W P w P w w P w w w P w w w w 語言模型依靠大量經(jīng)過分詞的中文文本進行訓(xùn)練。訓(xùn)練得到的語言

循環(huán)神經(jīng)網(wǎng)絡(luò),節(jié)點對,問題,研究員

圖 2-2 循環(huán)神經(jīng)網(wǎng)絡(luò)個很大的問題，就是后來時間節(jié)象，因此網(wǎng)絡(luò)層數(shù)一加深就變得 Term Memory，LSTM）的出現(xiàn)存之前時刻的狀態(tài)。這使得網(wǎng)google 公司 Hasim Sak 等研究員 10.7%的 WER。

【參考文獻】

相關(guān)期刊論文前5條

1 余凱;賈磊;陳雨強;徐偉;;深度學(xué)習(xí)的昨天、今天和明天[J];計算機研究與發(fā)展;2013年09期

2 王志鋒;賀前華;張雪源;羅海宇;蘇卓生;;基于信道模式噪聲的錄音回放攻擊檢測[J];華南理工大學(xué)學(xué)報(自然科學(xué)版);2011年10期

3 金紅;蔣存波;陳小琴;;基于有限狀態(tài)自動機原理的孔中心定位程序[J];計算機工程與應(yīng)用;2007年04期

4 喬春雷,吳及,王作英;在漢語語音識別中應(yīng)用聲調(diào)信息的研究[J];計算機工程與應(yīng)用;2002年12期

5 吳應(yīng)良,韋崗,李海洲;基于字統(tǒng)計語言模型的漢語語音識別研究[J];計算機應(yīng)用研究;2000年05期

相關(guān)博士學(xué)位論文前1條

1 張仕良;基于深度神經(jīng)網(wǎng)絡(luò)的語音識別模型研究[D];中國科學(xué)技術(shù)大學(xué);2017年

相關(guān)碩士學(xué)位論文前6條

1 葉卓賢;一種基于用戶注冊信息的人機對話控制方法及系統(tǒng)實現(xiàn)[D];華南理工大學(xué);2017年

2 張德良;深度神經(jīng)網(wǎng)絡(luò)在中文語音識別系統(tǒng)中的實現(xiàn)[D];北京交通大學(xué);2015年

3 張潔凱;遠程說話人認證系統(tǒng)的設(shè)計與實現(xiàn)[D];華南理工大學(xué);2015年

4 梁靜;基于深度學(xué)習(xí)的語音識別研究[D];北京郵電大學(xué);2014年

5 陳碩;深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)在語音識別中的應(yīng)用研究[D];華南理工大學(xué);2013年

6 鄒榮;大詞匯量連續(xù)語音識別系統(tǒng)中統(tǒng)計語言模型的研究[D];北京郵電大學(xué);2006年

本文編號：2747077

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/wltx/2747077.html

上一篇：基于缺失數(shù)據(jù)的流數(shù)據(jù)關(guān)聯(lián)分析
下一篇：全雙工無線多跳網(wǎng)絡(luò)能量效率與安全速率優(yōu)化研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

RNN-DNN語音識別系統(tǒng)研究及其應(yīng)用