基于卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別研究
本文關(guān)鍵詞: 語(yǔ)音識(shí)別 聲學(xué)模型 聲學(xué)特征 深度卷積神經(jīng)網(wǎng)絡(luò) 時(shí)-頻譜 出處:《北京交通大學(xué)》2017年碩士論文 論文類(lèi)型:學(xué)位論文
【摘要】:近年,隨著深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)在語(yǔ)音識(shí)別中的成功應(yīng)用,研究人員陸續(xù)展開(kāi)了對(duì)其他網(wǎng)絡(luò)結(jié)構(gòu)的探索。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)憑借其特殊的網(wǎng)絡(luò)結(jié)構(gòu)和強(qiáng)大的特征學(xué)習(xí)能力,吸引了許多學(xué)者對(duì)其進(jìn)行深入研究。目前,在聲學(xué)模型構(gòu)建和聲學(xué)特征提取中,CNN的潛力還有待進(jìn)一步挖掘。本文從語(yǔ)音識(shí)別基本原理出發(fā),以聲學(xué)模型和聲學(xué)特征為切入點(diǎn),主要研究了深度卷積神經(jīng)網(wǎng)絡(luò)在語(yǔ)音識(shí)別任務(wù)中的應(yīng)用:(1)研究了基于深度卷積神經(jīng)網(wǎng)絡(luò)的聲學(xué)建模,本文從模型結(jié)構(gòu)、訓(xùn)練算法等方面深入對(duì)比分析了 Deep CNN、DNN以及GMM在聲學(xué)建模中的應(yīng)用,闡述了 CNN用于描述HMM狀態(tài)輸出概率分布的可行性,著重研究了不同網(wǎng)絡(luò)深度下CNN的性能表現(xiàn)。應(yīng)用CNTK和Kaldi開(kāi)源語(yǔ)音識(shí)別平臺(tái)分別實(shí)現(xiàn)了基于GMM-HMM、DNN-HMM以及不同深度的CNN-HMM聲學(xué)模型的識(shí)別系統(tǒng),在850人實(shí)驗(yàn)數(shù)據(jù)集上通過(guò)實(shí)驗(yàn)表明:2卷積層的CNN-HMM聲學(xué)模型較DNN-HMM、GMM-HMM聲學(xué)模型在音素誤識(shí)率上有著8.29%和36.89%的相對(duì)降低,6卷積層的CNN-HMM聲學(xué)模型較2卷積層的CNN-HMM聲學(xué)模型在音素誤識(shí)率上有著8.13%的相對(duì)降低。(2)研究了基于深度卷積神經(jīng)網(wǎng)絡(luò)的時(shí)-頻譜特征提取,本文分析了現(xiàn)有聲學(xué)特征Fbank的兩點(diǎn)缺陷:設(shè)計(jì)過(guò)于依賴(lài)經(jīng)驗(yàn)性知識(shí),存在部分語(yǔ)音信息損失。從語(yǔ)譜的物理意義出發(fā),提出了基于Deep CNN的多幀并聯(lián)的時(shí)-頻譜特征提取方法。使用CNTK設(shè)計(jì)了相應(yīng)的網(wǎng)絡(luò)結(jié)構(gòu),通過(guò)Kaldi開(kāi)源語(yǔ)音識(shí)別平臺(tái)在850人實(shí)驗(yàn)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)表明基于時(shí)-頻譜特征的系統(tǒng)較Fbank的系統(tǒng)在音素誤識(shí)率上有2.16%的相對(duì)降低。
[Abstract]:In recent years, with the successful application of Deep Neural Network (DNN) in speech recognition. Researchers have been exploring other networks. Convolutional Neural Network. With its special network structure and strong feature learning ability, CNN has attracted many scholars to conduct in-depth research. At present, in the acoustic modeling and acoustic feature extraction. The potential of CNN still needs to be further explored. This paper starts from the basic principles of speech recognition, taking acoustic model and acoustic features as the breakthrough point. This paper mainly studies the application of deep convolution neural network in speech recognition task. (1) the acoustic modeling based on deep convolution neural network is studied in this paper. The application of Deep CNN DNN and GMM in acoustic modeling is compared and analyzed in detail, and the feasibility of using CNN to describe the probability distribution of HMM state output is expounded. The performance of CNN in different network depth is studied, and the open source speech recognition platform based on CNTK and Kaldi is implemented based on GMM-HMM. DNN-HMM and different depth of CNN-HMM acoustic model recognition system. The CNN-HMM acoustic model of the convolutional layer of 1: 2 is better than that of DNN-HMM on the 850-person experimental data set. The GMM-HMM acoustic model has a relative decrease of 8.29% and 36.89% in phoneme error rate. The CNN-HMM acoustic model of convolutional layer is 8.13% lower than that of CNN-HMM acoustic model of 2 convolution layer in phoneme error rate. Time spectrum feature extraction based on deep convolution neural network is studied. This paper analyzes the two defects of the existing acoustic feature Fbank: the design is too dependent on empirical knowledge and there are some loss of speech information, starting from the physical meaning of the linguistic spectrum. A time-spectrum feature extraction method based on Deep CNN is proposed, and the corresponding network structure is designed using CNTK. Through the Kaldi open source speech recognition platform, the experiment was carried out on the 850-person experimental data set. The experimental results show that the phoneme error rate of the system based on time-spectrum features is 2.16% lower than that of the system based on Fbank.
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類(lèi)號(hào)】:TN912.34;TP183
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 申建國(guó),王暖臣;語(yǔ)音識(shí)別程序的開(kāi)發(fā)與應(yīng)用[J];計(jì)算機(jī)應(yīng)用研究;2000年12期
2 郭遠(yuǎn)瓊;提高語(yǔ)音識(shí)別率點(diǎn)滴[J];電腦技術(shù);2000年03期
3 邢文;語(yǔ)音識(shí)別[J];個(gè)人電腦;2000年02期
4 ;語(yǔ)音識(shí)別的真相[J];個(gè)人電腦;2001年12期
5 ;語(yǔ)音識(shí)別漸入佳境[J];個(gè)人電腦;2002年03期
6 ;微軟語(yǔ)音識(shí)別軟件可與人直接對(duì)話[J];自動(dòng)化博覽;2003年04期
7 ;語(yǔ)音識(shí)別[J];印刷世界;2004年01期
8 杰里米·瓦格斯塔夫;讓語(yǔ)音識(shí)別軟件 解放你的雙手[J];農(nóng)業(yè)圖書(shū)情報(bào)學(xué)刊;2004年03期
9 韓紀(jì)慶,王歡良,李海峰,鄭鐵然;基于語(yǔ)音識(shí)別的發(fā)音學(xué)習(xí)技術(shù)[J];電聲技術(shù);2004年09期
10 陳孝強(qiáng);語(yǔ)音識(shí)別擬起新潮[J];微電腦世界;2005年07期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 張歆奕;吳今培;張其善;;語(yǔ)音的共性特征及其在語(yǔ)音識(shí)別中的應(yīng)用[A];第十屆全國(guó)信號(hào)處理學(xué)術(shù)年會(huì)(CCSP-2001)論文集[C];2001年
2 杜樹(shù)木;何良華;;一種新的基于段長(zhǎng)分布的語(yǔ)音識(shí)別模型[A];2009年通信理論與信號(hào)處理學(xué)術(shù)年會(huì)論文集[C];2009年
3 李楨;高萬(wàn)林;歐文浩;徐山川;;基于關(guān)鍵詞語(yǔ)音識(shí)別的農(nóng)業(yè)信息語(yǔ)音服務(wù)系統(tǒng)的研究與實(shí)現(xiàn)[A];中國(guó)農(nóng)業(yè)工程學(xué)會(huì)電氣信息與自動(dòng)化專(zhuān)業(yè)委員會(huì)、中國(guó)電機(jī)工程學(xué)會(huì)農(nóng)村電氣化分會(huì)科技與教育專(zhuān)委會(huì)2010年學(xué)術(shù)年會(huì)論文摘要[C];2010年
4 張冰;龍長(zhǎng)才;羅海風(fēng);;熟悉掩蔽音背景下的目標(biāo)語(yǔ)音識(shí)別[A];泛在信息社會(huì)中的聲學(xué)——中國(guó)聲學(xué)學(xué)會(huì)2010年全國(guó)會(huì)員代表大會(huì)暨學(xué)術(shù)會(huì)議論文集[C];2010年
5 王承發(fā);趙德彬;金山;苗百利;朱志瑩;;語(yǔ)音識(shí)別應(yīng)用中抗噪聲干擾方法的初步探討[A];第二屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];1992年
6 杜笑平;楊啟綱;楊家沅;;過(guò)零周期轉(zhuǎn)移概率矩陣語(yǔ)音識(shí)別部件的研制[A];第二屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];1992年
7 季宏;劉志文;杜燕玲;黃曾陽(yáng);;語(yǔ)音識(shí)別中的音字轉(zhuǎn)換[A];第三屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];1994年
8 葛余博;楊大利;曾德超;;噪聲環(huán)境下語(yǔ)音識(shí)別的幾個(gè)問(wèn)題(一)[A];第三屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];1994年
9 朱奇峰;俞鐵城;;聽(tīng)覺(jué)中的協(xié)同現(xiàn)象和其對(duì)語(yǔ)音識(shí)別影響的探討[A];第四屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];1996年
10 姚磊;黃泰翼;陳景東;;一種高魯棒性語(yǔ)音識(shí)別的通用自適應(yīng)方法研究[A];第四屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];1996年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前10條
1 黃夢(mèng);方案商積極切入語(yǔ)音識(shí)別市場(chǎng)[N];電腦商報(bào);2006年
2 閆婷;語(yǔ)音識(shí)別 理想與現(xiàn)實(shí)的距離[N];計(jì)算機(jī)世界;2007年
3 劉喜喜;語(yǔ)音識(shí)別將把鼠標(biāo)鍵盤(pán)打入冷宮?[N];中國(guó)計(jì)算機(jī)報(bào);2008年
4 樂(lè)天;語(yǔ)音識(shí)別:讓你的手機(jī)更聰明[N];計(jì)算機(jī)世界;2011年
5 特約作者 王佳彬;語(yǔ)音識(shí)別漸入佳境[N];電腦報(bào);2002年
6 雨夏;語(yǔ)音識(shí)別重在應(yīng)用[N];計(jì)算機(jī)世界;2001年
7 ;語(yǔ)音識(shí)別企業(yè)應(yīng)用前景光明[N];計(jì)算機(jī)世界;2003年
8 王向東 欒煥博 林守勛 錢(qián)躍良;語(yǔ)音識(shí)別:抗噪音能力有待加強(qiáng)[N];計(jì)算機(jī)世界;2006年
9 上海 高博;讓電腦“聽(tīng)懂”人話[N];電腦報(bào);2008年
10 張彤;語(yǔ)音識(shí)別融入統(tǒng)一通信[N];網(wǎng)絡(luò)世界;2008年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 許金普;農(nóng)產(chǎn)品市場(chǎng)信息采集的語(yǔ)音識(shí)別魯棒性方法研究[D];中國(guó)農(nóng)業(yè)科學(xué)院;2015年
2 包希日莫;面向蒙古語(yǔ)的語(yǔ)音識(shí)別聲學(xué)建模研究[D];內(nèi)蒙古大學(xué);2016年
3 吳斌;語(yǔ)音識(shí)別中的后處理技術(shù)研究[D];北京郵電大學(xué);2008年
4 奉小慧;音頻噪聲環(huán)境下唇動(dòng)信息在語(yǔ)音識(shí)別中的應(yīng)用技術(shù)研究[D];華南理工大學(xué);2010年
5 孫f,
本文編號(hào):1478538
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/1478538.html