基于深層神經(jīng)網(wǎng)絡(luò)的聲學(xué)特征提取及其在LVCSR系統(tǒng)中的應(yīng)用
本文選題:深層神經(jīng)網(wǎng)絡(luò) + 大詞匯量連續(xù)語(yǔ)音識(shí)別; 參考:《中國(guó)科學(xué)技術(shù)大學(xué)》2014年博士論文
【摘要】:近年來(lái),深層神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)的崛起在諸多研究領(lǐng)域都引起了強(qiáng)烈的反響,并越來(lái)越受到關(guān)注。在語(yǔ)音識(shí)別領(lǐng)域,DNN相關(guān)技術(shù)能夠使聲學(xué)模型的識(shí)別性能得到顯著性提升,已然成為新的研究熱點(diǎn)。DNN通常以兩種方式被有效地應(yīng)用到聲學(xué)建模當(dāng)中:1)與隱馬爾科夫模型(Hidden Markov Model, HMM)組成混合架構(gòu)模型DNN-HMM,代替高斯混合模型(Gaussian Mixture Model, GMM)進(jìn)行狀態(tài)輸出概率的計(jì)算;2)作為前端的聲學(xué)特征提取器,為傳統(tǒng)的GMM-HMM聲學(xué)建模架構(gòu)提供更有效的聲學(xué)特征。本文將主要圍繞基于DNN的聲學(xué)特征提取及其在LVCSR系統(tǒng)中的應(yīng)用展開(kāi)研究,包括Tandem特征(或叫作概率特征)提取和瓶頸(bottleneck)特征提取兩方面。 首先,本文針對(duì)中文LVCSR系統(tǒng)提出了一種構(gòu)建音素建模單元集的方法。這里,音素建模單元集的構(gòu)建包括將傳統(tǒng)聲韻母建模單元集中的韻母細(xì)化到拼音音素級(jí)別、以一些先驗(yàn)知識(shí)為指導(dǎo)對(duì)這些單元進(jìn)行調(diào)整并構(gòu)造相對(duì)應(yīng)的詞典,以及首次基于擴(kuò)展元音三角圖設(shè)計(jì)問(wèn)題集。音素建模單元集的單元數(shù)目相對(duì)較少,顯得更為精簡(jiǎn),冗余度和重合性降低,音素單元之間的區(qū)分性增強(qiáng),在提取Tandem特征時(shí)可以有效的減少神經(jīng)網(wǎng)絡(luò)的輸出層節(jié)點(diǎn)數(shù)目,這樣既可以降低神經(jīng)網(wǎng)絡(luò)的復(fù)雜度,也更有利于Tandem特征的提取。實(shí)驗(yàn)表明,相比于聲韻母建模單元集,新的音素建模單元集在基線系統(tǒng)和Tandem特征提取兩方面都取得了較優(yōu)的識(shí)別性能。 其次,本文搭建了基于DNN提取bottleneck特征的基線系統(tǒng),并結(jié)合一些啟發(fā)式的技術(shù)進(jìn)行了相應(yīng)的優(yōu)化。為了提取bottleneck特征,我們通常是將DNN中間隱層的節(jié)點(diǎn)數(shù)設(shè)置成一個(gè)較小的數(shù)值(往往與基礎(chǔ)MFCC或PLP特征維度一致),這個(gè)隱層就被形象地稱作為bottleneck層,而這種具有特殊結(jié)構(gòu)的DNN被稱作為bottleneck DNN, bottleneck層的輸出就是所期望得到的基線bottleneck特征。實(shí)驗(yàn)表明,通過(guò)引入一些啟發(fā)式的技術(shù),比如利用線性變換技術(shù)PCA去相關(guān)、一階差分和二階差分系數(shù)、在解碼過(guò)程中使用聲學(xué)規(guī)整因子重新調(diào)整聲學(xué)模型得分和語(yǔ)言模型得分之間的相對(duì)重要性等,bottleneck特征取得了較為顯著的性能提升,甚至能與DNN-HMM混合架構(gòu)模型的性能相比擬。其中,引入聲學(xué)規(guī)整因子尤為重要。 第三,本文提出了兩種DNN非相干訓(xùn)練(Incoherent Training)算法,即最小化bottleneck層權(quán)重矩陣的相干性和最小化每個(gè)1nini-batch中數(shù)據(jù)的相關(guān)系數(shù)。算法通過(guò)在DNN訓(xùn)練的原始目標(biāo)函數(shù)上增添歸整項(xiàng),使得bottleneck特征各維之間的相關(guān)性能夠在DNN的訓(xùn)練過(guò)程中較為顯式地被直接控制并被自動(dòng)去除,以便于更好地用于后續(xù)對(duì)角化GMM-HMM的建模。實(shí)驗(yàn)結(jié)果表明,兩種非相干訓(xùn)練算法都取得了一定的效果,使得基于bottleneck特征的GMM-HMM模型在識(shí)別性能上超越了DNN-HMM. 最后,本文引入序貫區(qū)分性訓(xùn)練(Sequential Discriminative Training,SDT)算法對(duì)bottleneck DNN進(jìn)行優(yōu)化,從而得到性能更好的bottleneck特征。SDT算法在GMM-HMM建模架構(gòu)中已經(jīng)取得了卓越的效果,其目標(biāo)函數(shù)中包含的語(yǔ)音幀之間的序貫信息對(duì)于語(yǔ)音識(shí)別問(wèn)題至關(guān)重要,而這恰恰是傳統(tǒng)的DNN訓(xùn)練算法(主要是基于幀分類的交叉熵算法)所缺少的,因此,我們借助SDT算法來(lái)對(duì)DNN參數(shù)進(jìn)一步優(yōu)化,并且采用了兩種新的bottleneckDNN結(jié)構(gòu)。兩種結(jié)構(gòu)都是將bottleneck層后移至最后一個(gè)隱層,但是,第一種結(jié)構(gòu)的其他隱層節(jié)點(diǎn)數(shù)目相同,另一種則采取“寬”、“窄”隱層交織的結(jié)構(gòu)。從實(shí)驗(yàn)結(jié)果中可以看到,SDT算法有助于得到更好的bottleneck特征,并且在后移結(jié)構(gòu)上能夠取得更優(yōu)的性能,而使用交織結(jié)構(gòu)能夠減少提取bottleneck特征的計(jì)算量,同時(shí)保證識(shí)別性能基本沒(méi)有損失。
[Abstract]:In recent years , the rise of Deep Neural Network ( DNN ) has caused a strong echo in many fields , and more and more attention has been paid . In the field of speech recognition , DNN technology can improve the recognition performance of the acoustic model , which has become a new research hotspot . The DNN is usually applied to acoustic modeling in two ways : 1 ) and Hidden Markov Model ( HMM ) .
2 ) As the acoustic feature extractor at the front end , it provides more effective acoustic characteristics for the traditional acoustic modeling architecture of the gmm - HMM . This paper mainly focuses on the feature extraction based on DNN and its application in LVCSR system , including the extraction of tandem feature ( or probability feature ) extraction and bottleneck feature extraction .
Firstly , this paper proposes a method of constructing a phoneme modeling unit set for Chinese LVCSR system . The construction of the phoneme modeling unit includes thinning the vowel in the traditional vowel modeling unit to the phoneme level , adjusting and constructing the corresponding dictionary based on some prior knowledge , and reducing the number of output layer nodes of the neural network for the first time .
Secondly , this paper sets up a baseline system based on DNN extraction feature , and optimizes it with some heuristic techniques . In order to extract the characteristic , we usually set the number of nodes of the middle hidden layer of DNN to a smaller value ( which is often consistent with the basic MFCC or PLPs feature dimension ) , and this hidden layer is referred to as the base layer , and the output of this special structure is called as the base line characteristic . The experiment shows that by introducing some heuristic techniques , such as using linear transformation technique PCA to re - adjust the relative importance between the acoustic model score and the language model score , this feature has achieved remarkable performance improvement , and even can be compared with the performance of the DNN - HMM hybrid architecture model .
Thirdly , two kinds of DNN non - coherent training ( Incoherent Training ) algorithms are proposed to minimize the coherence of the weight matrix and minimize the correlation coefficient of data in every 1nini - batch .
In the end , this paper introduces sequential discriminative training ( sdt ) algorithm to optimize the speech recognition problem , so as to get better performance . The algorithm is very important to the speech recognition problem in the model of gmm - HMM , and the two new structures are the structure of the traditional DNN training algorithm ( mainly based on the cross entropy algorithm of frame classification ) .
【學(xué)位授予單位】:中國(guó)科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2014
【分類號(hào)】:TN912.3;TP18
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 趙俊鈺;魏建明;潘強(qiáng);劉海濤;;無(wú)線傳感器網(wǎng)絡(luò)中一種新型加權(quán)Mel濾波器組[J];傳感技術(shù)學(xué)報(bào);2009年06期
2 寧永成;侯代文;;遞推的貝葉斯估計(jì)方法[J];四川兵工學(xué)報(bào);2013年10期
3 郭宇弘;黎塔;肖業(yè)鳴;潘接林;顏永紅;;基于加權(quán)有限狀態(tài)機(jī)的動(dòng)態(tài)匹配詞圖生成算法[J];電子與信息學(xué)報(bào);2014年01期
4 陳晨;胡貝貝;;基于語(yǔ)音識(shí)別技術(shù)的機(jī)載短波應(yīng)急通信[J];電訊技術(shù);2014年01期
5 趙曉;侯晴宇;梁冰冰;張偉;;基于多屬性融合的高分辨率遙感圖像云檢測(cè)方法[J];光學(xué)技術(shù);2014年02期
6 肖業(yè)鳴;張晴晴;宋黎明;潘接林;顏永紅;;深度神經(jīng)網(wǎng)絡(luò)技術(shù)在漢語(yǔ)語(yǔ)音識(shí)別聲學(xué)建模中的優(yōu)化策略[J];重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版);2014年03期
7 俸云;景新幸;葉懋;;MFCC特征改進(jìn)算法在語(yǔ)音識(shí)別中的應(yīng)用[J];計(jì)算機(jī)工程與科學(xué);2009年12期
8 俸云;景新幸;;結(jié)合殘差相位的MFCC特征改進(jìn)算法[J];計(jì)算機(jī)仿真;2009年10期
9 司華建;李輝;陳冠華;方昕;;最大后驗(yàn)概率自適應(yīng)方法在口令識(shí)別中的應(yīng)用[J];計(jì)算機(jī)工程與應(yīng)用;2013年12期
10 何勇軍;付茂國(guó);孫廣路;;語(yǔ)音特征增強(qiáng)方法綜述[J];哈爾濱理工大學(xué)學(xué)報(bào);2014年02期
相關(guān)會(huì)議論文 前3條
1 袁冬梅;俞一彪;顏祥;戴志強(qiáng);;非線性頻譜變換的說(shuō)話人識(shí)別性能分析[A];2006’和諧開(kāi)發(fā)中國(guó)西部聲學(xué)學(xué)術(shù)交流會(huì)論文集[C];2006年
2 王海燕;楊鴻武;甘振業(yè);裴東;;基于說(shuō)話人自適應(yīng)訓(xùn)練的漢藏雙語(yǔ)語(yǔ)音合成[A];第十二屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議(NCMMSC'2013)論文集[C];2013年
3 李先剛;張晨煒;龐在虎;吳璽宏;;大詞匯量連續(xù)語(yǔ)音識(shí)別解碼器優(yōu)化研究與實(shí)現(xiàn)[A];第十二屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議(NCMMSC'2013)論文集[C];2013年
相關(guān)博士學(xué)位論文 前9條
1 陳剛;基于內(nèi)容的相關(guān)反饋式音樂(lè)檢索方法研究[D];華中科技大學(xué);2010年
2 陳凌輝;說(shuō)話人轉(zhuǎn)換建模方法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2013年
3 飛龍;蒙古語(yǔ)語(yǔ)音關(guān)鍵詞檢測(cè)技術(shù)的研究[D];內(nèi)蒙古大學(xué);2013年
4 張茹;漢語(yǔ)普通話發(fā)音自動(dòng)評(píng)測(cè)方法的研究[D];哈爾濱工業(yè)大學(xué);2013年
5 葉飛;高階隱馬氏模型算法理論若干問(wèn)題的研究[D];上海大學(xué);2012年
6 王琳琳;說(shuō)話人識(shí)別中的時(shí)變魯棒性問(wèn)題研究[D];清華大學(xué);2013年
7 陳洪濤;基于多參量信息融合的刀具磨損狀態(tài)識(shí)別及預(yù)測(cè)技術(shù)研究[D];西南交通大學(xué);2013年
8 黃垂碧;應(yīng)用層網(wǎng)關(guān)攻擊檢測(cè)和性能優(yōu)化策略研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2014年
9 王智國(guó);嵌入式人機(jī)語(yǔ)音交互系統(tǒng)關(guān)鍵技術(shù)研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2014年
相關(guān)碩士學(xué)位論文 前10條
1 葉振超;CADAL中國(guó)文學(xué)編年史系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];浙江大學(xué);2011年
2 劉巍;基于內(nèi)容的同源音頻和視頻檢索[D];北京郵電大學(xué);2011年
3 朝木日樂(lè)格;基于支持向量機(jī)的蒙古語(yǔ)語(yǔ)音端點(diǎn)檢測(cè)方法研究[D];內(nèi)蒙古大學(xué);2011年
4 李Y,
本文編號(hào):1861781
本文鏈接:http://sikaile.net/kejilunwen/wltx/1861781.html