深度神經(jīng)網(wǎng)絡(luò)技術(shù)在漢語語音識(shí)別聲學(xué)建模中的優(yōu)化策略
本文選題:深層神經(jīng)網(wǎng)絡(luò) + 語音識(shí)別。 參考:《重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版)》2014年03期
【摘要】:將深度神經(jīng)網(wǎng)絡(luò)作為聲學(xué)模型引入面向漢語電話自然口語交談?wù)Z音識(shí)別系統(tǒng)。針對(duì)自然口語中識(shí)別字錯(cuò)誤率較高的問題,從語音的聲學(xué)特征類型選擇、模型訓(xùn)練時(shí)元參數(shù)調(diào)節(jié)以及改善模型泛化能力等方面出發(fā),對(duì)基于深度神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型建模技術(shù)進(jìn)行了一系列的優(yōu)化。針對(duì)訓(xùn)練樣本中狀態(tài)先驗(yàn)概率分布稀疏的情況,提出了一種狀態(tài)先驗(yàn)概率平滑算法,在一定程度上緩解了這種數(shù)據(jù)稀疏問題,經(jīng)平滑后,字錯(cuò)誤率下降超過1%。在所采用的3個(gè)電話自然口語交談測(cè)試集上,相對(duì)于優(yōu)化前的深度神經(jīng)網(wǎng)絡(luò)模型,經(jīng)過優(yōu)化后的模型取得了性能的一致提升,字錯(cuò)誤率平均相對(duì)降低15%。實(shí)驗(yàn)結(jié)果表明,所采用優(yōu)化策略可以有效地改善深度神經(jīng)網(wǎng)絡(luò)聲學(xué)模型性能。
[Abstract]:The depth neural network is used as the acoustic model in the speech recognition system for natural spoken conversation of Chinese telephone. Aiming at the problem of high recognition error rate in natural spoken language, this paper starts with the selection of acoustic feature types of speech, the adjustment of model training time element parameters, and the improvement of model generalization ability, etc. The acoustic modeling technology based on depth neural network is optimized. A state priori probability smoothing algorithm is proposed for sparse state prior probability distribution in training samples. To some extent, the problem of data sparsity is alleviated. After smoothing, the word error rate decreases by more than 1 bit. Compared with the depth neural network model before the optimization, the performance of the optimized model is consistently improved, and the word error rate is reduced by 15%. Experimental results show that the proposed optimization strategy can effectively improve the performance of depth neural network acoustic model.
【作者單位】: 中國科學(xué)院語言聲學(xué)與內(nèi)容理解重點(diǎn)實(shí)驗(yàn)室;
【基金】:國家自然科學(xué)基金(10925419,90920302,61072124,11074275,11161140319,91120001,61271426) 中國科學(xué)院戰(zhàn)略性先導(dǎo)科技專項(xiàng)(XDA06030100,XDA06030500) 國家“863”計(jì)劃(2012AA012503) 中科院重點(diǎn)部署項(xiàng)目(KGZD-EW-103-2)~~
【分類號(hào)】:TN912.34;TP183
【參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 杜利民;侯自強(qiáng);;自動(dòng)語音識(shí)別研究的人工神經(jīng)網(wǎng)絡(luò)方法[J];物理學(xué)進(jìn)展;1996年Z1期
【共引文獻(xiàn)】
相關(guān)期刊論文 前1條
1 賈穎,杜利民,侯自強(qiáng);一類目標(biāo)函數(shù)的逆向構(gòu)造[J];電子科學(xué)學(xué)刊;2000年02期
相關(guān)碩士學(xué)位論文 前3條
1 胡小平;支持向量機(jī)在說話人識(shí)別中的應(yīng)用[D];南京理工大學(xué);2003年
2 鄭燕琳;漢語連續(xù)語音三字詞基音提取及聲調(diào)識(shí)別[D];吉林大學(xué);2004年
3 張杰;基于WEKA平臺(tái)和多分類器的少數(shù)民族語種識(shí)別研究[D];云南大學(xué);2013年
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 曾黃麟;;一類新的模式識(shí)別聯(lián)想神經(jīng)網(wǎng)絡(luò)[J];電訊技術(shù);1992年01期
2 陳在;;神經(jīng)網(wǎng)絡(luò):一種全新的多媒體技術(shù)[J];重慶郵電學(xué)院學(xué)報(bào)(自然科學(xué)版);1993年01期
3 王衛(wèi),蔡德鈞,,萬發(fā)貫;神經(jīng)網(wǎng)絡(luò)在圖像編碼中的應(yīng)用[J];電子學(xué)報(bào);1995年07期
4 何振亞;計(jì)算智能信息處理[J];數(shù)據(jù)采集與處理;1996年02期
5 王磊;莫玉龍;;基于自反饋連續(xù)Hopfield網(wǎng)絡(luò)復(fù)原運(yùn)動(dòng)模糊圖象的研究[J];電子器件;1997年01期
6 王廷堯;神經(jīng)計(jì)算技術(shù)在ATM光纖高速智能管理網(wǎng)中的應(yīng)用(續(xù))[J];光通信技術(shù);2000年03期
7 李會(huì)方;李鋒W
本文編號(hào):1866240
本文鏈接:http://sikaile.net/kejilunwen/wltx/1866240.html