基于深層神經(jīng)網(wǎng)絡(luò)的多特征關(guān)聯(lián)聲學(xué)建模方法
本文選題:語(yǔ)音識(shí)別 + 深層神經(jīng)網(wǎng)絡(luò); 參考:《計(jì)算機(jī)研究與發(fā)展》2017年05期
【摘要】:針對(duì)不同聲學(xué)特征之間的信息互補(bǔ)性以及聲學(xué)建模中各任務(wù)間的關(guān)聯(lián)性,提出了一種多特征關(guān)聯(lián)的深層神經(jīng)網(wǎng)絡(luò)聲學(xué)建模方法,該方法首先借鑒深層神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN)多模態(tài)以及多任務(wù)學(xué)習(xí)思想,通過(guò)共享DNN部分隱含層為不同特征聲學(xué)模型間建立關(guān)聯(lián),從而挖掘不同學(xué)習(xí)任務(wù)間隱含的共同解釋性因素,實(shí)現(xiàn)知識(shí)遷移以及性能的相互促進(jìn);其次利用低秩矩陣分解方法減少模型估計(jì)參數(shù)的數(shù)量,加快模型訓(xùn)練速度,并對(duì)不同特征的識(shí)別結(jié)果采用ROVER(recognizer output voting error reduction)融合算法進(jìn)行融合,進(jìn)一步提高系統(tǒng)識(shí)別性能.基于TIMIT的連續(xù)語(yǔ)音識(shí)別實(shí)驗(yàn)表明,采用關(guān)聯(lián)聲學(xué)建模方法,不同特征的識(shí)別性能均要優(yōu)于獨(dú)立建模時(shí)的識(shí)別性能.在音素錯(cuò)誤率(phone error rates,PER)指標(biāo)上,關(guān)聯(lián)聲學(xué)建模下的ROVER融合結(jié)果要比獨(dú)立建模下的ROVER融合結(jié)果相對(duì)降低約4.6%.
[Abstract]:Aiming at the complementarity of information among different acoustic features and the correlation among different tasks in acoustic modeling, a deep neural network acoustic modeling method based on multi-feature correlation is proposed. This method first uses the deep neural network (DNN) multi-modal and multi-task learning ideas for reference. By sharing some hidden layers of DNN to establish the association between different characteristic acoustic models, the common explanatory factors among different learning tasks can be mined. Secondly, the method of low rank matrix decomposition is used to reduce the number of parameters of the model estimation, accelerate the training speed of the model, and adopt ROVER(recognizer output voting error reduction) fusion algorithm to fuse the recognition results of different features. Further improve the system recognition performance. The experiments of continuous speech recognition based on TIMIT show that the recognition performance of different features is better than that of independent modeling. In terms of phoneme error rate and phone error rate per, the result of ROVER fusion based on associative acoustic modeling is about 4.6 lower than that of ROVER fusion under independent modeling.
【作者單位】: 解放軍信息工程大學(xué)信息系統(tǒng)工程學(xué)院;
【基金】:國(guó)家自然科學(xué)基金項(xiàng)目(61175017,61403415,61302107)~~
【分類(lèi)號(hào)】:TN912.34;TP183
【相似文獻(xiàn)】
相關(guān)期刊論文 前9條
1 張晴晴;潘接林;顏永紅;;基于發(fā)音特征的漢語(yǔ)普通話(huà)語(yǔ)音聲學(xué)建模[J];聲學(xué)學(xué)報(bào);2010年02期
2 秦春香;黃浩;哈力旦·阿不都熱依木;;基于音位學(xué)特征的維吾爾語(yǔ)聲學(xué)建模[J];新疆大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年03期
3 韓疆;劉曉星;顏永紅;張鵬遠(yuǎn);;一種任務(wù)域無(wú)關(guān)的語(yǔ)音關(guān)鍵詞檢測(cè)系統(tǒng)[J];通信學(xué)報(bào);2006年02期
4 吳鵬飛;劉加;;中英文混合孤立詞識(shí)別系統(tǒng)聲學(xué)建模方法研究[J];電聲技術(shù);2009年11期
5 劉林泉;鄭方;吳文虎;;基于小數(shù)據(jù)量的方言普通話(huà)語(yǔ)音識(shí)別聲學(xué)建模[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年04期
6 董仲臣;金彥豐;李亞安;劉望生;;被動(dòng)式聲誘餌聲學(xué)建模及仿真實(shí)現(xiàn)[J];電子設(shè)計(jì)工程;2013年10期
7 丁鵬,徐波;綜合非語(yǔ)境因素的語(yǔ)音數(shù)據(jù)分類(lèi)與聲學(xué)建模研究[J];聲學(xué)學(xué)報(bào);2004年01期
8 吾守爾·斯拉木;劉俊;王飛飛;;基于DDBHMM的維吾爾語(yǔ)語(yǔ)音聲學(xué)層識(shí)別系統(tǒng)研究[J];新疆大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年04期
9 ;[J];;年期
相關(guān)會(huì)議論文 前1條
1 于勝民;張樹(shù)武;徐波;;漢英雙語(yǔ)混合聲學(xué)建模方法初探[A];第七屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議(NCMMSC7)論文集[C];2003年
相關(guān)博士學(xué)位論文 前1條
1 陳偉;語(yǔ)音識(shí)別聲學(xué)建模中的主動(dòng)學(xué)習(xí)研究[D];北京郵電大學(xué);2011年
相關(guān)碩士學(xué)位論文 前4條
1 彭荻;語(yǔ)音識(shí)別系統(tǒng)的聲學(xué)建模研究[D];北京郵電大學(xué);2007年
2 王冠雄;聲學(xué)建模中若干問(wèn)題的研究[D];北京郵電大學(xué);2009年
3 黃蘇園;普通話(huà)學(xué)習(xí)中地方口音的聲學(xué)建模[D];重慶大學(xué);2006年
4 徐穎;語(yǔ)種識(shí)別聲學(xué)建模方法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2011年
,本文編號(hào):1816018
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/1816018.html