基于發(fā)音特征的聲效相關(guān)魯棒語音識(shí)別算法
本文關(guān)鍵詞:基于發(fā)音特征的聲效相關(guān)魯棒語音識(shí)別算法
更多相關(guān)文章: 語音識(shí)別 聲效 發(fā)音特征 多模型框架 孤立詞
【摘要】:針對(duì)聲效(VE)相關(guān)的語音識(shí)別魯棒性問題,提出了基于多模型框架的語音識(shí)別算法。首先,分析了不同聲效模式下語音信號(hào)的聲學(xué)特性以及聲效變化對(duì)語音識(shí)別精度的影響;然后,提出了基于高斯混合模型(GMM)的聲效模式檢測(cè)方法;最后,根據(jù)聲效檢測(cè)的結(jié)果,訓(xùn)練專門的聲學(xué)模型用于耳語音識(shí)別,而將發(fā)音特征與傳統(tǒng)的譜特征一起用于其余4種聲效模式的語音識(shí)別;诠铝⒃~識(shí)別的實(shí)驗(yàn)結(jié)果顯示,采用所提方法后語音識(shí)別準(zhǔn)確率有了明顯的提高:與基線系統(tǒng)相比,所提方法 5種聲效的平均字錯(cuò)誤率降低了26.69%;與聲學(xué)模型混合語料訓(xùn)練方法相比,平均字錯(cuò)誤率降低了14.51%;與最大似然線性回歸(MLLR)自適應(yīng)方法相比,平均字錯(cuò)誤率降低了15.30%。實(shí)驗(yàn)結(jié)果表明:與傳統(tǒng)譜特征相比發(fā)音特征對(duì)于聲效變化更具魯棒性,而多模型框架是解決聲效相關(guān)的語音識(shí)別魯棒性問題的有效方法。
【作者單位】: 河南理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院;
【基金】:國(guó)家自然科學(xué)基金資助項(xiàng)目(61300124) 河南省基礎(chǔ)與前沿技術(shù)研究計(jì)劃資助項(xiàng)目(132300410332) 河南省科技廳科技攻關(guān)計(jì)劃項(xiàng)目(132102210123);河南省教育廳科技攻關(guān)計(jì)劃項(xiàng)目(13A520321)
【分類號(hào)】:TN912.34
【正文快照】: 0引言現(xiàn)有的語音識(shí)別研究通常針對(duì)正常情況下的語音,忽視了語音信號(hào)的聲效(Vocal Effort,VE)變化。而在現(xiàn)實(shí)的環(huán)境中,人們不可能一直都在同一種聲效水平下交流:在圖書館或者自習(xí)室里需要通過耳語的方式交流;在嘈雜的場(chǎng)合需要大聲說話對(duì)方才能聽見;而在嘈雜的工廠車間可能就需
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前1條
1 栗學(xué)麗,丁慧,徐柏齡;基于熵函數(shù)的耳語音聲韻分割法[J];聲學(xué)學(xué)報(bào);2005年01期
【共引文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 栗學(xué)麗;周衛(wèi)東;;ARMA Modelling for Whispered Speech[J];Journal of Measurement Science and Instrumentation;2010年03期
2 Kyel Ko;Myoung-Jin Kim;Min-Cheol Hong;;Image Resolution Enhancement Using Spatially Invariant Point Spread Function[J];Journal of Measurement Science and Instrumentation;2010年S1期
3 樊星;盧晶;徐柏齡;;漢語耳語音轉(zhuǎn)換為正常音的研究[J];電聲技術(shù);2005年12期
4 錢博;李燕萍;唐振民;徐利敏;;基于頻域能量分布分析的自適應(yīng)元音幀提取算法[J];電子學(xué)報(bào);2007年02期
5 潘欣裕;趙鶴鳴;陳雪勤;徐敏;;基于EMD擬合特征的耳語音端點(diǎn)檢測(cè)[J];電子與信息學(xué)報(bào);2008年02期
6 畢永新;韓慧健;周世文;;基于加權(quán)算法的漢語語音同步三維口型動(dòng)畫研究[J];圖學(xué)學(xué)報(bào);2012年02期
7 王丹;;基于MELP的漢語耳語音重建[J];電腦知識(shí)與技術(shù);2013年16期
8 榮薇;陶智;顧濟(jì)華;趙鶴鳴;;基于改進(jìn)LPCC和MFCC的漢語耳語音識(shí)別[J];計(jì)算機(jī)工程與應(yīng)用;2007年30期
9 榮薇;陶智;顧濟(jì)華;趙鶴鳴;;基于概率神經(jīng)網(wǎng)絡(luò)的漢語耳語音識(shí)別系統(tǒng)[J];計(jì)算機(jī)工程與應(yīng)用;2008年17期
10 談雪丹;顧濟(jì)華;趙鶴鳴;陶智;韓韜;吳俊;;基于HHT瞬時(shí)能頻值的耳語音端點(diǎn)檢測(cè)[J];計(jì)算機(jī)工程與應(yīng)用;2010年29期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前4條
1 茹婷婷;謝湘;;耳語音數(shù)據(jù)庫(kù)的設(shè)計(jì)與采集[A];第九屆全國(guó)人機(jī)語音通訊學(xué)術(shù)會(huì)議論文集[C];2007年
2 尹輝;茹婷婷;謝湘;;漢語耳語音數(shù)字串識(shí)別研究[A];第九屆全國(guó)人機(jī)語音通訊學(xué)術(shù)會(huì)議論文集[C];2007年
3 談雪丹;顧濟(jì)華;陶智;吳迪;;基于HHT的耳語音聲韻分割[A];2009年度全國(guó)物理聲學(xué)會(huì)議論文集[C];2009年
4 畢永新;韓慧健;周世文;;基于加權(quán)算法的漢語語音同步三維口型動(dòng)畫研究[A];第五屆全國(guó)幾何設(shè)計(jì)與計(jì)算學(xué)術(shù)會(huì)議論文集[C];2011年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前3條
1 陶智;低信噪比環(huán)境下語音增強(qiáng)的研究[D];蘇州大學(xué);2011年
2 錢博;基于漢語元音映射的說話人識(shí)別技術(shù)研究[D];南京理工大學(xué);2007年
3 龔呈卉;基于聯(lián)合因子分析的耳語音說話人識(shí)別研究[D];蘇州大學(xué);2014年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 張寶奇;基于切分的漢語連續(xù)語音識(shí)別技術(shù)研究[D];解放軍信息工程大學(xué);2010年
2 顧曉江;不匹配信道下耳語音說話人識(shí)別研究[D];蘇州大學(xué);2011年
3 周芬;基于電話信道的聲紋識(shí)別算法研究[D];南京理工大學(xué);2012年
4 陳斌;漢語連續(xù)語音聲韻母類別屬性檢測(cè)技術(shù)研究[D];解放軍信息工程大學(xué);2011年
5 徐敏;基于MELP模型的漢語耳語音轉(zhuǎn)換為正常音的實(shí)現(xiàn)[D];蘇州大學(xué);2007年
6 潘欣裕;漢語耳語音特征分析與應(yīng)用研究[D];蘇州大學(xué);2007年
7 榮薇;基于概率神經(jīng)網(wǎng)絡(luò)的漢語耳語音識(shí)別的研究[D];蘇州大學(xué);2008年
8 劉麗巖;基于MFCC與IMFCC的說話人識(shí)別研究[D];哈爾濱工程大學(xué);2008年
9 韓韜;基于RBF神經(jīng)網(wǎng)絡(luò)的漢語耳語音轉(zhuǎn)換為正常語音的研究[D];蘇州大學(xué);2009年
10 巢一波;基于FPGA的音頻處理系統(tǒng)[D];江南大學(xué);2009年
【二級(jí)參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前5條
1 潘凌云,孫達(dá)傳,吳美朝;語音識(shí)別中基于語譜圖的語音音素分割方法[J];杭州大學(xué)學(xué)報(bào)(自然科學(xué)版);1995年01期
2 齊士鈐,張家,
本文編號(hào):1161348
本文鏈接:http://sikaile.net/kejilunwen/wltx/1161348.html