天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 信息工程論文 >

神經(jīng)網(wǎng)絡(luò)時(shí)序分類方法在語(yǔ)音識(shí)別中的應(yīng)用研究

發(fā)布時(shí)間:2020-10-25 01:38
   隨著人工智能領(lǐng)域研究的深入以及大數(shù)據(jù)語(yǔ)料的不斷積累,語(yǔ)音識(shí)別技術(shù)得到突飛猛進(jìn)的發(fā)展,神經(jīng)網(wǎng)絡(luò)開(kāi)始大規(guī)模應(yīng)用于語(yǔ)音識(shí)別技術(shù),端到端語(yǔ)音識(shí)別成為近年來(lái)人工智能研究的熱點(diǎn)課題。然而,由于特定說(shuō)話人含有不同發(fā)音特性、不同語(yǔ)種發(fā)音特性不同等原因,導(dǎo)致端到端語(yǔ)音識(shí)別模型對(duì)中文的識(shí)別準(zhǔn)確率偏低。基于以上背景,本文結(jié)合中文語(yǔ)言模型對(duì)現(xiàn)下主流端到端語(yǔ)音識(shí)別框架的結(jié)構(gòu)進(jìn)行研究和改進(jìn),以提高端到端語(yǔ)音識(shí)別框架對(duì)于漢語(yǔ)的識(shí)別準(zhǔn)確率和效率。首先,本文設(shè)計(jì)基于傳統(tǒng)隱馬爾科夫-混合高斯聲學(xué)模型結(jié)合詞典和N-gram語(yǔ)言模型的建模方法作為本文的基線實(shí)驗(yàn)。在對(duì)隱馬爾科夫-混合高斯模型的研究中,對(duì)語(yǔ)音信號(hào)易于受到上下文內(nèi)容影響的問(wèn)題,設(shè)計(jì)利用上下文相關(guān)的三音素聲學(xué)模型,通過(guò)考慮每一音素相鄰的前后音素,進(jìn)而提升模型性能。同時(shí),對(duì)語(yǔ)音易受到說(shuō)話人發(fā)音特性影響的問(wèn)題,設(shè)計(jì)融合說(shuō)話人自適應(yīng)技術(shù)的隱馬爾科夫-混合高斯模型的建模方式,以提高本文基線實(shí)驗(yàn)的識(shí)別準(zhǔn)確率。其次,本文針對(duì)端到端框架對(duì)中文識(shí)別準(zhǔn)確率較低的問(wèn)題,提出結(jié)合語(yǔ)言模型的非完全端到端框架的語(yǔ)音識(shí)別方法,將非完全端到端框架應(yīng)用于神經(jīng)網(wǎng)絡(luò)時(shí)序分類方法對(duì)語(yǔ)音識(shí)別的研究中。針對(duì)LSTM-CTC端到端模型計(jì)算復(fù)雜度高,訓(xùn)練速度耗時(shí)過(guò)長(zhǎng)的問(wèn)題,本文提出了一種改進(jìn)的映射長(zhǎng)短期記憶時(shí)序網(wǎng)絡(luò),用以優(yōu)化模型的訓(xùn)練速率。同時(shí)針對(duì)語(yǔ)音特征的長(zhǎng)時(shí)依賴性并不只有正向傳播的特點(diǎn),在端到端模型中設(shè)計(jì)采用雙向映射長(zhǎng)短期記憶時(shí)序網(wǎng)絡(luò),替代固有的單向長(zhǎng)短期記憶時(shí)序網(wǎng)絡(luò),通過(guò)對(duì)語(yǔ)音特征進(jìn)行雙向提取,從而提高模型的準(zhǔn)確率。最后,選取希爾貝殼公司的AISHELL語(yǔ)音數(shù)據(jù)庫(kù)對(duì)本文所提出的方法進(jìn)行實(shí)驗(yàn)驗(yàn)證,針對(duì)實(shí)驗(yàn)過(guò)程中雙向神經(jīng)網(wǎng)絡(luò)訓(xùn)練易產(chǎn)生過(guò)擬合的問(wèn)題,將語(yǔ)音數(shù)據(jù)庫(kù)通過(guò)速度擾動(dòng)技術(shù)進(jìn)行擴(kuò)充、實(shí)驗(yàn)。最終實(shí)驗(yàn)結(jié)果顯示,模型的準(zhǔn)確率和速率較基線實(shí)驗(yàn)結(jié)果都得到顯著提升。
【學(xué)位單位】:東北石油大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2019
【中圖分類】:TN912.34
【部分圖文】:

波形,語(yǔ)音識(shí)別,基本原理,分幀


語(yǔ)音識(shí)別基本原理圖

示意圖,神經(jīng)元,隱藏層,示意圖


神經(jīng)元示意圖

結(jié)構(gòu)圖,前饋神經(jīng)網(wǎng)絡(luò),結(jié)構(gòu)圖,正向傳導(dǎo)


前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
【參考文獻(xiàn)】

相關(guān)期刊論文 前6條

1 張湘莉蘭;駱志剛;李明;;Merge-Weighted Dynamic Time Warping for Speech Recognition[J];Journal of Computer Science and Technology;2014年06期

2 邢安昊;黎塔;顏永紅;;利用二重打分方法的激活詞語(yǔ)音識(shí)別[J];聲學(xué)技術(shù);2013年S1期

3 賀玲玲;周元;;基于改進(jìn)MFCC的異常聲音識(shí)別算法[J];重慶工商大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年02期

4 闕大順;趙永安;文先林;李蓓;;基于DHMM和VQ的關(guān)鍵詞識(shí)別系統(tǒng)研究[J];武漢理工大學(xué)學(xué)報(bào);2011年02期

5 馬婉婕;孫虎元;孫立娟;孫曉光;;基于神經(jīng)網(wǎng)絡(luò)集成的手寫(xiě)識(shí)別系統(tǒng)[J];計(jì)算機(jī)應(yīng)用與軟件;2009年08期

6 曾國(guó)蓀;改善神經(jīng)網(wǎng)絡(luò)反向傳播算法的訓(xùn)練時(shí)間[J];小型微型計(jì)算機(jī)系統(tǒng);1996年11期



本文編號(hào):2855267

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/2855267.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶8a62b***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com