基于門控循環(huán)單元和自注意力機(jī)制的端到端語(yǔ)音識(shí)別研究
發(fā)布時(shí)間:2021-09-17 11:28
隨著計(jì)算能力的提升和大數(shù)據(jù)語(yǔ)料的不斷積累,語(yǔ)音識(shí)別技術(shù)飛速發(fā)展,準(zhǔn)確率大幅提高,應(yīng)用的場(chǎng)景也越來(lái)越廣。語(yǔ)音識(shí)別作為連接人類與智能硬件設(shè)備的橋梁,變得越來(lái)越受關(guān)注。本文針對(duì)傳統(tǒng)語(yǔ)音識(shí)別模型訓(xùn)練時(shí)需要將語(yǔ)料信息和標(biāo)簽強(qiáng)制對(duì)齊的弊端,提出了結(jié)合自注意力機(jī)制語(yǔ)言模型的端到端語(yǔ)音識(shí)別方法,將鏈接時(shí)序分類的端到端框架應(yīng)用于語(yǔ)音識(shí)別任務(wù)中,同時(shí)采用自注意力機(jī)制作為語(yǔ)言模型,強(qiáng)化系統(tǒng)的翻譯能力,使得系統(tǒng)可以更全面的學(xué)習(xí)信號(hào)的特征,進(jìn)而更好地完成中文語(yǔ)音識(shí)別任務(wù)。另外,針對(duì)應(yīng)用于語(yǔ)音識(shí)別的長(zhǎng)短時(shí)記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)存在的計(jì)算復(fù)雜度高、訓(xùn)練時(shí)間長(zhǎng)的問(wèn)題,本文采用門控循環(huán)單元(Gate Recurrent Unit,GRU)網(wǎng)絡(luò)代替LSTM,減小了計(jì)算開銷,加快訓(xùn)練速度。根據(jù)對(duì)照實(shí)驗(yàn),在相同的實(shí)驗(yàn)條件下,GRU網(wǎng)絡(luò)的平均訓(xùn)練時(shí)間相對(duì)LSTM網(wǎng)絡(luò)減少了17.59%。本文以結(jié)合高斯混合和隱馬爾可夫的模型為基線實(shí)驗(yàn),驗(yàn)證基于LSTM和GRU兩種神經(jīng)網(wǎng)絡(luò)的端到端模型在準(zhǔn)確率方面更加優(yōu)越的性能。為了提高基線實(shí)驗(yàn)的準(zhǔn)確率,在特征提取方面采用瓶頸特征代替梅爾倒譜系數(shù)(Mel-...
【文章來(lái)源】:中北大學(xué)山西省
【文章頁(yè)數(shù)】:58 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
語(yǔ)音識(shí)別總體框架
漢明窗的時(shí)域特征和幅頻特性
tanh函數(shù)Fig.2-5tanhfunction
【參考文獻(xiàn)】:
期刊論文
[1]科大訊飛:從語(yǔ)音到AI的前行之路[J]. 淦凌云,衛(wèi)萌. 中國(guó)工業(yè)和信息化. 2019(04)
[2]融入自注意力機(jī)制的社交媒體命名實(shí)體識(shí)別[J]. 李明揚(yáng),孔芳. 清華大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(06)
[3]基于混合式注意力機(jī)制的語(yǔ)音識(shí)別研究[J]. 李業(yè)良,張二華,唐振民. 計(jì)算機(jī)應(yīng)用研究. 2020(01)
[4]基于循環(huán)神經(jīng)網(wǎng)絡(luò)的模糊測(cè)試用例生成[J]. 徐鵬,劉嘉勇,林波,孫慧穎,雷斌. 計(jì)算機(jī)應(yīng)用研究. 2019(09)
[5]人工智能可能帶來(lái)的五個(gè)奇點(diǎn)[J]. 國(guó)章成. 理論視野. 2018(06)
[6]基于改進(jìn)激活函數(shù)的卷積神經(jīng)網(wǎng)絡(luò)研究[J]. 曲之琳,胡曉飛. 計(jì)算機(jī)技術(shù)與發(fā)展. 2017(12)
[7]基于DNN-HMM模型的語(yǔ)音識(shí)別的語(yǔ)音導(dǎo)航系統(tǒng)[J]. 趙永生,徐海青,吳立剛. 新型工業(yè)化. 2017(02)
[8]基于深度循環(huán)神經(jīng)網(wǎng)絡(luò)的時(shí)間序列預(yù)測(cè)模型[J]. 楊祎玥,伏潛,萬(wàn)定生. 計(jì)算機(jī)技術(shù)與發(fā)展. 2017(03)
[9]LVCSR系統(tǒng)中一種基于區(qū)分性和自適應(yīng)瓶頸深度置信網(wǎng)絡(luò)的特征提取方法[J]. 陳雷,楊俊安,王一,王龍. 信號(hào)處理. 2015(03)
[10]基于MFCC參數(shù)和VQ的說(shuō)話人識(shí)別系統(tǒng)[J]. 王偉,鄧輝文. 儀器儀表學(xué)報(bào). 2006(S3)
博士論文
[1]復(fù)雜環(huán)境下基于深度學(xué)習(xí)的語(yǔ)音信號(hào)預(yù)處理方法研究[D]. 高天.中國(guó)科學(xué)技術(shù)大學(xué) 2018
碩士論文
[1]基于深度學(xué)習(xí)的遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別技術(shù)研究[D]. 劉誠(chéng)然.戰(zhàn)略支援部隊(duì)信息工程大學(xué) 2019
[2]端到端自動(dòng)語(yǔ)音識(shí)別技術(shù)研究[D]. 蔣竺芳.北京郵電大學(xué) 2019
[3]端到端的語(yǔ)音識(shí)別研究[D]. 范汝超.北京郵電大學(xué) 2019
[4]神經(jīng)網(wǎng)絡(luò)時(shí)序分類方法在語(yǔ)音識(shí)別中的應(yīng)用研究[D]. 王雨萌.東北石油大學(xué) 2019
[5]基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別研究[D]. 王杰.沈陽(yáng)工業(yè)大學(xué) 2018
[6]基于主動(dòng)學(xué)習(xí)的藏語(yǔ)語(yǔ)音識(shí)別在在線教育中的應(yīng)用[D]. 李要嬙.中央民族大學(xué) 2018
[7]低信噪比環(huán)境下改進(jìn)的語(yǔ)音識(shí)別系統(tǒng)研究[D]. 張濤.安徽工業(yè)大學(xué) 2018
[8]基于深度神經(jīng)網(wǎng)絡(luò)的連續(xù)語(yǔ)音識(shí)別研究[D]. 李明浩.吉林大學(xué) 2018
[9]噪聲環(huán)境下基于深度學(xué)習(xí)的語(yǔ)音識(shí)別研究[D]. 李翔.武漢工程大學(xué) 2017
[10]魯棒語(yǔ)音識(shí)別系統(tǒng)中的語(yǔ)音增強(qiáng)技術(shù)研究[D]. 劉金剛.重慶郵電大學(xué) 2017
本文編號(hào):3398627
【文章來(lái)源】:中北大學(xué)山西省
【文章頁(yè)數(shù)】:58 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
語(yǔ)音識(shí)別總體框架
漢明窗的時(shí)域特征和幅頻特性
tanh函數(shù)Fig.2-5tanhfunction
【參考文獻(xiàn)】:
期刊論文
[1]科大訊飛:從語(yǔ)音到AI的前行之路[J]. 淦凌云,衛(wèi)萌. 中國(guó)工業(yè)和信息化. 2019(04)
[2]融入自注意力機(jī)制的社交媒體命名實(shí)體識(shí)別[J]. 李明揚(yáng),孔芳. 清華大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(06)
[3]基于混合式注意力機(jī)制的語(yǔ)音識(shí)別研究[J]. 李業(yè)良,張二華,唐振民. 計(jì)算機(jī)應(yīng)用研究. 2020(01)
[4]基于循環(huán)神經(jīng)網(wǎng)絡(luò)的模糊測(cè)試用例生成[J]. 徐鵬,劉嘉勇,林波,孫慧穎,雷斌. 計(jì)算機(jī)應(yīng)用研究. 2019(09)
[5]人工智能可能帶來(lái)的五個(gè)奇點(diǎn)[J]. 國(guó)章成. 理論視野. 2018(06)
[6]基于改進(jìn)激活函數(shù)的卷積神經(jīng)網(wǎng)絡(luò)研究[J]. 曲之琳,胡曉飛. 計(jì)算機(jī)技術(shù)與發(fā)展. 2017(12)
[7]基于DNN-HMM模型的語(yǔ)音識(shí)別的語(yǔ)音導(dǎo)航系統(tǒng)[J]. 趙永生,徐海青,吳立剛. 新型工業(yè)化. 2017(02)
[8]基于深度循環(huán)神經(jīng)網(wǎng)絡(luò)的時(shí)間序列預(yù)測(cè)模型[J]. 楊祎玥,伏潛,萬(wàn)定生. 計(jì)算機(jī)技術(shù)與發(fā)展. 2017(03)
[9]LVCSR系統(tǒng)中一種基于區(qū)分性和自適應(yīng)瓶頸深度置信網(wǎng)絡(luò)的特征提取方法[J]. 陳雷,楊俊安,王一,王龍. 信號(hào)處理. 2015(03)
[10]基于MFCC參數(shù)和VQ的說(shuō)話人識(shí)別系統(tǒng)[J]. 王偉,鄧輝文. 儀器儀表學(xué)報(bào). 2006(S3)
博士論文
[1]復(fù)雜環(huán)境下基于深度學(xué)習(xí)的語(yǔ)音信號(hào)預(yù)處理方法研究[D]. 高天.中國(guó)科學(xué)技術(shù)大學(xué) 2018
碩士論文
[1]基于深度學(xué)習(xí)的遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別技術(shù)研究[D]. 劉誠(chéng)然.戰(zhàn)略支援部隊(duì)信息工程大學(xué) 2019
[2]端到端自動(dòng)語(yǔ)音識(shí)別技術(shù)研究[D]. 蔣竺芳.北京郵電大學(xué) 2019
[3]端到端的語(yǔ)音識(shí)別研究[D]. 范汝超.北京郵電大學(xué) 2019
[4]神經(jīng)網(wǎng)絡(luò)時(shí)序分類方法在語(yǔ)音識(shí)別中的應(yīng)用研究[D]. 王雨萌.東北石油大學(xué) 2019
[5]基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別研究[D]. 王杰.沈陽(yáng)工業(yè)大學(xué) 2018
[6]基于主動(dòng)學(xué)習(xí)的藏語(yǔ)語(yǔ)音識(shí)別在在線教育中的應(yīng)用[D]. 李要嬙.中央民族大學(xué) 2018
[7]低信噪比環(huán)境下改進(jìn)的語(yǔ)音識(shí)別系統(tǒng)研究[D]. 張濤.安徽工業(yè)大學(xué) 2018
[8]基于深度神經(jīng)網(wǎng)絡(luò)的連續(xù)語(yǔ)音識(shí)別研究[D]. 李明浩.吉林大學(xué) 2018
[9]噪聲環(huán)境下基于深度學(xué)習(xí)的語(yǔ)音識(shí)別研究[D]. 李翔.武漢工程大學(xué) 2017
[10]魯棒語(yǔ)音識(shí)別系統(tǒng)中的語(yǔ)音增強(qiáng)技術(shù)研究[D]. 劉金剛.重慶郵電大學(xué) 2017
本文編號(hào):3398627
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3398627.html
最近更新
教材專著