天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于注意力機(jī)制的端到端語音識別技術(shù)研究

發(fā)布時(shí)間:2020-05-29 15:53
【摘要】:端到端(End to End)的連續(xù)語音識別系統(tǒng)是目前語音識別的熱門研究方向。該系統(tǒng)中,基于循環(huán)神經(jīng)網(wǎng)絡(luò)的序列到序列模型被用于建立輸入語音特征序列與輸出音素(或字素)序列的映射關(guān)系。相比傳統(tǒng)語音識別系統(tǒng),該系統(tǒng)具有結(jié)構(gòu)簡潔、通用性強(qiáng)、不依賴語言學(xué)知識等優(yōu)點(diǎn)。然而實(shí)驗(yàn)表明,端到端的語音識別系統(tǒng)的訓(xùn)練需要耗費(fèi)更多的標(biāo)注語料、計(jì)算資源和時(shí)間代價(jià)才能達(dá)到傳統(tǒng)語音識別系統(tǒng)的性能員,因此調(diào)整模型結(jié)構(gòu)和設(shè)計(jì)算法改進(jìn)端到端語音識別系統(tǒng)是目前語音識別領(lǐng)域的研究熱點(diǎn)。本文分別介紹基于連接時(shí)序序列分類算法和基于注意力機(jī)制的“編碼-解碼”模型(簡稱“注意力模型”)的端到端語音識別系統(tǒng),并且在搭建基線系統(tǒng)基礎(chǔ)上,圍繞現(xiàn)有注意力模型存在的主要問題進(jìn)行改進(jìn)和創(chuàng)新,主要的工作和創(chuàng)新點(diǎn)如下:1.針對注意力模型參數(shù)規(guī)模龐大和訓(xùn)練過程中參數(shù)收斂速度慢的問題,將原有模型中循環(huán)神經(jīng)網(wǎng)絡(luò)使用的門循環(huán)單元(Gate Recurrent Unit,GRU)用最少門單元(Minimal Gate Unit,MGU)代替。MGU是通過簡化在GRU的結(jié)構(gòu)而得,具有與GRU相接近的時(shí)序建模能力并且含有更少參數(shù)。將模型中深層循環(huán)神經(jīng)網(wǎng)絡(luò)的基本單元替換后可以有效降低注意力模型的參數(shù)規(guī)模。實(shí)驗(yàn)結(jié)果表明,基于MGU的注意力模型相比原有模型在性能損失較小的情況下,能夠有效降低訓(xùn)練時(shí)間。2.針對基于注意力模型的語音識別結(jié)果中音素與特征中的對齊不準(zhǔn)確的問題,提出使用能自適應(yīng)寬度的窗函數(shù)限定注意力范圍方法,以及在計(jì)算系統(tǒng)特征的卷積神經(jīng)網(wǎng)絡(luò)中加入池化層。該方法首先,根據(jù)相近音素的實(shí)際發(fā)音長度估計(jì)窗口函數(shù)的寬度,縮小注意力的分布范圍從而避免注意力分布在與當(dāng)前音素不相關(guān)的特征區(qū)域;其次,計(jì)算系數(shù)特征的卷積神經(jīng)網(wǎng)絡(luò),通過加入池化層能夠降低網(wǎng)絡(luò)輸入的噪聲干擾。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后模型識別結(jié)果中音素與特征的對齊準(zhǔn)確度明顯提升,系統(tǒng)的識別準(zhǔn)確率也得到提高。3.針對注意力模型由于缺少有效初始化參數(shù)造成的識別準(zhǔn)確低和訓(xùn)練迭代次數(shù)多的問題,提出一種結(jié)合瓶頸特征提取網(wǎng)絡(luò)和注意力模型方法。該方法首先訓(xùn)練基于深度置信網(wǎng)絡(luò)的瓶頸特征提取網(wǎng)絡(luò),并且將其被作為系統(tǒng)前端,為后端注意力模型提供區(qū)分性和魯棒性更強(qiáng)的語音特征。其次,減少注意力模型中循環(huán)神經(jīng)網(wǎng)絡(luò)堆疊的層數(shù),從而進(jìn)一步降低迭代次數(shù)和參數(shù)規(guī)模。最后,改變瓶頸特征提取網(wǎng)絡(luò)的輸入和輸出層規(guī)模并且對融合后的模型重新訓(xùn)練,提升系統(tǒng)的識別性能。進(jìn)一步,提出采用基于連接時(shí)序分類算法作為目標(biāo)函數(shù)訓(xùn)練瓶頸特征提取網(wǎng)絡(luò)并且與注意力模型相結(jié)合,實(shí)現(xiàn)兩種端到端模型相融合。實(shí)驗(yàn)結(jié)果表明,注意力模型在與瓶頸特征提取網(wǎng)絡(luò)相結(jié)合后,識別準(zhǔn)確率和訓(xùn)練速度均得到明顯提升。
【圖文】:

音素,特征對,基線,情況


第三章 采用最少門單元的改進(jìn)注意力模型段語音,打印出基線系統(tǒng)與采用“中心 1+系數(shù)特征”改進(jìn)后模型識別出的音素與特征的對齊情況,如圖 3.4 和圖 3.5 所示。圖中豎軸代表音素序列,,橫軸表示語音特征的幀數(shù),色塊顏色深淺表示注意力系數(shù)大小。通過對比可以得到,原始注意力模型中未進(jìn)行降采樣,圖 3.中橫軸的幀數(shù)為圖 3.4 中橫軸幀數(shù)的 4 倍。圖 3.4 中多次出現(xiàn)的捷克字母 S、E、M 被對齊至多個(gè)區(qū)域,出現(xiàn)注意力分散的情況。圖 3.5 中捷克字母對應(yīng)的特征集中在一個(gè)區(qū)域,注意力分布更為精確。

音素,特征系統(tǒng),特征對,窗函數(shù)


打印出基線系統(tǒng)與采用“中心 1+系數(shù)特征”改進(jìn)后模型識別出的音素與特征的對齊情況,如圖 3.4 和圖 3.5 所示。圖中豎軸代表音素序列,橫軸表示語音特征的幀數(shù),色塊顏色深淺表示注意力系數(shù)大小。通過對比可以得到,原始注意力模型中未進(jìn)行降采樣,圖 3.中橫軸的幀數(shù)為圖 3.4 中橫軸幀數(shù)的 4 倍。圖 3.4 中多次出現(xiàn)的捷克字母 S、E、M 被對齊至多個(gè)區(qū)域,出現(xiàn)注意力分散的情況。圖 3.5 中捷克字母對應(yīng)的特征集中在一個(gè)區(qū)域,注意力分布更為精確。圖 3.4 基線系統(tǒng)的音素與特征對齊情況
【學(xué)位授予單位】:戰(zhàn)略支援部隊(duì)信息工程大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:TN912.34

【參考文獻(xiàn)】

相關(guān)期刊論文 前3條

1 陳雷;楊俊安;王一;王龍;;LVCSR系統(tǒng)中一種基于區(qū)分性和自適應(yīng)瓶頸深度置信網(wǎng)絡(luò)的特征提取方法[J];信號處理;2015年03期

2 王一;楊俊安;劉輝;柳林;;基于層次稀疏DBN的瓶頸特征提取方法[J];模式識別與人工智能;2015年02期

3 李晉徽;楊俊安;王一;;一種新的基于瓶頸深度信念網(wǎng)絡(luò)的特征提取方法及其在語種識別中的應(yīng)用[J];計(jì)算機(jī)科學(xué);2014年03期



本文編號:2687150

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/wltx/2687150.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶1adff***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com