基于聯(lián)結(jié)時(shí)序分類與注意力機(jī)制的端到端語音識別研究

發(fā)布時(shí)間：2020-04-23 14:50

【摘要】：隨著指數(shù)級增長的語音數(shù)據(jù)不斷產(chǎn)生,工業(yè)、農(nóng)業(yè)、軍事等領(lǐng)域?qū)φZ音識別的需求與日俱增,對大規(guī)模語音信號精準(zhǔn)高效的識別提出了更高要求。近幾年,端到端語音識別成為語音識別領(lǐng)域研究的熱門方向。相對于傳統(tǒng)的隱馬爾科夫混合模型,端到端語音識別模型一方面克服了隱馬爾科夫混合模型中聲學(xué)、發(fā)音、語言模型相對獨(dú)立的問題,實(shí)現(xiàn)了全局統(tǒng)一優(yōu)化;另一方面,無需進(jìn)行狀態(tài)的強(qiáng)制對齊與發(fā)音詞典的構(gòu)建,大大降低了模型構(gòu)建的復(fù)雜性。論文緊緊圍繞提高端到端語音識別的準(zhǔn)確率與訓(xùn)練效率,著重對當(dāng)前端到端語音識別的兩種技術(shù)路線—基于聯(lián)結(jié)時(shí)序分類(Connectionist Temporal Classification,CTC)、基于注意力機(jī)制(Attention)的端到端語音識別展開研究。主要工作和創(chuàng)新如下:1.針對基于CTC語音識別模型中循環(huán)神經(jīng)網(wǎng)絡(luò)造成的訓(xùn)練周期過長及模型深度不足的問題,認(rèn)真分析群殘差卷積網(wǎng)絡(luò)和序列批標(biāo)準(zhǔn)化,創(chuàng)新性地將群殘差卷積網(wǎng)絡(luò)運(yùn)用于構(gòu)建CTC語音識別模型,構(gòu)建了基于群殘差卷積網(wǎng)絡(luò)的CTC語音識別模型—GRCNN-CTC。群殘差卷積網(wǎng)絡(luò)中深度所帶來的廣泛感受野與殘差結(jié)構(gòu)帶來的快速穩(wěn)定收斂性,可以一定程度上代替循環(huán)神經(jīng)網(wǎng)絡(luò)對長時(shí)相關(guān)的語音特征進(jìn)行時(shí)序建模。實(shí)驗(yàn)結(jié)果表明,構(gòu)建的群殘差卷積CTC網(wǎng)絡(luò)模型在提高識別準(zhǔn)確率的同時(shí)能夠大大縮短訓(xùn)練周期。2.針對基于注意力機(jī)制語音識別模型中解碼器狀態(tài)向量與編碼器狀態(tài)向量對齊精度不高、解碼網(wǎng)絡(luò)輸入特征表征性不足、獨(dú)熱編碼造成的泛化性能不佳等問題,采用三種技術(shù)提升注意力機(jī)制語音識別模型的識別性能與泛化能力。一是構(gòu)建Multi-Head注意力機(jī)制技術(shù)支撐下的注意力機(jī)制語音識別模型—Multi-Head LAS。將狀態(tài)向量映射至不同表征子空間,從多個(gè)維度去計(jì)算當(dāng)前解碼器狀態(tài)向量與編碼器狀態(tài)向量的相關(guān)系數(shù),獲得了更為準(zhǔn)確的對齊信息。二是采用Input-feeding方法改進(jìn)解碼器輸入流,用前一時(shí)刻多層感知器的狀態(tài)向量代替前一時(shí)刻上下文信息向量,改善輸入特征表征能力。三是運(yùn)用標(biāo)簽平滑歸一化技術(shù)引入標(biāo)簽噪聲對模型進(jìn)行約束、降低模型過擬合程度。實(shí)驗(yàn)結(jié)果表明,運(yùn)用三種技術(shù)改進(jìn)的注意力機(jī)制端到端語音識別模型能夠有效提升模型的識別性能與泛化能力。
【圖文】：

框架圖,語音識別,框架

語音識別模型主要劃分為基于 DNN-HMM 的混合語音識別端到端語音識別模型又可劃分為基于聯(lián)結(jié)時(shí)序分類的語音別模型。近年來，國內(nèi)外學(xué)者對語音識別三種主流分支深果。HMM 的語音識別研究現(xiàn)狀合語音識別模型將語音識別過程分解為三個(gè)相對獨(dú)立的模模[7]。如圖 1.1 所示，時(shí)域下語音的波形信號通過提取特定量。給定長度為的輸入音頻特征向量 ( )，語語言序列 ( ),即： ⊥ ( ) 概率分解成三個(gè)模型輸出概率的乘積，如式（1.2）所示： ⊥ ∑( ) ( ) ⊥ ( ) ( ) ( )

流程圖,特征提取,流程,倒譜系數(shù)

架等多項(xiàng)技術(shù)。音識別特征梅爾倒譜系數(shù)于人耳只關(guān)注部分特定的頻率分量且聽覺的敏感程度受聲波頻率的影響各不相同到高頻按照臨界帶寬的大小由密到疏安排一組帶通濾波器進(jìn)行濾波操作，并將每的信號能量經(jīng)進(jìn)一步處理之后作為語音的輸入特征。該特征不依賴信號的性質(zhì)，入信號做任意的限制和假設(shè)，具有良好的魯棒性和識別性。爾倒譜系數(shù)（Mel-scale Frequency Cepstral Coefficients, MFCCs）[63]在語音識別方應(yīng)用。MFCCs 中，濾波器組按照梅爾標(biāo)度對頻率進(jìn)行劃分，，有效地刻畫了人耳非式（2.1）所示。 ⊙( ) %

本文編號：2637850

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/xinxigongchenglunwen/2637850.html

上一篇：遠(yuǎn)場語音識別系統(tǒng)中的語音增強(qiáng)技術(shù)研究
下一篇：無人駕駛車測距激光雷達(dá)系統(tǒng)設(shè)計(jì)

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于聯(lián)結(jié)時(shí)序分類與注意力機(jī)制的端到端語音識別研究