天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 自動化論文 >

基于自適應學習和多尺度前向注意力的語音識別研究

發(fā)布時間:2024-03-17 01:24
  作為一種能夠將人類聲音轉化為文字的有效方法,語音識別(Automatic Speech Recognition,ASR)憑借自身的優(yōu)勢已在多個領域成為主要的技術手段。目前,基于端到端的深度學習(Deep Learning)方法被廣泛的應用到ASR中,其中比較常用的有連接時序分類(Connectionist Temporal Classification,CTC)模型和擁有編解碼結構的注意力(Attention)模型。這兩種模型完全擺脫了傳統(tǒng)方法的強制對齊,模型優(yōu)化更直接且有更強的通用性。與CTC相比,注意力模型不需要幀的獨立性假設,因而其性能更好。然而,由于注意力模型剛剛出現(xiàn)不久,因此對其廣泛深入的研究還不夠充分。為此,本文從如下兩個方面對注意力模型展開研究:(1)考慮到基于注意力機制的語音識別系統(tǒng)網(wǎng)絡結構比較復雜,當采用梯度下降算法進行反向傳播時,會出現(xiàn)編碼器更新能力較弱的問題。因此,針對編碼器部分進行改進,通過在編碼器后再加入新的CTC損失與注意力損失進行結合,形成基于多任務的學習。在多任務學習中,CTC和注意力兩個任務的重要程度并不一致,因此在大規(guī)模語料庫中通過手動調參確定這兩個...

【文章頁數(shù)】:69 頁

【學位級別】:碩士

【部分圖文】:

圖1-1端到端的語音識別系統(tǒng)

圖1-1端到端的語音識別系統(tǒng)

哈爾濱工業(yè)大學工學碩士學位論文-5-圖1-1端到端的語音識別系統(tǒng)圖1-2序列到序列模型圖1-2的子圖(a)為CTC模型。在無先驗性對齊情況下,該模型能夠度量輸入和輸出序列的相似度,并且能刻畫語音特征和音素序列的相關性。基于CTC的語音識別系統(tǒng)由RNN編碼模塊和CTC損失函數(shù)模塊組....


圖1-3本文統(tǒng)識別

圖1-3本文統(tǒng)識別

哈爾濱工業(yè)大學工學碩士學位論文-10-外研究現(xiàn)狀,還詳細描述如何搭建基于注意力機制的語音識別系統(tǒng)基線,分別在第1章、第2章介紹;第二部分是從編碼器的角度利用CTC損失進行改進,并提出自適應多任務學習,這將在第3章介紹;第三部分,從注意力機制的角度提出前向注意力模型和多尺度模型,并....


圖1-3本文的組織結構

圖1-3本文的組織結構

哈爾濱工業(yè)大學工學碩士學位論文-10-外研究現(xiàn)狀,還詳細描述如何搭建基于注意力機制的語音識別系統(tǒng)基線,分別在第1章、第2章介紹;第二部分是從編碼器的角度利用CTC損失進行改進,并提出自適應多任務學習,這將在第3章介紹;第三部分,從注意力機制的角度提出前向注意力模型和多尺度模型,并....


圖2-2二維輸入的有效卷積過程

圖2-2二維輸入的有效卷積過程

哈爾濱工業(yè)大學工學碩士學位論文-16-假設輸入的信號x是一維序列,即xnPù±,n是信號采樣數(shù);卷積濾波器mw,m是濾波器大小;y是卷積操作后的結果,則:(1)有效卷積11(,,"")((1),...,(),...,(1))()(1)()nmmiconvvalidtnmttii+....



本文編號:3930303

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3930303.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶0f9e7***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com