基于深度神經(jīng)網(wǎng)絡的連續(xù)語音識別研究
發(fā)布時間:2020-12-10 14:33
語音識別是模式識別的重要研究分支,也是當下人工智能時代人們重點關注的一項交互技術。近50多年來,傳統(tǒng)語音識別技術逐漸地趨于穩(wěn)定,而隨著21世紀初深度神經(jīng)網(wǎng)絡理論的廣泛關注,語音識別技術也隨之有了迅猛的發(fā)展。從理論研究到產(chǎn)品應用,多樣的深度神經(jīng)網(wǎng)絡模型在復雜的語音識別任務中取得了不俗的成果。本文的研究初衷是探討在連續(xù)語音識別任務中應用不同的深度神經(jīng)網(wǎng)絡模型,完成的主要工作有兩點:(1)研究了基于自動編碼器結(jié)構(gòu)的聲學特征提取方法,針對現(xiàn)實應用場景中存在的噪聲污染、多聲源干擾等復雜環(huán)境下的語音識別任務,提出了一種堆疊式壓縮降噪自動編碼器模型,使得提取出的聲學特征具有更強的抗干擾能力和表征能力。在2個標準語料庫上進行的對比實驗中,分別驗證了網(wǎng)絡模型深度以及使用不同編碼器結(jié)構(gòu)對提取聲學特征的影響。經(jīng)實驗結(jié)果表明,堆疊式壓縮降噪自動編碼器模型能夠通過自身的泛化能力,提取出更能代表語音信號本身的深層次特征,且在識別率指標上較其他的編碼器網(wǎng)絡模型結(jié)構(gòu)有2%--4%的絕對提升。(2)研究了基于循環(huán)神經(jīng)網(wǎng)絡的端到端語音識別過程,分別使用CTC訓練準則和注意力機制訓練準則,在雙向循環(huán)神經(jīng)網(wǎng)絡的基礎上,建立了...
【文章來源】:吉林大學吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:63 頁
【學位級別】:碩士
【部分圖文】:
語音識別流程
圖 2.2 分幀操作中的幀長與幀移對語音信號進行分幀操作之后,每一幀都當成平穩(wěn)信號來處理,隨后就葉展開每一項以獲取頻譜特征,在這一過程中需要進行加窗操作,即模
圖 2.3 MFCC 特征提取流程通過研究發(fā)現(xiàn),人耳對不同頻率的敏感程度不同,對相對低頻率信號的感知能力較強,而相對高頻率信號的感知能力較低。梅爾頻率分析就是基于人類聽覺的特性感知實驗,
本文編號:2908860
【文章來源】:吉林大學吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:63 頁
【學位級別】:碩士
【部分圖文】:
語音識別流程
圖 2.2 分幀操作中的幀長與幀移對語音信號進行分幀操作之后,每一幀都當成平穩(wěn)信號來處理,隨后就葉展開每一項以獲取頻譜特征,在這一過程中需要進行加窗操作,即模
圖 2.3 MFCC 特征提取流程通過研究發(fā)現(xiàn),人耳對不同頻率的敏感程度不同,對相對低頻率信號的感知能力較強,而相對高頻率信號的感知能力較低。梅爾頻率分析就是基于人類聽覺的特性感知實驗,
本文編號:2908860
本文鏈接:http://sikaile.net/kejilunwen/wltx/2908860.html
最近更新
教材專著