天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 碩博論文 > 信息類博士論文 >

深度學(xué)習(xí)語音識(shí)別系統(tǒng)中的若干建模問題研究

發(fā)布時(shí)間:2021-05-19 05:16
  語音作為人類交流的自然方式,其作為人機(jī)交互的手段擁有的先天優(yōu)勢(shì)。自動(dòng)語音識(shí)別要為了讓計(jì)算機(jī)能夠“聽懂”人類的語音,實(shí)現(xiàn)由語音序列向文本序列的轉(zhuǎn)化。伴隨著深度學(xué)習(xí)發(fā)展,基于深度神經(jīng)網(wǎng)絡(luò)的語音識(shí)別如今已經(jīng)成為主流。現(xiàn)在語音識(shí)別后端建模有兩種框架:混合和端到端架構(gòu)。在此背景下,本論文集中在兩種架構(gòu)下語音識(shí)別的若干建模問題研究。一方面,在混合架構(gòu)下針對(duì)建模中的實(shí)用性問題(如時(shí)延問題,噪聲魯棒性問題)進(jìn)行研究,‘減’少實(shí)際應(yīng)用場(chǎng)景(如時(shí)延要求、噪聲)對(duì)性能的影響;另一方面,針對(duì)端到端語音識(shí)別架構(gòu)的不足,研究目前端到端模型的合理性問題(如注意力向量優(yōu)化和多層級(jí)標(biāo)簽建模)。通過在模型搭建中加入‘低成本’但有效信息(如后驗(yàn)信息、多層級(jí)標(biāo)簽信息),為識(shí)別性能做‘加’法。首先、針對(duì)語音識(shí)別系統(tǒng)的時(shí)延問題,本文研究基于長短期記憶(Long Short Term Memory,LSTM)網(wǎng)絡(luò)的在線語音識(shí)別聲學(xué)建模。單向LSTM網(wǎng)絡(luò)結(jié)構(gòu)無時(shí)延但缺乏對(duì)未來時(shí)序的利用,雙向LSTM網(wǎng)絡(luò)充分利用了上下文時(shí)序信息但存在高時(shí)延的缺點(diǎn)。針對(duì)在線語音識(shí)別聲學(xué)建模的高性能、時(shí)延可控的要求,本文提出了一種基于注意力機(jī)制的LSTM... 

【文章來源】:中國科學(xué)技術(shù)大學(xué)安徽省 211工程院校 985工程院校

【文章頁數(shù)】:130 頁

【學(xué)位級(jí)別】:博士

【文章目錄】:
摘要
ABSTRACT
第1章 緒論
    1.1 語音識(shí)別
        1.1.1語音識(shí)別系統(tǒng)劃分
        1.1.2 語音識(shí)別歷史回顧
        1.1.3 語音識(shí)別系統(tǒng)結(jié)構(gòu)
    1.2 深度學(xué)習(xí)
        1.2.1 深度學(xué)習(xí)的歷史回顧
        1.2.2 常見的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
    1.3 基于深度學(xué)習(xí)的語音識(shí)別
        1.3.1 基于深度學(xué)習(xí)的混合架構(gòu)語音識(shí)別
        1.3.2 基于深度學(xué)習(xí)的端到端架構(gòu)語音識(shí)別
        1.3.3 深度學(xué)習(xí)語音識(shí)別系統(tǒng)中的建模問題
    1.4 本文的主要研究內(nèi)容及組織結(jié)構(gòu)
        1.4.1 本文的主要內(nèi)容
        1.4.2 本文的組織結(jié)構(gòu)
    1.5 語音識(shí)別數(shù)據(jù)庫簡(jiǎn)介
第2章 時(shí)序注意機(jī)制的LSTM聲學(xué)模型與時(shí)延問題研究
    2.1 前言
    2.2 前饋序列記憶神經(jīng)網(wǎng)絡(luò)
    2.3 基于未來時(shí)序注意機(jī)制的單向LSTM模型
    2.4 實(shí)驗(yàn)結(jié)果與分析
    2.5 本章小結(jié)
第3章 稠密殘差網(wǎng)絡(luò)聲學(xué)模型與噪聲魯棒性問題研究
    3.1 前言
    3.2 殘差網(wǎng)絡(luò)與稠密網(wǎng)絡(luò)
        3.2.1 殘差網(wǎng)絡(luò)簡(jiǎn)介
        3.2.2 稠密網(wǎng)絡(luò)簡(jiǎn)介
        3.2.3 兩種網(wǎng)絡(luò)的結(jié)構(gòu)對(duì)比
    3.3 基于稠密殘差網(wǎng)絡(luò)的聲學(xué)模型
        3.3.1 稠密殘差層結(jié)構(gòu)
        3.3.2 基于稠密殘差網(wǎng)絡(luò)的聲學(xué)模型搭建
        3.3.3 討論:模型配置
    3.4 實(shí)驗(yàn)結(jié)果與分析
        3.4.1 CHiME4:多通道語音識(shí)別任務(wù)
        3.4.2 模型的噪聲魯棒性分析
    3.5 本章小結(jié)
第4章 擴(kuò)展后驗(yàn)注意力模型與注意力向量優(yōu)化問題
    4.1 前言
    4.2 編碼-解碼模型相關(guān)內(nèi)容介紹
        4.2.1 曝光偏差和計(jì)劃采樣方法
        4.2.2 后驗(yàn)注意力模型介紹
    4.3 基于擴(kuò)展后驗(yàn)注意力機(jī)制的端到端語音識(shí)別
        4.3.1 擴(kuò)展后驗(yàn)注意力模型結(jié)構(gòu)
        4.3.2 曝光偏差問題與解決方法
    4.4 實(shí)驗(yàn)結(jié)果與分析
        4.4.1 實(shí)驗(yàn)驗(yàn)證:后驗(yàn)優(yōu)化注意力分布
        4.4.2 實(shí)驗(yàn)驗(yàn)證:曝光誤差
        4.4.3 實(shí)驗(yàn)總結(jié):EPAM模型最終性能表現(xiàn)
    4.5 本章小結(jié)
第5章 多層級(jí)標(biāo)識(shí)序列對(duì)齊方法與多層級(jí)標(biāo)簽建模
    5.1 前言
    5.2 語音識(shí)別任務(wù)中的多層級(jí)標(biāo)識(shí)
        5.2.1 多種文本序列表示形式
        5.2.2 常見的子詞分割算法
        5.2.3 現(xiàn)有端到端語音識(shí)別建模研究工作
    5.3 基于序列間對(duì)齊映射的多層級(jí)端到端語音識(shí)別建模
        5.3.1 多層級(jí)標(biāo)識(shí)間的對(duì)齊映射關(guān)系
        5.3.2 對(duì)齊映射關(guān)系與端到端模型結(jié)構(gòu)
        5.3.3 序列間對(duì)齊映射關(guān)系與端到端解碼過程
    5.4 實(shí)驗(yàn)結(jié)果與分析
        5.4.1 模型的性能表現(xiàn)
        5.4.2 模型的可視化與分析
        5.4.3 與已有工作的比較
    5.5 本章小結(jié)
第6章 總結(jié)
    6.1 本文的主要貢獻(xiàn)與創(chuàng)新點(diǎn)
    6.2 后續(xù)的研究工作
參考文獻(xiàn)
致謝
在讀期間發(fā)表的學(xué)術(shù)論文與取得的研究成果



本文編號(hào):3195187

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/3195187.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶24e3c***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com