天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 自動(dòng)化論文 >

基于深度神經(jīng)網(wǎng)絡(luò)的多模態(tài)語音識(shí)別

發(fā)布時(shí)間:2023-01-12 20:36
  語音識(shí)別是實(shí)現(xiàn)人機(jī)交互,促進(jìn)人工智能發(fā)展的關(guān)鍵技術(shù)。在過去的幾十年里,國(guó)內(nèi)外的許多專家學(xué)者在這一領(lǐng)域投入了大量精力,并取得了許多技術(shù)成果。如今,自動(dòng)語音識(shí)別系統(tǒng)在產(chǎn)品應(yīng)用中變得越來越成熟,在使用近場(chǎng)麥克風(fēng)的無噪聲環(huán)境下,對(duì)孤立詞的語音識(shí)別準(zhǔn)確率已經(jīng)超過實(shí)際閾值。然而,對(duì)大規(guī)模詞匯的的連續(xù)語音識(shí)別的研究,卻遇到了瓶頸階段;ヂ(lián)網(wǎng)和多媒體技術(shù)的飛速發(fā)展使人們能夠通過多種渠道獲得大量的原始語音數(shù)據(jù)和文本語料庫。但如果只依賴傳統(tǒng)的語音識(shí)別算法,人們是很難有效地利用這些數(shù)據(jù)來構(gòu)建一個(gè)性能優(yōu)秀的聲學(xué)模型,識(shí)別結(jié)果也不會(huì)很好。隨著近些年來,隨著深度學(xué)習(xí)技術(shù)的興起,基于DNN-HMM的聲學(xué)模型混合建模方法也取代了傳統(tǒng)的GMM-HMM聲學(xué)模型,成為了當(dāng)前語音識(shí)別系統(tǒng)的主流框架。與此同時(shí),復(fù)雜噪聲環(huán)境下的語音識(shí)別也是研究的熱點(diǎn)。單純依賴單模態(tài)的語音信息,很容易受到噪聲環(huán)境的干擾,影響聲學(xué)模型的識(shí)別結(jié)果。而視覺信息不會(huì)受到聲學(xué)噪聲的干擾,還能從視覺角度補(bǔ)充語音信息;谝陨媳尘,本文提出了一種視聽信息融合的語音識(shí)別方法,將人臉唇部圖像特征與語音特征進(jìn)行多模態(tài)的特征融合,提高了聲學(xué)模型的魯棒性以及準(zhǔn)確性。首先... 

【文章頁數(shù)】:64 頁

【學(xué)位級(jí)別】:碩士

【文章目錄】:
摘要
abstract
第1章 緒論
    1.1 研究背景與意義
    1.2 語音識(shí)別技術(shù)研究歷史及現(xiàn)狀
    1.3 論文主要工作及創(chuàng)新點(diǎn)
    1.4 論文的組織結(jié)構(gòu)
第2章 語音識(shí)別技術(shù)研究
    2.1 語音識(shí)別系統(tǒng)的基本結(jié)構(gòu)
        2.1.1 前端處理
        2.1.2 聲學(xué)模型
        2.1.3 語言模型
        2.1.4 解碼器
    2.2 HMM聲學(xué)模型
        2.2.1 隱馬爾科夫模型
        2.2.2 基于GMM-HMM的聲學(xué)建模
    2.3 DNN聲學(xué)建模
        2.3.1 深度神經(jīng)網(wǎng)絡(luò)框架
        2.3.2 DNN-HMM混合模型
    2.4 唇部信息相關(guān)技術(shù)研究
    2.5 本章小結(jié)
第3章 唇部多模態(tài)信息
    3.1 多源信息融合
    3.2 多模態(tài)特征融合
        3.2.1 聲學(xué)特征提取
        3.2.2 唇部圖像特征提取
        3.2.3 特征融合
    3.3 本章小結(jié)
第4章 基于多模態(tài)信息的自動(dòng)語音識(shí)別
    4.1 Kaldi實(shí)驗(yàn)平臺(tái)
    4.2 數(shù)據(jù)庫
        4.2.1 采集設(shè)備及環(huán)境
        4.2.2 音頻信息
        4.2.3 圖像信息
    4.3 自動(dòng)語音識(shí)別系統(tǒng)搭建
        4.3.1 聲學(xué)數(shù)據(jù)
        4.3.2 語言數(shù)據(jù)
        4.3.3 配置文件
        4.3.4 Kaldi中的相關(guān)特性
    4.4 聲學(xué)模型訓(xùn)練
        4.4.1 GMM-HMM模型訓(xùn)練
        4.4.2 DNN-HMM模型訓(xùn)練
    4.5 實(shí)驗(yàn)結(jié)果與分析
        4.5.1 評(píng)價(jià)指標(biāo)
        4.5.2 實(shí)驗(yàn)結(jié)果
        4.5.3 實(shí)驗(yàn)結(jié)果分析
第5章 總結(jié)與展望
    5.1 研究總結(jié)
    5.2 未來展望
參考文獻(xiàn)
附錄
發(fā)表論文和參加科研情況說明
致謝


【參考文獻(xiàn)】:
碩士論文
[1]基于統(tǒng)計(jì)模型的語音識(shí)別系統(tǒng)研究及DSP實(shí)現(xiàn)[D]. 吳一超.電子科技大學(xué) 2012
[2]中等詞匯量漢語連續(xù)語音識(shí)別技術(shù)研究[D]. 宮曉梅.中國(guó)海洋大學(xué) 2007



本文編號(hào):3730415

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3730415.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶b18ba***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com