天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

深度視音頻雙模態(tài)語音識別方法

發(fā)布時間:2020-11-02 01:10
   語音識別是人工智能、自然語言處理和信號處理的基本問題,尤其在近十年的深度學(xué)習(xí)的勃興中得到了巨大的發(fā)展。但是,語音識別仍然面臨著很多挑戰(zhàn)和缺陷,例如噪音環(huán)境,嘈雜背景,方言的混淆等。針對這些缺陷,前人提出了魯棒語音識別,并給出了四類解決方案:基于特征空間,基于信號空間,基于模型空間和基于多模態(tài)信息,其中基于多模態(tài)信息的魯棒語音識別的主要方向是視音頻雙模態(tài)語音識別(Audio-visual Speech Recognition,AVSR)。視音頻雙模態(tài)語音識別是指利用語音識別中視覺信息和聽覺信息的天然關(guān)聯(lián)性,在語音識別中加入視覺信息,其目的在于提高語音識別的魯棒性。經(jīng)過幾十年的研究探索,視音頻雙模態(tài)語音識別得到了長足的進步,但是視音頻雙模態(tài)語音識別的存在著時態(tài)信息利用不完全,忽視多模態(tài)特征表達之間的相互作用關(guān)系等問題。結(jié)合深度神經(jīng)網(wǎng)絡(luò),本文主要探討深度視音頻雙模態(tài)語音識別的相關(guān)方法,主要做了兩方面的研究。本文提出了一種適用于視音頻雙模態(tài)語音識別的基于無監(jiān)督學(xué)習(xí)和監(jiān)督學(xué)習(xí)相結(jié)合的深度時態(tài)框架模型。本文提出將整個融合過程分解為:模態(tài)融合、含有時態(tài)因素的模態(tài)融合和時態(tài)融合。其具體步驟如下:1.對視覺信息和語音信息進行預(yù)處理,并采用深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)和短時傅里葉變換取得視覺特征和語音特征;2.采用多模態(tài)深度自編碼網(wǎng)絡(luò)進行視覺特征和語音特征的模態(tài)融針對大多數(shù)視音頻雙模態(tài)語音識別對時態(tài)信息利用不完全的問題合;3.采用堆疊循環(huán)時態(tài)網(wǎng)絡(luò)將模態(tài)融合過后的特征再進行進一步的融合,此過程不對時態(tài)信息進行處理,但是此融合過程會更好地考慮時態(tài)因素;4.采用循環(huán)時態(tài)網(wǎng)絡(luò)和池化過程,將多時態(tài)特征融合為單一的描述子。我們在AVLetters2,AVDigits,CUAVE和AVLetters數(shù)據(jù)庫上進行了定量的視音頻雙模態(tài)語音識別和跨模態(tài)語音識別的實驗證明了提出算法的有效性。在指標上,提出的方法優(yōu)于過往的深層和淺層模型。針對視音頻雙模態(tài)語音識別忽視多模態(tài)特征表達之間的相互作用關(guān)系的問題,本文提出了的多模態(tài)輔助損失門控循環(huán)網(wǎng)絡(luò)模型。這個模型將視音頻雙模態(tài)語音識別的流程分解為:特征提取、數(shù)據(jù)增強和融合識別。其中,特征提取和數(shù)據(jù)增強是融合識別的前置條件,我們使用論文提出的一整套的特征提取和數(shù)據(jù)增強方法。融合識別采用一種基于端對端的多模態(tài)輔助損失門控循環(huán)網(wǎng)絡(luò)模型。基于網(wǎng)絡(luò)結(jié)構(gòu),本文提出了一個新的損失函數(shù)——輔助損失,去訓(xùn)練此網(wǎng)絡(luò)。輔助損失會平衡音頻特征表達、視頻特征表達和音視頻特征表達之間的關(guān)系。我們在AVLetters2,AVDigits,CUAVE和AVLetters數(shù)據(jù)庫上進行了定量的視音頻雙模態(tài)語音識別和跨模態(tài)語音識別的實驗證明了提出模型和數(shù)據(jù)增強方法的有效性。并在實驗中展示了生成數(shù)據(jù)增強的結(jié)果,驗證了輔助損失的有效性。在指標上,提出方法的識別精度優(yōu)于過往的模型。
【學(xué)位單位】:中國科學(xué)院大學(xué)(中國科學(xué)院西安光學(xué)精密機械研究所)
【學(xué)位級別】:碩士
【學(xué)位年份】:2018
【中圖分類】:TN912.34
【部分圖文】:

雙模態(tài),語音識別,視音頻,基本步驟


圖 1.1 視音頻雙模態(tài)語音識別的基本步驟Figure 1.1 Steps ofAudio-visual Speech Recognition.1,視音頻雙模態(tài)語音識別分為 2 個基本步驟:特征,我們將視音頻雙模態(tài)語音識別的研究現(xiàn)狀的闡述合&識別層面兩大類。征層面層面的研究是起步最早的研究方向之一,也是一個臉識別技術(shù)、圖像識別、目標檢測和語音識別都有為聽覺特征和視覺特征 2 小節(jié):

問題,方法,時態(tài)信息,監(jiān)督學(xué)習(xí)


圖 1.2 現(xiàn)有方法存在的普遍問題Figure 1.2 The Problems of existing models點頻雙模態(tài)語音識別時態(tài)信息利用不完全的問題,本研究。本文試圖通過研究融合&識別層面的視音頻究提供理論支撐。因此本文的創(chuàng)新點分為兩個部分型;二是多模態(tài)輔助損失門控循環(huán)網(wǎng)絡(luò)模型。態(tài)框架模型的創(chuàng)新點頻雙模態(tài)語音識別時態(tài)信息利用不完全的問題, 我們監(jiān)督學(xué)習(xí)和監(jiān)督學(xué)習(xí)相結(jié)合實現(xiàn)充分利用時態(tài)因素

基本流程,時態(tài),自編碼,多模態(tài)


第2章 深度時態(tài)框架模型現(xiàn)有方法的不足,我們提出了一種基于無監(jiān)督學(xué)習(xí)和現(xiàn)充分利用時態(tài)因素的視音頻雙模態(tài)語音識別的模度時態(tài)框架模型的模型流程圖。首先進行預(yù)處理并提用多模態(tài)深度自編碼網(wǎng)絡(luò)作為視音頻模態(tài)融合(mo堆疊長短時記憶網(wǎng)絡(luò)作為含有時態(tài)因素的模態(tài)融合(,采用長短時記憶網(wǎng)絡(luò)和池化層作為時態(tài)融合(t用前向連接網(wǎng)絡(luò)作為識別網(wǎng)絡(luò)得到識別結(jié)果。在接回顧模型的兩個主要組成部分:多模態(tài)深度自編碼網(wǎng)絡(luò)(Long Short Term Memory,LSTM),之后提出行實驗。
【相似文獻】

相關(guān)期刊論文 前10條

1 程建軍;胡立志;;關(guān)于深度學(xué)習(xí)的語音識別應(yīng)用研究[J];科技經(jīng)濟導(dǎo)刊;2019年12期

2 周弘燁;;語音識別大揭秘:計算機如何處理聲音?[J];中國新通信;2019年04期

3 姜姝姝;;語音識別64年大突破[J];機器人產(chǎn)業(yè);2016年06期

4 吳俊宇;;語音識別為何“叫好不叫座”?[J];通信世界;2016年16期

5 徐鑫;;語音識別的未來之路[J];通信世界;2016年16期

6 張連仲;;帶著使命感出發(fā)[J];英語學(xué)習(xí);2017年01期

7 張凱;;榮威eRX5靜態(tài)體驗 “人性化”語音識別是亮點[J];新能源汽車新聞;2017年01期

8 劉寶華;;語音識別老祖宗[J];經(jīng)營者(汽車商業(yè)評論);2017年03期

9 司馬寧;;智能電視,語音識別或成突破口[J];消費指南;2017年05期

10 ;寶馬 用科技打造“未來之家”[J];中國汽車市場;2016年11期


相關(guān)博士學(xué)位論文 前10條

1 賀蘇寧;基于語音識別基元聲學(xué)整體結(jié)構(gòu)特征的識別模型研究[D];電子科技大學(xué);2005年

2 陳立偉;基于HMM和ANN的漢語語音識別[D];哈爾濱工程大學(xué);2005年

3 徐金甫;基于特征提取的抗噪聲語音識別研究[D];華南理工大學(xué);2000年

4 寧更新;抗噪聲語音識別新技術(shù)的研究[D];華南理工大學(xué);2006年

5 沈海峰;語音識別中的環(huán)境補償研究[D];北京郵電大學(xué);2006年

6 李小兵;高效簡約的語音識別聲學(xué)模型[D];中國科學(xué)技術(shù)大學(xué);2006年

7 孫暐;聽覺特性與魯棒語音識別算法研究[D];東南大學(xué);2006年

8 雷建軍;噪聲魯棒語音識別中若干問題的研究[D];北京郵電大學(xué);2007年

9 孫成立;語音關(guān)鍵詞識別技術(shù)的研究[D];北京郵電大學(xué);2008年

10 奉小慧;音頻噪聲環(huán)境下唇動信息在語音識別中的應(yīng)用技術(shù)研究[D];華南理工大學(xué);2010年


相關(guān)碩士學(xué)位論文 前10條

1 徐海;基于語音識別的智能家居方案設(shè)計研究[D];浙江理工大學(xué);2019年

2 陳長鑫;基于嵌入式技術(shù)及云技術(shù)的機器人語音識別研究[D];東北大學(xué);2017年

3 潘瑩;基于HMM的連續(xù)語音識別系統(tǒng)的設(shè)計[D];中南民族大學(xué);2016年

4 田春霖;深度視音頻雙模態(tài)語音識別方法[D];中國科學(xué)院大學(xué)(中國科學(xué)院西安光學(xué)精密機械研究所);2018年

5 楊陽;基于HMM和BP神經(jīng)網(wǎng)絡(luò)的漢語語音識別系統(tǒng)研究[D];東北大學(xué);2017年

6 朱明星;車載噪聲背景下的語音識別中減噪技術(shù)研究[D];安徽工業(yè)大學(xué);2018年

7 李要嬙;基于主動學(xué)習(xí)的藏語語音識別在在線教育中的應(yīng)用[D];中央民族大學(xué);2018年

8 向佳豪;語音識別軟件對口譯學(xué)生漢英同聲傳譯的影響研究[D];北京外國語大學(xué);2018年

9 高思萌;訊飛語音識別對英漢交傳筆記的影響[D];北京外國語大學(xué);2018年

10 陳皇;基于神經(jīng)網(wǎng)絡(luò)的語音識別聲學(xué)模型壓縮研究[D];中國科學(xué)技術(shù)大學(xué);2018年



本文編號:2866363

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/wltx/2866363.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶3cebf***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com