天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 自動化論文 >

基于結構化深度學習的語音識別自適應技術研究

發(fā)布時間:2020-05-25 15:14
【摘要】:深度神經(jīng)網(wǎng)絡-隱馬爾可夫模型的提出令語音識別在干凈環(huán)境中的應用取得了巨大進展。然而,因為訓練數(shù)據(jù)與測試數(shù)據(jù)之間的聲學環(huán)境失配,語音識別的準確率在噪聲環(huán)境下相比在干凈環(huán)境下依然存在巨大的性能下降。因此,基于深度神經(jīng)網(wǎng)絡的說話人自適應技術成為當前語音識別領域的一個研究熱點和難點。之前的相關工作因為缺乏對深度神經(jīng)網(wǎng)絡結構的先驗設計,在自適應時需要估計大量的自適應參數(shù),不能最有效的使用有限的自適應數(shù)據(jù)。本論文首先提出了基于結構化深度學習的自適應來更有效的進行基于深度神經(jīng)網(wǎng)絡的自適應和自適應訓練,主要包括兩個部分:基于結構化深度學習的特征自適應和基于模型結構化的深度學習自適應。隨后,本論文提出了自適應的超深卷積殘差網(wǎng)絡并獲得了抗噪語音識別中的最佳性能;诮Y構化深度學習的特征自適應主要圍繞基于說話人感知訓練的自適應框架展開,提出了基于環(huán)境感知訓練的循環(huán)神經(jīng)網(wǎng)絡自適應以及基于深度神經(jīng)網(wǎng)絡的在線自適應這兩大方法。首先,提出了基于說話人感知訓練的循環(huán)神經(jīng)網(wǎng)絡聲學模型自適應,這是第一個將說話人感知訓練運用在循環(huán)神經(jīng)網(wǎng)絡上的工作。在最基礎的拼接結構上,本論文探索了兩種新的結構來避免潛在的信息爆炸。此外,本論文提出了基于深度神經(jīng)網(wǎng)絡的說話人表示提取,并進一步設計了基于多任務訓練和音素感知的結構來提取同時包含多種環(huán)境因素(比如說話人和單音素)的環(huán)境表示。該特征和傳統(tǒng)i-vector一起用于基于說話人感知訓練的循環(huán)神經(jīng)網(wǎng)絡自適應中,在會議語音識別任務AMI中取得了相對6.5%的性能提升。最后,我們將環(huán)境的概念擴展到了語言模型中,初步探索了兩種基于題材感知訓練的循環(huán)神經(jīng)網(wǎng)絡語言模型的自適應方法,在多題材廣播節(jié)目的字幕生成任務中相比無自適應的語言模型取得了顯著的性能提升。隨后,本論文進一步探索了基于深度神經(jīng)網(wǎng)絡的在線自適應方法,提出了基于深度神經(jīng)網(wǎng)絡的多因子感知聯(lián)合訓練的創(chuàng)新框架。該框架提出了結構化的模型,將多個擁有不同功能的模塊集成在一個深度計算型網(wǎng)絡中。該方法使用深度神經(jīng)網(wǎng)絡在線地提取基于說話人、音素和噪聲環(huán)境的表示,并將這些表示集成進主語音識別網(wǎng)絡中用于提高網(wǎng)絡的語音分類性能。它使用了多任務訓練的框架來同時優(yōu)化主語音識別網(wǎng)絡和環(huán)境特征提取網(wǎng)絡的參數(shù),不需要顯式的特征提取和自適應階段,擁有和基線網(wǎng)絡一樣的解碼實時率。我們在遠場和抗噪語音識別任務AMI和Aurora4上驗證了所提出的新框架,取得了比無自適應的基線系統(tǒng)相對10%到18%的性能提升;谀P徒Y構化的深度學習自適應的研究圍繞基類自適應訓練展開,本論文將其擴展到深度神經(jīng)網(wǎng)絡中:對于神經(jīng)網(wǎng)絡的一層,使用一組權重矩陣作為權重矩陣基;為每一種聲學環(huán)境估計一個插值向量用于將權重矩陣基組合成一個環(huán)境獨有的權重矩陣。由于在自適應時只需要估計這一維度很低的插值向量,因而該方法可以更有效的利用有限的自適應數(shù)據(jù)。同時,本論文證明了基于環(huán)境感知訓練的自適應框架等價于使用了一組偏置基,因此可以作為基類自適應訓練框架中的一個特例。該方法在電話語音識別任務Switchboard中取得了相對7.6%到10.6%的性能提升。自適應的超深卷積殘差網(wǎng)絡的研究針對目前抗噪語音識別中最有效的超深卷積殘差網(wǎng)絡展開,將本論文提出的兩個自適應方法擴展到超深卷積殘差網(wǎng)絡中。本論文解決了二維輸入無法和向量進行拼接的問題;探索了兩種不同的網(wǎng)絡參數(shù)作為基的方法;針對多種環(huán)境因子,提出了基于多因子的參數(shù)基結構。這一系列方法的共同應用在抗噪語音識別任務Aurora4上取得了單系統(tǒng)5.92%詞錯誤率,這是目前業(yè)界最好的性能。最后,本論文綜合了所提出的兩類結構化深度學習方法,提出了多輪次解碼的語音識別系統(tǒng)架構,在抗噪語音識別任務Aurora4、Chime4、AMI上進行了驗證。其中在Aurora4上的性能已經(jīng)接近于人類,在帶真實環(huán)境噪聲的Chime4和AMI上也取得了相對10%到39%的性能提升?偠灾,本論文成功地將結構化深度學習運用在了語音識別的特征自適應和模型自適應中,在電話語音識別任務以及抗噪語音識別任務上均取得了顯著的性能提升,特別在Aurora4上取得了全業(yè)界最好的性能。
【圖文】:

變遷圖,語音識別,錯誤率,詞序


圖 1 1 語音識別詞錯誤率變遷圖 (截止 2009 年)Fig 1 1 History of WER on several tasks (until 2009)音識別架構今為止最為成功的基于統(tǒng)計的語音識別的框架中,語音識別過程可以公式:w argmaxww O 所有可能的候選假設 中尋找擁有最大后驗概率 w O 的詞序列n是詞序列,O o1oT是特征向量序列。w argmaxww OargmaxwO w wO

框架圖,語音識別,框架,聲學模型


圖 1 2 語音識別框架Fig 1 2 Framework of an automatic speech recognition system圖 1 2是對當前流行的語音識別系統(tǒng)的框架的描述,它主要由四個部分組成,包括前端信號處理、聲學模型、語言模型和解碼器。前端信號處理:原始模擬信號首先經(jīng)錄入器件轉化為數(shù)字信號。前端信號處理部分負責從數(shù)字化后的語音中提取魯棒的聲學特征信息,主要包括多麥克風陣列降噪和提取符合人耳聽覺感知的聲學特征等。詳細內容將在章節(jié) 2.1.1中介紹。聲學模型(AcousticModel,AM):聲學模型是語音識別系統(tǒng)中最核心的模型之一。聲學模型的好壞直接決定了語音識別系統(tǒng)的性能,也是本論文的研究重點之一。聲學模型建模的是給定的詞序列生成出所觀測到的特征向量序列的條件概率 O w目前主流的語音識別系統(tǒng)通常使用隱馬爾可夫模型(Hidden Markov Model, HMM來做為聲學模型。在 HMM 中,存在一個概率分布被稱為狀態(tài)輸出概率,這個概率可以通過使用混合高斯模型來建模,也可以通過深度神經(jīng)網(wǎng)絡來建模。使用前
【學位授予單位】:上海交通大學
【學位級別】:博士
【學位授予年份】:2018
【分類號】:TN912.34;TP18

【相似文獻】

相關期刊論文 前10條

1 張晗;;淺談語音識別[J];內蒙古科技與經(jīng)濟;2019年18期

2 周弘燁;;語音識別大揭秘:計算機如何處理聲音?[J];中國新通信;2019年04期

3 程建軍;胡立志;;關于深度學習的語音識別應用研究[J];科技經(jīng)濟導刊;2019年12期

4 桑亞超;李龍杰;袁傳青;霍慶磊;張樂;;關于語音識別在空調上的應用與改善[J];日用電器;2019年07期

5 牛洪波;王婉君;劉華楠;;語音識別專利技術綜述[J];河南科技;2019年24期

6 向暉;;數(shù)字語音識別與合成[J];電子世界;2019年15期

7 姜姝姝;;語音識別64年大突破[J];機器人產業(yè);2016年06期

8 吳俊宇;;語音識別為何“叫好不叫座”?[J];通信世界;2016年16期

9 徐鑫;;語音識別的未來之路[J];通信世界;2016年16期

10 張連仲;;帶著使命感出發(fā)[J];英語學習;2017年01期

相關會議論文 前10條

1 張冰;龍長才;羅海風;;熟悉掩蔽音背景下的目標語音識別[A];泛在信息社會中的聲學——中國聲學學會2010年全國會員代表大會暨學術會議論文集[C];2010年

2 于東;賈磊;徐波;;面向語音識別錯誤恢復的澄清式疑問句生成[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年

3 邢安昊;黎塔;顏永紅;;利用二重打分方法的激活詞語音識別[A];中國聲學學會第十屆青年學術會議論文集[C];2013年

4 文成義;何海燕;張玉扶;;基于新型神經(jīng)網(wǎng)絡的不定人語音識別[A];第二屆全國人機語音通訊學術會議(NCMMSC1992)論文集[C];1992年

5 杜笑平;楊啟綱;楊家沅;;過零周期轉移概率矩陣語音識別部件的研制[A];第二屆全國人機語音通訊學術會議(NCMMSC1992)論文集[C];1992年

6 潘勝昔;劉加;江金濤;王作英;陸大金;;基于多模式及集成判決的穩(wěn)健電話語音識別算法研究[A];第五屆全國人機語音通訊學術會議(NCMMSC1998)論文集[C];1998年

7 杜利民;;語音識別中的魯棒性問題[A];第六屆全國人機語音通訊學術會議論文集[C];2001年

8 宋君;葛余博;;應用于魯棒語音識別的置信度加權特征丟失法[A];第七屆全國人機語音通訊學術會議(NCMMSC7)論文集[C];2003年

9 張明新;倪宏;陳國平;張東濱;;一種用于并行模型噪聲魯棒語音識別的特征構造方法[A];第八屆全國人機語音通訊學術會議論文集[C];2005年

10 熊軍軍;馬瑞堂;李成榮;;兒童語音識別的研究現(xiàn)狀[A];第九屆全國人機語音通訊學術會議論文集[C];2007年

相關重要報紙文章 前10條

1 特約撰稿人 Lamont Wood 編譯 Charles;語音識別成長起來,并走向移動應用[N];計算機世界;2018年

2 本報記者 陶力;阿里全資收購先聲互聯(lián) 推動語音識別場景落地[N];21世紀經(jīng)濟報道;2018年

3 洪蕾;阿里研發(fā)高工業(yè)噪聲環(huán)境下語音識別及傳輸技術[N];中國信息化周報;2018年

4 本報記者 郭科;登月早已實現(xiàn),同期啟動的語音識別還在路上[N];科技日報;2018年

5 本報記者 王星平;語音識別商用尷尬 應用場景垂直化路有多遠[N];中國企業(yè)報;2016年

6 本報記者 余建華;從“綠皮車時代”邁入“高鐵時代”[N];人民法院報;2017年

7 陳宗周;機器在聆聽[N];電腦報;2017年

8 本報記者 黃旭 熊雯琳;云知聲:與巨頭共舞,成為AI領域BAT的密碼[N];電腦報;2017年

9 本報記者 錢一彬;手機“黑科技”為何叫好不叫座[N];人民日報;2017年

10 《機器人產業(yè)》雜志副總編輯 姜姝姝;語音識別距人類只差0.4%?[N];北京日報;2017年

相關博士學位論文 前10條

1 譚天;基于結構化深度學習的語音識別自適應技術研究[D];上海交通大學;2018年

2 屠彥輝;復雜場景下基于深度學習的魯棒性語音識別的研究[D];中國科學技術大學;2019年

3 賀蘇寧;基于語音識別基元聲學整體結構特征的識別模型研究[D];電子科技大學;2005年

4 陳立偉;基于HMM和ANN的漢語語音識別[D];哈爾濱工程大學;2005年

5 徐金甫;基于特征提取的抗噪聲語音識別研究[D];華南理工大學;2000年

6 寧更新;抗噪聲語音識別新技術的研究[D];華南理工大學;2006年

7 沈海峰;語音識別中的環(huán)境補償研究[D];北京郵電大學;2006年

8 李小兵;高效簡約的語音識別聲學模型[D];中國科學技術大學;2006年

9 孫f,

本文編號:2680341


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2680341.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶284c5***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com