天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 碩博論文 > 信息類博士論文 >

深度學(xué)習(xí)語音識別系統(tǒng)中的自適應(yīng)方法研究

發(fā)布時間:2020-11-20 11:10
   語音是最快速、便捷的人機交互方式,語音識別技術(shù)是人工智能的重要組成部分。隨著深度學(xué)習(xí)技術(shù)的進步,語音識別在多數(shù)場景中取得了接近人類的識別準確率,但是在說話人帶有方言和口音、復(fù)雜環(huán)境噪聲和專業(yè)領(lǐng)域等特殊場景下,語音識別的準確率會顯著下降,影響用戶的使用體驗。語音識別自適應(yīng)技術(shù)是提升特殊場景下語音識別準確率的有效手段之一,因此一直是語音識別領(lǐng)域的研究熱點。相比傳統(tǒng)語音識別系統(tǒng)中的自適應(yīng)技術(shù),深度學(xué)習(xí)語音識別系統(tǒng)中的自適應(yīng)存在著模型參數(shù)龐大,而數(shù)據(jù)量相對較少等特點,這使得深度學(xué)習(xí)語音識別系統(tǒng)中的自適應(yīng)成為一個研究難題。本文針對這些難題,在聲學(xué)模型在線自適應(yīng)、低資源下聲學(xué)模型離線自適應(yīng)、無監(jiān)督聲學(xué)模型離線自適應(yīng)和語言模型自適應(yīng)方面開展了研究工作,并將研究成果應(yīng)用于實際語音識別系統(tǒng)中。本文的研究工作依托科大訊飛股份有限公司所承擔(dān)的科技部國家重點研發(fā)計劃重點專項課題《未知場景下的語音識別與意圖理解》(課題編號:2018AAA0102204)進行。本文的具體研究內(nèi)容包括:研究了聲學(xué)模型在線自適應(yīng)技術(shù)。針對聲學(xué)模型在線自適應(yīng)對于實時性要求極高,并且因缺乏自適應(yīng)訓(xùn)練數(shù)據(jù)而導(dǎo)致自適應(yīng)效果有限等問題,本文提出了基于注意力機制的聲學(xué)模型在線自適應(yīng)方法。利用預(yù)先訓(xùn)練好的說話人識別模型抽取海量說話人的特征表達并進行聚類,得到一組說話人特征基向量作為外部記憶單元;利用注意力機制實時快速的從記憶單元中挑選與當(dāng)前語音段最相近的說話人基向量,并加權(quán)得到當(dāng)前語音幀所對應(yīng)的說話人特征表達,用于聲學(xué)模型在線自適應(yīng)。在此框架的基礎(chǔ)之上,我們引入了固定大小順序遺忘編碼機制,同時提出了多級門控連接機制、說話人分類目標輔助訓(xùn)練和殘差向量說話人特征表達,進一步的提升了聲學(xué)模型在線自適應(yīng)的效果。我們分別在中文和英文語音識別兩個代表性數(shù)據(jù)集上進行了實驗,實驗結(jié)果證明了該方法能夠在基本不增加語音識別計算復(fù)雜度的情況下,大幅提升聲學(xué)模型在線自適應(yīng)的效果。研究了低資源下聲學(xué)模型離線自適應(yīng)技術(shù)。針對低資源下聲學(xué)模型離線自適應(yīng)容易過擬合而導(dǎo)致泛化能力差的問題,本文提出了基于多任務(wù)學(xué)習(xí)的說話人編碼方法,以及基于奇異值分解和矢量量化的自適應(yīng)方法。首先,針對傳統(tǒng)基于說話人編碼的自適應(yīng)方法進行了分析并指出了其中的不足;其次,針對性的引入了額外的說話人分類目標對說話人編碼向量進行多任務(wù)學(xué)習(xí),以提升該方法對于新說話人的泛化能力;然后,將說話人編碼向量擴展成說話人編碼矩陣以增強自適應(yīng)的作用,并使用基于奇異值分解的自適應(yīng)參數(shù)初始化。同時,為了能夠充分壓縮自適應(yīng)的參數(shù)量,引入了矢量量化技術(shù),并同步進行矢量量化訓(xùn)練與自適應(yīng),以減少矢量量化所帶來的效果損失。在真實的語音識別數(shù)據(jù)集上,這兩種方法在低資源情況下均取得了更好的自適應(yīng)效果。研究了無監(jiān)督聲學(xué)模型離線自適應(yīng)技術(shù)。針對無監(jiān)督聲學(xué)模型離線自適應(yīng)相比有監(jiān)督自適應(yīng)效果損失嚴重的問題,本文首先提出了利用人機交互過程中的用戶確認文本來幫助提高自適應(yīng)數(shù)據(jù)機器標注準確率的方法;然后提出了一種基于確認模型的聲學(xué)置信度方法,通過設(shè)計多種統(tǒng)計特征用于置信度模型的訓(xùn)練,直接判斷當(dāng)前詞是否識別正確,從而顯著增強了置信度與語音識別準確率之間的相關(guān)度,使得通過該置信度方法可以更好的進行自適應(yīng)數(shù)據(jù)的挑選,提升機器自動標注的準確率;最后,本文跳出了傳統(tǒng)無監(jiān)督自適應(yīng)方法的束縛,提出了一種基于元學(xué)習(xí)的無監(jiān)督自適應(yīng)方法,直接以無監(jiān)督自適應(yīng)后的模型在測試集上的效果為訓(xùn)練目標,來對通用模型進行調(diào)整,使得經(jīng)過元學(xué)習(xí)后的通用模型按照預(yù)設(shè)的自適應(yīng)方法能夠在測試集上獲取最優(yōu)的效果。實驗結(jié)果表明,本文提出的方法均能大幅提升無監(jiān)督聲學(xué)模型自適應(yīng)的效果。研究了語言模型自適應(yīng)技術(shù)。針對語言模型自適應(yīng)數(shù)據(jù)稀疏、缺乏有效的自適應(yīng)方法的問題,本文提出了基于用戶修改詞的N-gram語言模型自適應(yīng)方法,通過從用戶修改行為中挖掘用戶關(guān)鍵詞并在解碼過程中進行動態(tài)激勵,實現(xiàn)了N-gram語言模型高效快速的自適應(yīng)。在保證低誤觸發(fā)率的前提下,該方法大幅提升了用戶關(guān)鍵詞的識別準確率。針對領(lǐng)域信息未知情況下的神經(jīng)網(wǎng)絡(luò)語言模型的自適應(yīng)難題,本文提出了基于無監(jiān)督聚類的神經(jīng)網(wǎng)絡(luò)語言模型自適應(yīng)方法,通過無監(jiān)督聚類對訓(xùn)練文本數(shù)據(jù)進行劃分并訓(xùn)練類別專屬語言模型,并利用隱層共享機制緩解類別專屬語言模型訓(xùn)練數(shù)據(jù)稀疏的問題。在解碼過程中,通過動態(tài)挑選多個類別專屬語言模型的輸出概率進行加權(quán),達到提高語言模型輸出概率可信度的目的。在真實的語音識別數(shù)據(jù)集上驗證了本文提出的方法的有效性。在上述研究工作的基礎(chǔ)上,介紹了自適應(yīng)技術(shù)在真實深度學(xué)習(xí)語音識別系統(tǒng)中的應(yīng)用情況。針對語音輸入法場景,本文設(shè)計了語音識別云服務(wù)中聲學(xué)模型自適應(yīng)的服務(wù)架構(gòu),包括聲學(xué)模型的自適應(yīng)訓(xùn)練模塊和自適應(yīng)后聲學(xué)模型的解碼模塊。同時,設(shè)計了“即修即改”的語言模型快速自適應(yīng)功能,使得系統(tǒng)在語音識別錯誤被用戶修正后可以迅速學(xué)習(xí)改進。
【學(xué)位單位】:中國科學(xué)技術(shù)大學(xué)
【學(xué)位級別】:博士
【學(xué)位年份】:2020
【中圖分類】:TN912.34;TP18
【部分圖文】:

系統(tǒng)結(jié)構(gòu)圖,語音識別,系統(tǒng)結(jié)構(gòu),語音


表示語音特征向量序列的先驗概率,在求解的過程中是一個常量,可??以忽略。p(Xlio)表示己知文本序列W的情況下輸出特征向量叉的概率,這個??概率通常通過統(tǒng)計建模的方法來計算,用于描述此概率的模型被稱為聲學(xué)模型??(Acoustic?Model,?AM)。表不文本序列w出現(xiàn)的先驗概率,用于描述此概率??的模型被稱為語言模型(Language?Model,?LM)。由式1.2可知,一個完整的語音識??別系統(tǒng)包括特征提取器、聲學(xué)模型、語言模型和解碼器這四個部分,語音識別系??統(tǒng)的結(jié)構(gòu)圖如圖1.1所示。下文分別介紹特征提娶聲學(xué)模型和語言模型這三個??部分。??語音輸么——?特征提取??解碼器?^輸出文本?????豐"??語音數(shù)據(jù)庫〈—八聲學(xué)模型(J?語言模型 ̄ ̄(文本數(shù)據(jù)庫(??圖1.1語音識別系統(tǒng)結(jié)構(gòu)??由于語音信號本身是一個連續(xù)的時域信號,首先需要對其進行分幀處理,使??得連續(xù)語音信號可以表示成時間軸上的離散序列以方便建模。語音的相位信息??被證明對于語音識別來說并不起作用,同時語音的高頻部分極易受到噪聲等因??素的干擾,因此通常將語音信號通過傅里葉變換轉(zhuǎn)換到頻域后,再提取幅度譜相??關(guān)的特征。由于受到發(fā)音機制和聲音傳輸信道時變特性的影響,語音信號本身??只具有短時的平穩(wěn)性,為了使得特征具有高穩(wěn)定性,每幀語音的長度不能選擇??太長,通常選擇25毫秒的窗長。同時為了不造成信息的丟失,相鄰兩幀之間要??有一定的重疊,幀間步長通常設(shè)置為1〇毫秒。在將每幀語音時域信號轉(zhuǎn)變?yōu)轭l??域信號之后,為了減少高頻部分起到的作用,使得特征具有更強的噪聲魯棒性,??通常會采用一組帶寬不等的濾波器組來提取特征,這些濾波器在高

過程圖,語音識別,計算能力,特征提取


第1章緒?論??輸入音"?I??=,>模數(shù)轉(zhuǎn)換二?去直流O?分幀?預(yù)加重《={)?加窗??—————'?nr'?—..————j?—5———??z??、?「 ̄ ̄:■-"■■-.???\7?|?:???—????(聲學(xué)特征?>?差分系數(shù)々二f對數(shù)能量快速傅立葉變換??V???^??y??ZZZ:?|?,???飛=??(MFCC?>離散余弦變換卩=取對數(shù)傘Mel域濾波器組??圖1.2?MFCC特征提取過程??使得GMM的訓(xùn)練過程變得非常簡單和快速,在20世紀80年代時期計算能力??很差的情況下,提供了快速訓(xùn)練語音識別系統(tǒng)的可能。而到了深度學(xué)習(xí)時期,神??經(jīng)網(wǎng)絡(luò)模型并不需要考慮輸入的特征各個維度之間是否獨立,因此對于深度學(xué)??習(xí)語音識別系統(tǒng)來說,通常會直接釆用離散余弦變換之前的頻譜特征,我們稱之??為對數(shù)濾波器組能量(log?filterbank?energies)特征,簡稱為Filterbank特征。??從式1.2可以看出語音識別的主流做法是經(jīng)典的模式識別問題,因此聲學(xué)模??型和語言模型是一個語音識別系統(tǒng)的核心所在。當(dāng)前主流的語音識別系統(tǒng)的聲學(xué)??模型絕大多數(shù)都采用HMM來對連續(xù)語音信號進行時序建模。一個典型的HMM??包含有五個要素:1)觀察特征向量序列叉二丨巧丨;2)狀態(tài)集合0?=丨^丨;3)狀??態(tài)轉(zhuǎn)移矩陣A?=?{%}:?4)各狀態(tài)輸出概率分布集合B?=汍(〇;)};?5)初始狀態(tài)??概率tt=?{ttJ。上述要素必須滿足以下概率性質(zhì):??叫)彡??A(a〇彡0,?A彡0??r?(1.3)??/2aij?=?1,?/?bi(x)d

示意圖,神經(jīng)網(wǎng)絡(luò),卷積,聲學(xué)模型


)??卷積神經(jīng)網(wǎng)絡(luò)的核心思想在于卷積和池化(pooling)兩個操作。卷積操作的??連接方式是局部連接,因此可以獲取對于局部結(jié)構(gòu)信息的精確表達,而池化操??作則通過降低分辨率的方式,配合卷積操作克服局部信息本身不夠穩(wěn)定的問題。??通過對語譜圖不斷的進行卷積和池化操作,卷積神經(jīng)網(wǎng)絡(luò)看到的語音特征時間??和頻域上的跨度不斷增加,整個神經(jīng)網(wǎng)絡(luò)建模的尺度也逐漸的從局部變?yōu)檎w。??這種從局部到整體的建模方式可以對語音特征中諧波、共振峰等信息進行非常??精確的建模,從而提升音素狀態(tài)的區(qū)分性。圖1.4給出了深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)??的示意圖。由于遞歸神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)分別從不同的角度來加強建模能??力,所以很多情況下我們會同時使用這兩種結(jié)構(gòu)來進行聲學(xué)模型建模,結(jié)合的方??式包括級聯(lián)或者并聯(lián)等方式,例如文獻(Sainathetal.,2015)中提出的CLDNN模??型框架取得了相比單獨使用CNN和LSTM均更優(yōu)的識別準確率。??Conv?Conv??y?rv、??5?v1。?Co??y?Conv??■、丄」、、u’??32?32??圖1.4深度卷積神經(jīng)網(wǎng)絡(luò)聲學(xué)模型示意圖??Transformer?神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)是?Google?于?2017?年提出的(Vaswani?et?al.,2017),??最早被用于機器翻譯任務(wù),后來被推廣到語音識別領(lǐng)域,迅速成為主流的聲學(xué)??模型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)之一。圖1.5給出了?Transformer結(jié)構(gòu)的示意圖,其核心思想在??于使用了一種自注意力(self-attention)機制代替卷積或者遞歸操作來實現(xiàn)對長時??上下文的建模,通過不斷疊加前饋層和self-attention層,不斷的增
【相似文獻】

相關(guān)期刊論文 前10條

1 姚明海;方存亮;;多層校正的無監(jiān)督領(lǐng)域自適應(yīng)方法[J];中國圖象圖形學(xué)報;2019年09期

2 王晶瑩;王作英;;利用隱空間投影算法的模型自適應(yīng)方法[J];清華大學(xué)學(xué)報(自然科學(xué)版);2007年07期

3 尹繼豪;姜志國;樊孝忠;;一種基于N元語法分布的語言模型自適應(yīng)方法[J];北京航空航天大學(xué)學(xué)報;2008年11期

4 蔡俊亞;;一種基于服務(wù)構(gòu)件模型的自適應(yīng)方法[J];湖南師范大學(xué)自然科學(xué)學(xué)報;2011年01期

5 王鏞根,張學(xué)峰;故障診斷的神經(jīng)網(wǎng)絡(luò)多重模型自適應(yīng)方法[J];航空動力學(xué)報;1997年02期

6 高立群,王景才;參考模型自適應(yīng)方法在主從對策中的應(yīng)用[J];東北工學(xué)院學(xué)報;1991年03期

7 趙文倉;袁立鎮(zhèn);徐長凱;;基于鑒別模型和對抗損失的無監(jiān)督域自適應(yīng)方法[J];高技術(shù)通訊;2020年07期

8 丁亮;李穎;何彥青;;統(tǒng)計機器翻譯領(lǐng)域自適應(yīng)方法比較研究[J];情報工程;2016年04期

9 吳根清,鄭方,金凌,吳文虎;一種在線遞增式語言模型自適應(yīng)方法[J];中文信息學(xué)報;2002年01期

10 魏紹凱,鄺自強,張樂年,鄭叔芳;由離散點繪制葉型高次曲線的自適應(yīng)方法[J];汽輪機技術(shù);1992年06期


相關(guān)博士學(xué)位論文 前10條

1 潘嘉;深度學(xué)習(xí)語音識別系統(tǒng)中的自適應(yīng)方法研究[D];中國科學(xué)技術(shù)大學(xué);2020年

2 彭彪;動邊界非定常流動網(wǎng)格自適應(yīng)模擬的研究[D];南京航空航天大學(xué);2018年

3 張亮;自適應(yīng)離散縱標屏蔽計算方法研究[D];華北電力大學(xué)(北京);2019年

4 盛華山;求解動力學(xué)方程的時間遞進高效方法—算法設(shè)計、分析與應(yīng)用[D];上海交通大學(xué);2016年

5 劉建偉;肌電控制接口的自適應(yīng)方法研究[D];上海交通大學(xué);2016年

6 孫強;自適應(yīng)間斷Galerkin有限元方法的可壓縮流數(shù)值模擬[D];南京航空航天大學(xué);2017年

7 唐謙;基于點插值無網(wǎng)格法的高效高精度自適應(yīng)分析研究[D];湖南大學(xué);2014年

8 張斌;基于目標導(dǎo)向的角度自適應(yīng)射線效應(yīng)消除方法研究[D];華北電力大學(xué)(北京);2018年

9 蘇榮鋒;多重影響因素下的語音識別系統(tǒng)研究[D];中國科學(xué)院大學(xué)(中國科學(xué)院深圳先進技術(shù)研究院);2020年

10 王露笛;心律失常與心力衰竭智能診斷方法研究[D];北京郵電大學(xué);2019年


相關(guān)碩士學(xué)位論文 前10條

1 方斌;語音識別中自適應(yīng)方法的研究[D];中國科學(xué)院研究生院(計算技術(shù)研究所);1997年

2 梁奇;語言模型自適應(yīng)方法在嵌入式系統(tǒng)中應(yīng)用的研究[D];清華大學(xué);2006年

3 畢朝陽;基于特征選擇的領(lǐng)域自適應(yīng)方法研究[D];華南理工大學(xué);2019年

4 張茲鈺;開采沉陷FDM模擬四面體網(wǎng)格幾何自適應(yīng)方法研究及應(yīng)用[D];中國地質(zhì)大學(xué)(北京);2019年

5 張碧秋;基于分層卷積特征的核相關(guān)濾波目標跟蹤方法研究[D];南京郵電大學(xué);2019年

6 譚虹;基于情景智能的工業(yè)互聯(lián)網(wǎng)認知服務(wù)自適應(yīng)研究[D];南京郵電大學(xué);2019年

7 袁安安;基于壞單元指示子的p和hp自適應(yīng)RKDG方法[D];南京郵電大學(xué);2018年

8 楊凱;三維歐拉流動的基于伴隨方程的網(wǎng)格自適應(yīng)模擬[D];南京航空航天大學(xué);2018年

9 何柳;基于策略的自適應(yīng)軟件運行時不確定性處理機制研究[D];西安電子科技大學(xué);2018年

10 劉陽;不連續(xù)伽遼金時域有限元p自適應(yīng)電磁分析技術(shù)研究[D];南京理工大學(xué);2018年



本文編號:2891335

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/2891335.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶7c134***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
亚洲精品国产美女久久久99| 免费性欧美重口味黄色| 黄色片国产一区二区三区| 成年人视频日本大香蕉久久| 日本午夜免费福利视频| 少妇人妻精品一区二区三区| 观看日韩精品在线视频| 视频在线免费观看你懂的 | 久热这里只有精品九九| 国语对白刺激高潮在线视频| 91欧美激情在线视频| 大香蕉伊人一区二区三区| 日韩精品一区二区不卡| 好骚国产99在线中文| 日韩成人午夜福利免费视频| 国产精品熟女乱色一区二区| 国产在线一区二区免费| 人妻乱近亲奸中文字幕| 国产一区欧美一区日本道| 热久久这里只有精品视频| 国产丝袜美女诱惑一区二区| 国产精品国产亚洲区久久| 精品香蕉国产一区二区三区| 国产日产欧美精品视频| 99久久成人精品国产免费| 麻豆剧果冻传媒一二三区| 99久久人妻精品免费一区| 国产美女精品人人做人人爽| 日韩中文字幕欧美亚洲| 亚洲熟妇熟女久久精品| 日本道播放一区二区三区| 色婷婷久久五月中文字幕| 在线免费观看黄色美女| 日韩不卡一区二区视频| 人人妻人人澡人人夜夜| 免费人妻精品一区二区三区久久久| 精品伊人久久大香线蕉综合 | 久久夜色精品国产高清不卡| 亚洲免费黄色高清在线观看| 久久国产亚洲精品成人| 美女被啪的视频在线观看|