深度學(xué)習(xí)語音識別系統(tǒng)中的自適應(yīng)方法研究
【學(xué)位單位】:中國科學(xué)技術(shù)大學(xué)
【學(xué)位級別】:博士
【學(xué)位年份】:2020
【中圖分類】:TN912.34;TP18
【部分圖文】:
表示語音特征向量序列的先驗概率,在求解的過程中是一個常量,可??以忽略。p(Xlio)表示己知文本序列W的情況下輸出特征向量叉的概率,這個??概率通常通過統(tǒng)計建模的方法來計算,用于描述此概率的模型被稱為聲學(xué)模型??(Acoustic?Model,?AM)。表不文本序列w出現(xiàn)的先驗概率,用于描述此概率??的模型被稱為語言模型(Language?Model,?LM)。由式1.2可知,一個完整的語音識??別系統(tǒng)包括特征提取器、聲學(xué)模型、語言模型和解碼器這四個部分,語音識別系??統(tǒng)的結(jié)構(gòu)圖如圖1.1所示。下文分別介紹特征提娶聲學(xué)模型和語言模型這三個??部分。??語音輸么——?特征提取??解碼器?^輸出文本?????豐"??語音數(shù)據(jù)庫〈—八聲學(xué)模型(J?語言模型 ̄ ̄(文本數(shù)據(jù)庫(??圖1.1語音識別系統(tǒng)結(jié)構(gòu)??由于語音信號本身是一個連續(xù)的時域信號,首先需要對其進行分幀處理,使??得連續(xù)語音信號可以表示成時間軸上的離散序列以方便建模。語音的相位信息??被證明對于語音識別來說并不起作用,同時語音的高頻部分極易受到噪聲等因??素的干擾,因此通常將語音信號通過傅里葉變換轉(zhuǎn)換到頻域后,再提取幅度譜相??關(guān)的特征。由于受到發(fā)音機制和聲音傳輸信道時變特性的影響,語音信號本身??只具有短時的平穩(wěn)性,為了使得特征具有高穩(wěn)定性,每幀語音的長度不能選擇??太長,通常選擇25毫秒的窗長。同時為了不造成信息的丟失,相鄰兩幀之間要??有一定的重疊,幀間步長通常設(shè)置為1〇毫秒。在將每幀語音時域信號轉(zhuǎn)變?yōu)轭l??域信號之后,為了減少高頻部分起到的作用,使得特征具有更強的噪聲魯棒性,??通常會采用一組帶寬不等的濾波器組來提取特征,這些濾波器在高
第1章緒?論??輸入音"?I??=,>模數(shù)轉(zhuǎn)換二?去直流O?分幀?預(yù)加重《={)?加窗??—————'?nr'?—..————j?—5———??z??、?「 ̄ ̄:■-"■■-.???\7?|?:???—????(聲學(xué)特征?>?差分系數(shù)々二f對數(shù)能量快速傅立葉變換??V???^??y??ZZZ:?|?,???飛=??(MFCC?>離散余弦變換卩=取對數(shù)傘Mel域濾波器組??圖1.2?MFCC特征提取過程??使得GMM的訓(xùn)練過程變得非常簡單和快速,在20世紀80年代時期計算能力??很差的情況下,提供了快速訓(xùn)練語音識別系統(tǒng)的可能。而到了深度學(xué)習(xí)時期,神??經(jīng)網(wǎng)絡(luò)模型并不需要考慮輸入的特征各個維度之間是否獨立,因此對于深度學(xué)??習(xí)語音識別系統(tǒng)來說,通常會直接釆用離散余弦變換之前的頻譜特征,我們稱之??為對數(shù)濾波器組能量(log?filterbank?energies)特征,簡稱為Filterbank特征。??從式1.2可以看出語音識別的主流做法是經(jīng)典的模式識別問題,因此聲學(xué)模??型和語言模型是一個語音識別系統(tǒng)的核心所在。當(dāng)前主流的語音識別系統(tǒng)的聲學(xué)??模型絕大多數(shù)都采用HMM來對連續(xù)語音信號進行時序建模。一個典型的HMM??包含有五個要素:1)觀察特征向量序列叉二丨巧丨;2)狀態(tài)集合0?=丨^丨;3)狀??態(tài)轉(zhuǎn)移矩陣A?=?{%}:?4)各狀態(tài)輸出概率分布集合B?=汍(〇;)};?5)初始狀態(tài)??概率tt=?{ttJ。上述要素必須滿足以下概率性質(zhì):??叫)彡??A(a〇彡0,?A彡0??r?(1.3)??/2aij?=?1,?/?bi(x)d
)??卷積神經(jīng)網(wǎng)絡(luò)的核心思想在于卷積和池化(pooling)兩個操作。卷積操作的??連接方式是局部連接,因此可以獲取對于局部結(jié)構(gòu)信息的精確表達,而池化操??作則通過降低分辨率的方式,配合卷積操作克服局部信息本身不夠穩(wěn)定的問題。??通過對語譜圖不斷的進行卷積和池化操作,卷積神經(jīng)網(wǎng)絡(luò)看到的語音特征時間??和頻域上的跨度不斷增加,整個神經(jīng)網(wǎng)絡(luò)建模的尺度也逐漸的從局部變?yōu)檎w。??這種從局部到整體的建模方式可以對語音特征中諧波、共振峰等信息進行非常??精確的建模,從而提升音素狀態(tài)的區(qū)分性。圖1.4給出了深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)??的示意圖。由于遞歸神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)分別從不同的角度來加強建模能??力,所以很多情況下我們會同時使用這兩種結(jié)構(gòu)來進行聲學(xué)模型建模,結(jié)合的方??式包括級聯(lián)或者并聯(lián)等方式,例如文獻(Sainathetal.,2015)中提出的CLDNN模??型框架取得了相比單獨使用CNN和LSTM均更優(yōu)的識別準確率。??Conv?Conv??y?rv、??5?v1。?Co??y?Conv??■、丄」、、u’??32?32??圖1.4深度卷積神經(jīng)網(wǎng)絡(luò)聲學(xué)模型示意圖??Transformer?神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)是?Google?于?2017?年提出的(Vaswani?et?al.,2017),??最早被用于機器翻譯任務(wù),后來被推廣到語音識別領(lǐng)域,迅速成為主流的聲學(xué)??模型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)之一。圖1.5給出了?Transformer結(jié)構(gòu)的示意圖,其核心思想在??于使用了一種自注意力(self-attention)機制代替卷積或者遞歸操作來實現(xiàn)對長時??上下文的建模,通過不斷疊加前饋層和self-attention層,不斷的增
【相似文獻】
相關(guān)期刊論文 前10條
1 姚明海;方存亮;;多層校正的無監(jiān)督領(lǐng)域自適應(yīng)方法[J];中國圖象圖形學(xué)報;2019年09期
2 王晶瑩;王作英;;利用隱空間投影算法的模型自適應(yīng)方法[J];清華大學(xué)學(xué)報(自然科學(xué)版);2007年07期
3 尹繼豪;姜志國;樊孝忠;;一種基于N元語法分布的語言模型自適應(yīng)方法[J];北京航空航天大學(xué)學(xué)報;2008年11期
4 蔡俊亞;;一種基于服務(wù)構(gòu)件模型的自適應(yīng)方法[J];湖南師范大學(xué)自然科學(xué)學(xué)報;2011年01期
5 王鏞根,張學(xué)峰;故障診斷的神經(jīng)網(wǎng)絡(luò)多重模型自適應(yīng)方法[J];航空動力學(xué)報;1997年02期
6 高立群,王景才;參考模型自適應(yīng)方法在主從對策中的應(yīng)用[J];東北工學(xué)院學(xué)報;1991年03期
7 趙文倉;袁立鎮(zhèn);徐長凱;;基于鑒別模型和對抗損失的無監(jiān)督域自適應(yīng)方法[J];高技術(shù)通訊;2020年07期
8 丁亮;李穎;何彥青;;統(tǒng)計機器翻譯領(lǐng)域自適應(yīng)方法比較研究[J];情報工程;2016年04期
9 吳根清,鄭方,金凌,吳文虎;一種在線遞增式語言模型自適應(yīng)方法[J];中文信息學(xué)報;2002年01期
10 魏紹凱,鄺自強,張樂年,鄭叔芳;由離散點繪制葉型高次曲線的自適應(yīng)方法[J];汽輪機技術(shù);1992年06期
相關(guān)博士學(xué)位論文 前10條
1 潘嘉;深度學(xué)習(xí)語音識別系統(tǒng)中的自適應(yīng)方法研究[D];中國科學(xué)技術(shù)大學(xué);2020年
2 彭彪;動邊界非定常流動網(wǎng)格自適應(yīng)模擬的研究[D];南京航空航天大學(xué);2018年
3 張亮;自適應(yīng)離散縱標屏蔽計算方法研究[D];華北電力大學(xué)(北京);2019年
4 盛華山;求解動力學(xué)方程的時間遞進高效方法—算法設(shè)計、分析與應(yīng)用[D];上海交通大學(xué);2016年
5 劉建偉;肌電控制接口的自適應(yīng)方法研究[D];上海交通大學(xué);2016年
6 孫強;自適應(yīng)間斷Galerkin有限元方法的可壓縮流數(shù)值模擬[D];南京航空航天大學(xué);2017年
7 唐謙;基于點插值無網(wǎng)格法的高效高精度自適應(yīng)分析研究[D];湖南大學(xué);2014年
8 張斌;基于目標導(dǎo)向的角度自適應(yīng)射線效應(yīng)消除方法研究[D];華北電力大學(xué)(北京);2018年
9 蘇榮鋒;多重影響因素下的語音識別系統(tǒng)研究[D];中國科學(xué)院大學(xué)(中國科學(xué)院深圳先進技術(shù)研究院);2020年
10 王露笛;心律失常與心力衰竭智能診斷方法研究[D];北京郵電大學(xué);2019年
相關(guān)碩士學(xué)位論文 前10條
1 方斌;語音識別中自適應(yīng)方法的研究[D];中國科學(xué)院研究生院(計算技術(shù)研究所);1997年
2 梁奇;語言模型自適應(yīng)方法在嵌入式系統(tǒng)中應(yīng)用的研究[D];清華大學(xué);2006年
3 畢朝陽;基于特征選擇的領(lǐng)域自適應(yīng)方法研究[D];華南理工大學(xué);2019年
4 張茲鈺;開采沉陷FDM模擬四面體網(wǎng)格幾何自適應(yīng)方法研究及應(yīng)用[D];中國地質(zhì)大學(xué)(北京);2019年
5 張碧秋;基于分層卷積特征的核相關(guān)濾波目標跟蹤方法研究[D];南京郵電大學(xué);2019年
6 譚虹;基于情景智能的工業(yè)互聯(lián)網(wǎng)認知服務(wù)自適應(yīng)研究[D];南京郵電大學(xué);2019年
7 袁安安;基于壞單元指示子的p和hp自適應(yīng)RKDG方法[D];南京郵電大學(xué);2018年
8 楊凱;三維歐拉流動的基于伴隨方程的網(wǎng)格自適應(yīng)模擬[D];南京航空航天大學(xué);2018年
9 何柳;基于策略的自適應(yīng)軟件運行時不確定性處理機制研究[D];西安電子科技大學(xué);2018年
10 劉陽;不連續(xù)伽遼金時域有限元p自適應(yīng)電磁分析技術(shù)研究[D];南京理工大學(xué);2018年
本文編號:2891335
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/2891335.html