天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 信息工程論文 >

端到端的語音識別研究

發(fā)布時間:2020-11-15 13:33
   近年來,隨著計算力和數(shù)據(jù)量的提升,深度學(xué)習(xí)成為了語音識別領(lǐng)域最火熱的方法之一。在深度學(xué)習(xí)的影響下,基于隱馬爾可夫模型和神經(jīng)網(wǎng)絡(luò)(Hidden Markov Model-Depp Neural Network,HMM-DNN)方法的混合語音識別系統(tǒng)在識別準(zhǔn)確率上有了顯著的提升,這主要得益于大數(shù)據(jù)驅(qū)動下深層神經(jīng)網(wǎng)絡(luò)對聲學(xué)狀態(tài)后驗(yàn)概率的強(qiáng)大建模能力。盡管如此,混合系統(tǒng)仍然存在著訓(xùn)練流程復(fù)雜,解碼空間大等問題。為了簡化整個語音識別的過程,端到端的語音識別方法橫空出世。其方法主要可以分為三類:連續(xù)時間分類模型(Connectionist Temporal Classification,CTC),循環(huán)神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換機(jī)模型(Recurrent Neural Network-Transducer,RNN-Transducer)和基于注意力機(jī)制的序列模型(Attention-based End-to-End Model,A-E2E)。端到端的模型在簡化語音識別的流程的同時,在某些任務(wù)上已經(jīng)能夠與混合系統(tǒng)媲美。但是該方法仍然存在很多問題。對此,本文選取兩種典型的端到端模型進(jìn)行了深入的研究,具體如下:1.研究了基于CTC模型的端到端語音識別方法,并提出了一種符合人耳聽覺特性的全梅爾頻譜特征。在基于神經(jīng)網(wǎng)絡(luò)的語音識別系統(tǒng)中,語音的前端處理網(wǎng)絡(luò)結(jié)構(gòu)一直未有定論。本文通過對比不同語音輸入特征的優(yōu)勢提出了一種新的全梅爾頻譜特征,同時將該特征與卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)結(jié)合作為語音的前端處理網(wǎng)絡(luò)得到了理想的效果。進(jìn)一步,本文探究了淺層CNN在CTC框架中的作用及其卷積核參數(shù)的設(shè)計原則。2.研究了基于注意力機(jī)制的序列模型,實(shí)現(xiàn)了聽,注意,拼寫(Listen Attend and Spell,LAS)的語音識別框架,并提出了一種新的加入詞級別語言模型解碼的方法。通常情況下,LAS模型存在訓(xùn)練難收斂,解碼效果差等問題,本文實(shí)現(xiàn)了基于LAS的端到端語音識別系統(tǒng),并在該系統(tǒng)下對LAS模型進(jìn)行優(yōu)化,包括訓(xùn)練和解碼的技巧。同時LAS模型的外部語言模型融合問題也是一大難點(diǎn),本文針對LAS模型解碼難以加入詞級別語言模型的問題提出了一種新的解決思路。3、研究了LAS模型中區(qū)分性訓(xùn)練的問題,在LAS模型中提出了基于最大互信息準(zhǔn)則的區(qū)分性訓(xùn)練方法。與傳統(tǒng)語音識別方法一樣,為了能夠進(jìn)一步提升模型的識別能力,LAS的區(qū)分性訓(xùn)練是一個亟待解決的問題。本文借鑒傳統(tǒng)語音識別中的方法,在LAS上實(shí)現(xiàn)了基于最小詞錯率(Minimum Word Error Rate,MWER)的區(qū)分性訓(xùn)練方法,并提出了基于最大互信息(Maximum Mutual Information,MMI)的區(qū)分性訓(xùn)練方法。實(shí)驗(yàn)表明,MMI與MWER準(zhǔn)則相比于交叉熵準(zhǔn)則在識別率上均有提升。4、研究了 LAS模型的在線化問題,提出了一種自適應(yīng)單調(diào)窗注意力機(jī)制(Adaptive Monotonic Chunkwise Attention,AMoChA)。標(biāo)準(zhǔn)的LAS模型往往不能滿足語音識別低延遲的要求,難以在線使用。本文提出了一種實(shí)現(xiàn)LAS模型流式的方法,在encoder端使用延時控制結(jié)構(gòu),在注意力部分提出了一種流式的注意力機(jī)制。最后在1000h搜狗中文聽寫數(shù)據(jù)集上,該方法降低了LAS模型的延遲,能夠?qū)崟r解碼,同時字錯誤率相比離線LAS模型僅相差相對3.5%,在一個可以接受的范圍內(nèi)。綜上,本文對兩種端到端的語音識別方法(CTC和LAS)進(jìn)行了探究。對于LAS模型中存在的外部語言模型,區(qū)分性訓(xùn)練,在線化等問題進(jìn)行了探討并嘗試解決,最后均取得不錯的效果。
【學(xué)位單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2019
【中圖分類】:TN912.34;TP18
【部分圖文】:

序列,語音識別系統(tǒng),聲學(xué)模,模型


2.1傳統(tǒng)的語音識別方法??本文將端到端方法出現(xiàn)之前的方法統(tǒng)稱為傳統(tǒng)的語音識別方法。一個典??型的傳統(tǒng)語音識別流程如圖2-1所示。??L?」—mm—mm??|?i川練、???^訓(xùn)練____??[ZZ3-—EZI]??圖2-1傳統(tǒng)語音識別系統(tǒng)組成??從圖中可以看出,傳統(tǒng)的語音識別系統(tǒng)中需要三個模型,分別為聲學(xué)模??型,語言模型和發(fā)音詞典模型。其中聲學(xué)模型需要通過語音與其轉(zhuǎn)寫構(gòu)成的??數(shù)據(jù)對進(jìn)行訓(xùn)練得到,通常為HMM-GMM模型或者是HMM-DNN混合模??型。語言模型通過大量的文本數(shù)據(jù)訓(xùn)練得到,通常為n-gmm模型或者是RNN??語言模型。發(fā)音詞典模型為音素到詞的映射規(guī)則,通常在語種確定的情況下,??其規(guī)則是確定的,比如在中文語音識別中,發(fā)音詞典就是從詞語到其帶調(diào)的??拼音之間的映射規(guī)則。??語音識別的過程之所以分為這些部分是由其任務(wù)決定的。假設(shè)輸入的語??音序列為X,輸出文本序列W,則該文本序列的后驗(yàn)概率為p(w|x)。通過貝葉??斯準(zhǔn)則

序列,映射網(wǎng)絡(luò),標(biāo)簽


白標(biāo)簽的作用,考慮輸出類別中沒有空白標(biāo)簽的情況。在該情況下,會個很明顯的問題:??第一個問題是重復(fù)字符(疊詞)的問題,假設(shè)沒有空白標(biāo)簽,映射F僅僅是單純的去除重復(fù),那么將無法處理標(biāo)簽中有重復(fù)的情況。比如中的疊詞。加入空白之后,在疊詞之間出現(xiàn)blank類的話,在經(jīng)過F映后,序列中仍然會有疊詞的出現(xiàn),從而避免了這一問題。??第二個問題是對齊問題,網(wǎng)絡(luò)的輸出會得到連續(xù)的分類輸出,這些的輸出往往沒有標(biāo)注。加入blank之后能很好的將連續(xù)的分類輸出與句別的標(biāo)簽進(jìn)行對應(yīng),最后連續(xù)的分類輸出的結(jié)果便是該句子級別標(biāo)簽的結(jié)果。??經(jīng)過逆向思維之后,就會明顯發(fā)現(xiàn)加入空白標(biāo)簽的作用,當(dāng)然也有不加入空白標(biāo)簽,然后更改了多到一的映射規(guī)則,同樣得到了不錯的效果[但是目前主流的方法仍然需要增加空白標(biāo)簽來解決上述兩個問題。??2.2.1.3前向后向算法??

計算圖,損失函數(shù),計算圖


?能夠同時考慮到聲學(xué)模型和語言模型的信息,解決了?CTC中存在的輸出獨(dú)??立的假設(shè)。RNN-T的結(jié)構(gòu)如圖2-3所示。??三維輸出??????????.....^??i??文本標(biāo)簽?語音特征??圖2-3?RNN-Transducer結(jié)構(gòu)示意圖,聲學(xué)模型RNN為CTC方法中的網(wǎng)絡(luò)部分??圖中的聯(lián)合網(wǎng)絡(luò)有多種方法Graves采用最直接的維度擴(kuò)展相加方式,??假設(shè)聲學(xué)模型RNN?(RNN-AM)的輸出為/tfc,表示RNN-AM在時刻t輸出類??別k的概率。語言模型RNN?(RNN-LM)的輸出為表示在第u個字符出??輸出為類別k的概率。則聯(lián)合網(wǎng)絡(luò)的輸出為:??h(k,?t,?u)?=?ftk?+?(2-27)??輸出為一個三維的向量,其任意一個值表示在時刻t且在位置u輸出類??別為k的概率。因此RNN-T的輸出與標(biāo)簽之間構(gòu)成的損失函數(shù)計算網(wǎng)絡(luò)發(fā)??生了變化。如圖2-4所示:??t?f?t?-?t??-O^Q^O^O^O??rsj?T?) ̄J—???]??以請魯?,?^??12?3?4??t??圖2-4?RNN-T損失函數(shù)計算圖[21]??類似于CTC損失函數(shù)的計算使用前向后向算法。這里定義前向概率??a(t,u),表示在時間1-t輸出字符1-u的概率。圖中點(diǎn)(t,u)的前向累積概率。??從圖中可以得到輸出條件和遞歸公式:?
【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 桑亞超;李龍杰;袁傳青;霍慶磊;張樂;;關(guān)于語音識別在空調(diào)上的應(yīng)用與改善[J];日用電器;2019年07期

2 向暉;;數(shù)字語音識別與合成[J];電子世界;2019年15期

3 周弘燁;;語音識別大揭秘:計算機(jī)如何處理聲音?[J];中國新通信;2019年04期

4 程建軍;胡立志;;關(guān)于深度學(xué)習(xí)的語音識別應(yīng)用研究[J];科技經(jīng)濟(jì)導(dǎo)刊;2019年12期

5 姜姝姝;;語音識別64年大突破[J];機(jī)器人產(chǎn)業(yè);2016年06期

6 吳俊宇;;語音識別為何“叫好不叫座”?[J];通信世界;2016年16期

7 徐鑫;;語音識別的未來之路[J];通信世界;2016年16期

8 張連仲;;帶著使命感出發(fā)[J];英語學(xué)習(xí);2017年01期

9 張凱;;榮威eRX5靜態(tài)體驗(yàn) “人性化”語音識別是亮點(diǎn)[J];新能源汽車新聞;2017年01期

10 劉寶華;;語音識別老祖宗[J];經(jīng)營者(汽車商業(yè)評論);2017年03期


相關(guān)博士學(xué)位論文 前10條

1 屠彥輝;復(fù)雜場景下基于深度學(xué)習(xí)的魯棒性語音識別的研究[D];中國科學(xué)技術(shù)大學(xué);2019年

2 賀蘇寧;基于語音識別基元聲學(xué)整體結(jié)構(gòu)特征的識別模型研究[D];電子科技大學(xué);2005年

3 陳立偉;基于HMM和ANN的漢語語音識別[D];哈爾濱工程大學(xué);2005年

4 徐金甫;基于特征提取的抗噪聲語音識別研究[D];華南理工大學(xué);2000年

5 寧更新;抗噪聲語音識別新技術(shù)的研究[D];華南理工大學(xué);2006年

6 沈海峰;語音識別中的環(huán)境補(bǔ)償研究[D];北京郵電大學(xué);2006年

7 李小兵;高效簡約的語音識別聲學(xué)模型[D];中國科學(xué)技術(shù)大學(xué);2006年

8 孫暐;聽覺特性與魯棒語音識別算法研究[D];東南大學(xué);2006年

9 雷建軍;噪聲魯棒語音識別中若干問題的研究[D];北京郵電大學(xué);2007年

10 孫成立;語音關(guān)鍵詞識別技術(shù)的研究[D];北京郵電大學(xué);2008年


相關(guān)碩士學(xué)位論文 前10條

1 張洪;基于Sphinx語音識別的智能家庭管家機(jī)器人的設(shè)計[D];武漢工程大學(xué);2018年

2 易雪蓉;電力系統(tǒng)下語音識別的研究與應(yīng)用[D];武漢工程大學(xué);2018年

3 金丹彤;基于表面肌電信號的無聲語音識別算法研究[D];浙江大學(xué);2019年

4 史舜威;多特征智能批改模型的研究和應(yīng)用[D];北京郵電大學(xué);2019年

5 黃學(xué)峰;面向電信詐騙的反詐平臺技術(shù)研究[D];北京郵電大學(xué);2019年

6 陳洪恒;基于深度學(xué)習(xí)的語音識別方法研究[D];哈爾濱理工大學(xué);2019年

7 李海強(qiáng);基于HTK的漢語離散和連續(xù)數(shù)字語音識別研究[D];哈爾濱理工大學(xué);2019年

8 劉娟宏;基于深度卷積神經(jīng)網(wǎng)絡(luò)的中文語音識別[D];太原理工大學(xué);2019年

9 史燕燕;面向語音識別的抗噪聽覺特征提取及優(yōu)化[D];太原理工大學(xué);2019年

10 婁英丹;增強(qiáng)與自適應(yīng)聯(lián)合的遠(yuǎn)場語音識別算法研究[D];太原理工大學(xué);2019年



本文編號:2884809

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/2884809.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶f06ab***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com