端到端的語(yǔ)音識(shí)別研究

發(fā)布時(shí)間：2020-11-15 13:33

　　近年來(lái),隨著計(jì)算力和數(shù)據(jù)量的提升,深度學(xué)習(xí)成為了語(yǔ)音識(shí)別領(lǐng)域最火熱的方法之一。在深度學(xué)習(xí)的影響下,基于隱馬爾可夫模型和神經(jīng)網(wǎng)絡(luò)(Hidden Markov Model-Depp Neural Network,HMM-DNN)方法的混合語(yǔ)音識(shí)別系統(tǒng)在識(shí)別準(zhǔn)確率上有了顯著的提升,這主要得益于大數(shù)據(jù)驅(qū)動(dòng)下深層神經(jīng)網(wǎng)絡(luò)對(duì)聲學(xué)狀態(tài)后驗(yàn)概率的強(qiáng)大建模能力。盡管如此,混合系統(tǒng)仍然存在著訓(xùn)練流程復(fù)雜,解碼空間大等問(wèn)題。為了簡(jiǎn)化整個(gè)語(yǔ)音識(shí)別的過(guò)程,端到端的語(yǔ)音識(shí)別方法橫空出世。其方法主要可以分為三類(lèi):連續(xù)時(shí)間分類(lèi)模型(Connectionist Temporal Classification,CTC),循環(huán)神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換機(jī)模型(Recurrent Neural Network-Transducer,RNN-Transducer)和基于注意力機(jī)制的序列模型(Attention-based End-to-End Model,A-E2E)。端到端的模型在簡(jiǎn)化語(yǔ)音識(shí)別的流程的同時(shí),在某些任務(wù)上已經(jīng)能夠與混合系統(tǒng)媲美。但是該方法仍然存在很多問(wèn)題。對(duì)此,本文選取兩種典型的端到端模型進(jìn)行了深入的研究,具體如下:1.研究了基于CTC模型的端到端語(yǔ)音識(shí)別方法,并提出了一種符合人耳聽(tīng)覺(jué)特性的全梅爾頻譜特征。在基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別系統(tǒng)中,語(yǔ)音的前端處理網(wǎng)絡(luò)結(jié)構(gòu)一直未有定論。本文通過(guò)對(duì)比不同語(yǔ)音輸入特征的優(yōu)勢(shì)提出了一種新的全梅爾頻譜特征,同時(shí)將該特征與卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)結(jié)合作為語(yǔ)音的前端處理網(wǎng)絡(luò)得到了理想的效果。進(jìn)一步,本文探究了淺層CNN在CTC框架中的作用及其卷積核參數(shù)的設(shè)計(jì)原則。2.研究了基于注意力機(jī)制的序列模型,實(shí)現(xiàn)了聽(tīng),注意,拼寫(xiě)(Listen Attend and Spell,LAS)的語(yǔ)音識(shí)別框架,并提出了一種新的加入詞級(jí)別語(yǔ)言模型解碼的方法。通常情況下,LAS模型存在訓(xùn)練難收斂,解碼效果差等問(wèn)題,本文實(shí)現(xiàn)了基于LAS的端到端語(yǔ)音識(shí)別系統(tǒng),并在該系統(tǒng)下對(duì)LAS模型進(jìn)行優(yōu)化,包括訓(xùn)練和解碼的技巧。同時(shí)LAS模型的外部語(yǔ)言模型融合問(wèn)題也是一大難點(diǎn),本文針對(duì)LAS模型解碼難以加入詞級(jí)別語(yǔ)言模型的問(wèn)題提出了一種新的解決思路。3、研究了LAS模型中區(qū)分性訓(xùn)練的問(wèn)題,在LAS模型中提出了基于最大互信息準(zhǔn)則的區(qū)分性訓(xùn)練方法。與傳統(tǒng)語(yǔ)音識(shí)別方法一樣,為了能夠進(jìn)一步提升模型的識(shí)別能力,LAS的區(qū)分性訓(xùn)練是一個(gè)亟待解決的問(wèn)題。本文借鑒傳統(tǒng)語(yǔ)音識(shí)別中的方法,在LAS上實(shí)現(xiàn)了基于最小詞錯(cuò)率(Minimum Word Error Rate,MWER)的區(qū)分性訓(xùn)練方法,并提出了基于最大互信息(Maximum Mutual Information,MMI)的區(qū)分性訓(xùn)練方法。實(shí)驗(yàn)表明,MMI與MWER準(zhǔn)則相比于交叉熵準(zhǔn)則在識(shí)別率上均有提升。4、研究了 LAS模型的在線(xiàn)化問(wèn)題,提出了一種自適應(yīng)單調(diào)窗注意力機(jī)制(Adaptive Monotonic Chunkwise Attention,AMoChA)。標(biāo)準(zhǔn)的LAS模型往往不能滿(mǎn)足語(yǔ)音識(shí)別低延遲的要求,難以在線(xiàn)使用。本文提出了一種實(shí)現(xiàn)LAS模型流式的方法,在encoder端使用延時(shí)控制結(jié)構(gòu),在注意力部分提出了一種流式的注意力機(jī)制。最后在1000h搜狗中文聽(tīng)寫(xiě)數(shù)據(jù)集上,該方法降低了LAS模型的延遲,能夠?qū)崟r(shí)解碼,同時(shí)字錯(cuò)誤率相比離線(xiàn)LAS模型僅相差相對(duì)3.5%,在一個(gè)可以接受的范圍內(nèi)。綜上,本文對(duì)兩種端到端的語(yǔ)音識(shí)別方法(CTC和LAS)進(jìn)行了探究。對(duì)于LAS模型中存在的外部語(yǔ)言模型,區(qū)分性訓(xùn)練,在線(xiàn)化等問(wèn)題進(jìn)行了探討并嘗試解決,最后均取得不錯(cuò)的效果。
【學(xué)位單位】：北京郵電大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位年份】：2019
【中圖分類(lèi)】：TN912.34;TP18
【部分圖文】：

序列,語(yǔ)音識(shí)別系統(tǒng),聲學(xué)模,模型

２．１傳統(tǒng)的語(yǔ)音識(shí)別方法??本文將端到端方法出現(xiàn)之前的方法統(tǒng)稱(chēng)為傳統(tǒng)的語(yǔ)音識(shí)別方法。一個(gè)典??型的傳統(tǒng)語(yǔ)音識(shí)別流程如圖２－１所示。??Ｌ?」—ｍｍ—ｍｍ??｜?ｉ川練、???＾訓(xùn)練＿＿＿＿??［ＺＺ３－—ＥＺＩ］??圖２－１傳統(tǒng)語(yǔ)音識(shí)別系統(tǒng)組成??從圖中可以看出，傳統(tǒng)的語(yǔ)音識(shí)別系統(tǒng)中需要三個(gè)模型，分別為聲學(xué)模??型，語(yǔ)言模型和發(fā)音詞典模型。其中聲學(xué)模型需要通過(guò)語(yǔ)音與其轉(zhuǎn)寫(xiě)構(gòu)成的??數(shù)據(jù)對(duì)進(jìn)行訓(xùn)練得到，通常為ＨＭＭ－ＧＭＭ模型或者是ＨＭＭ－ＤＮＮ混合模??型。語(yǔ)言模型通過(guò)大量的文本數(shù)據(jù)訓(xùn)練得到，通常為ｎ－ｇｍｍ模型或者是ＲＮＮ??語(yǔ)言模型。發(fā)音詞典模型為音素到詞的映射規(guī)則，通常在語(yǔ)種確定的情況下，??其規(guī)則是確定的，比如在中文語(yǔ)音識(shí)別中，發(fā)音詞典就是從詞語(yǔ)到其帶調(diào)的??拼音之間的映射規(guī)則。??語(yǔ)音識(shí)別的過(guò)程之所以分為這些部分是由其任務(wù)決定的。假設(shè)輸入的語(yǔ)??音序列為Ｘ，輸出文本序列Ｗ，則該文本序列的后驗(yàn)概率為ｐ（ｗ｜ｘ）。通過(guò)貝葉??斯準(zhǔn)則

序列,映射網(wǎng)絡(luò),標(biāo)簽

白標(biāo)簽的作用，考慮輸出類(lèi)別中沒(méi)有空白標(biāo)簽的情況。在該情況下，會(huì)個(gè)很明顯的問(wèn)題：??第一個(gè)問(wèn)題是重復(fù)字符（疊詞）的問(wèn)題，假設(shè)沒(méi)有空白標(biāo)簽，映射Ｆ僅僅是單純的去除重復(fù)，那么將無(wú)法處理標(biāo)簽中有重復(fù)的情況。比如中的疊詞。加入空白之后，在疊詞之間出現(xiàn)ｂｌａｎｋ類(lèi)的話(huà)，在經(jīng)過(guò)Ｆ映后，序列中仍然會(huì)有疊詞的出現(xiàn)，從而避免了這一問(wèn)題。??第二個(gè)問(wèn)題是對(duì)齊問(wèn)題，網(wǎng)絡(luò)的輸出會(huì)得到連續(xù)的分類(lèi)輸出，這些的輸出往往沒(méi)有標(biāo)注。加入ｂｌａｎｋ之后能很好的將連續(xù)的分類(lèi)輸出與句別的標(biāo)簽進(jìn)行對(duì)應(yīng)，最后連續(xù)的分類(lèi)輸出的結(jié)果便是該句子級(jí)別標(biāo)簽的結(jié)果。??經(jīng)過(guò)逆向思維之后，就會(huì)明顯發(fā)現(xiàn)加入空白標(biāo)簽的作用，當(dāng)然也有不加入空白標(biāo)簽，然后更改了多到一的映射規(guī)則，同樣得到了不錯(cuò)的效果［但是目前主流的方法仍然需要增加空白標(biāo)簽來(lái)解決上述兩個(gè)問(wèn)題。??２．２．１．３前向后向算法??

計(jì)算圖,損失函數(shù),計(jì)算圖

?能夠同時(shí)考慮到聲學(xué)模型和語(yǔ)言模型的信息，解決了?ＣＴＣ中存在的輸出獨(dú)??立的假設(shè)。ＲＮＮ－Ｔ的結(jié)構(gòu)如圖２－３所示。??三維輸出??????????．．．．．＾??ｉ??文本標(biāo)簽?語(yǔ)音特征??圖２－３?ＲＮＮ－Ｔｒａｎｓｄｕｃｅｒ結(jié)構(gòu)示意圖，聲學(xué)模型ＲＮＮ為ＣＴＣ方法中的網(wǎng)絡(luò)部分??圖中的聯(lián)合網(wǎng)絡(luò)有多種方法Ｇｒａｖｅｓ采用最直接的維度擴(kuò)展相加方式，??假設(shè)聲學(xué)模型ＲＮＮ?（ＲＮＮ－ＡＭ）的輸出為／ｔｆｃ，表示ＲＮＮ－ＡＭ在時(shí)刻ｔ輸出類(lèi)??別ｋ的概率。語(yǔ)言模型ＲＮＮ?（ＲＮＮ－ＬＭ）的輸出為表示在第ｕ個(gè)字符出??輸出為類(lèi)別ｋ的概率。則聯(lián)合網(wǎng)絡(luò)的輸出為：??ｈ（ｋ，?ｔ，?ｕ）?＝?ｆｔｋ?＋?（２－２７）??輸出為一個(gè)三維的向量，其任意一個(gè)值表示在時(shí)刻ｔ且在位置ｕ輸出類(lèi)??別為ｋ的概率。因此ＲＮＮ－Ｔ的輸出與標(biāo)簽之間構(gòu)成的損失函數(shù)計(jì)算網(wǎng)絡(luò)發(fā)??生了變化。如圖２－４所示：??ｔ?ｆ?ｔ?－?ｔ??－Ｏ＾Ｑ＾Ｏ＾Ｏ＾Ｏ??ｒｓｊ?Ｔ?）￣Ｊ—？??］??以請(qǐng)魯?，?＾??１２?３?４??ｔ??圖２－４?ＲＮＮ－Ｔ損失函數(shù)計(jì)算圖［２１］??類(lèi)似于ＣＴＣ損失函數(shù)的計(jì)算使用前向后向算法。這里定義前向概率??ａ（ｔ，ｕ），表示在時(shí)間１－ｔ輸出字符１－ｕ的概率。圖中點(diǎn)（ｔ，ｕ）的前向累積概率。??從圖中可以得到輸出條件和遞歸公式：?
【相似文獻(xiàn)】

相關(guān)期刊論文前10條

1 桑亞超;李龍杰;袁傳青;霍慶磊;張樂(lè);;關(guān)于語(yǔ)音識(shí)別在空調(diào)上的應(yīng)用與改善[J];日用電器;2019年07期

2 向暉;;數(shù)字語(yǔ)音識(shí)別與合成[J];電子世界;2019年15期

3 周弘燁;;語(yǔ)音識(shí)別大揭秘:計(jì)算機(jī)如何處理聲音?[J];中國(guó)新通信;2019年04期

4 程建軍;胡立志;;關(guān)于深度學(xué)習(xí)的語(yǔ)音識(shí)別應(yīng)用研究[J];科技經(jīng)濟(jì)導(dǎo)刊;2019年12期

5 姜姝姝;;語(yǔ)音識(shí)別64年大突破[J];機(jī)器人產(chǎn)業(yè);2016年06期

6 吳俊宇;;語(yǔ)音識(shí)別為何“叫好不叫座”?[J];通信世界;2016年16期

7 徐鑫;;語(yǔ)音識(shí)別的未來(lái)之路[J];通信世界;2016年16期

8 張連仲;;帶著使命感出發(fā)[J];英語(yǔ)學(xué)習(xí);2017年01期

9 張凱;;榮威eRX5靜態(tài)體驗(yàn) “人性化”語(yǔ)音識(shí)別是亮點(diǎn)[J];新能源汽車(chē)新聞;2017年01期

10 劉寶華;;語(yǔ)音識(shí)別老祖宗[J];經(jīng)營(yíng)者(汽車(chē)商業(yè)評(píng)論);2017年03期

相關(guān)博士學(xué)位論文前10條

1 屠彥輝;復(fù)雜場(chǎng)景下基于深度學(xué)習(xí)的魯棒性語(yǔ)音識(shí)別的研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2019年

2 賀蘇寧;基于語(yǔ)音識(shí)別基元聲學(xué)整體結(jié)構(gòu)特征的識(shí)別模型研究[D];電子科技大學(xué);2005年

3 陳立偉;基于HMM和ANN的漢語(yǔ)語(yǔ)音識(shí)別[D];哈爾濱工程大學(xué);2005年

4 徐金甫;基于特征提取的抗噪聲語(yǔ)音識(shí)別研究[D];華南理工大學(xué);2000年

5 寧更新;抗噪聲語(yǔ)音識(shí)別新技術(shù)的研究[D];華南理工大學(xué);2006年

6 沈海峰;語(yǔ)音識(shí)別中的環(huán)境補(bǔ)償研究[D];北京郵電大學(xué);2006年

7 李小兵;高效簡(jiǎn)約的語(yǔ)音識(shí)別聲學(xué)模型[D];中國(guó)科學(xué)技術(shù)大學(xué);2006年

8 孫暐;聽(tīng)覺(jué)特性與魯棒語(yǔ)音識(shí)別算法研究[D];東南大學(xué);2006年

9 雷建軍;噪聲魯棒語(yǔ)音識(shí)別中若干問(wèn)題的研究[D];北京郵電大學(xué);2007年

10 孫成立;語(yǔ)音關(guān)鍵詞識(shí)別技術(shù)的研究[D];北京郵電大學(xué);2008年

相關(guān)碩士學(xué)位論文前10條

1 張洪;基于Sphinx語(yǔ)音識(shí)別的智能家庭管家機(jī)器人的設(shè)計(jì)[D];武漢工程大學(xué);2018年

2 易雪蓉;電力系統(tǒng)下語(yǔ)音識(shí)別的研究與應(yīng)用[D];武漢工程大學(xué);2018年

3 金丹彤;基于表面肌電信號(hào)的無(wú)聲語(yǔ)音識(shí)別算法研究[D];浙江大學(xué);2019年

4 史舜威;多特征智能批改模型的研究和應(yīng)用[D];北京郵電大學(xué);2019年

5 黃學(xué)峰;面向電信詐騙的反詐平臺(tái)技術(shù)研究[D];北京郵電大學(xué);2019年

6 陳洪恒;基于深度學(xué)習(xí)的語(yǔ)音識(shí)別方法研究[D];哈爾濱理工大學(xué);2019年

7 李海強(qiáng);基于HTK的漢語(yǔ)離散和連續(xù)數(shù)字語(yǔ)音識(shí)別研究[D];哈爾濱理工大學(xué);2019年

8 劉娟宏;基于深度卷積神經(jīng)網(wǎng)絡(luò)的中文語(yǔ)音識(shí)別[D];太原理工大學(xué);2019年

9 史燕燕;面向語(yǔ)音識(shí)別的抗噪聽(tīng)覺(jué)特征提取及優(yōu)化[D];太原理工大學(xué);2019年

10 婁英丹;增強(qiáng)與自適應(yīng)聯(lián)合的遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別算法研究[D];太原理工大學(xué);2019年

本文編號(hào)：2884809

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/xinxigongchenglunwen/2884809.html

上一篇：高速鐵路LTE-R系統(tǒng)服務(wù)質(zhì)量測(cè)試與評(píng)估
下一篇：面向成本優(yōu)化的耦合式視頻分發(fā)方法研究

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

端到端的語(yǔ)音識(shí)別研究