端到端的語音識別研究
【學(xué)位單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2019
【中圖分類】:TN912.34;TP18
【部分圖文】:
2.1傳統(tǒng)的語音識別方法??本文將端到端方法出現(xiàn)之前的方法統(tǒng)稱為傳統(tǒng)的語音識別方法。一個典??型的傳統(tǒng)語音識別流程如圖2-1所示。??L?」—mm—mm??|?i川練、???^訓(xùn)練____??[ZZ3-—EZI]??圖2-1傳統(tǒng)語音識別系統(tǒng)組成??從圖中可以看出,傳統(tǒng)的語音識別系統(tǒng)中需要三個模型,分別為聲學(xué)模??型,語言模型和發(fā)音詞典模型。其中聲學(xué)模型需要通過語音與其轉(zhuǎn)寫構(gòu)成的??數(shù)據(jù)對進(jìn)行訓(xùn)練得到,通常為HMM-GMM模型或者是HMM-DNN混合模??型。語言模型通過大量的文本數(shù)據(jù)訓(xùn)練得到,通常為n-gmm模型或者是RNN??語言模型。發(fā)音詞典模型為音素到詞的映射規(guī)則,通常在語種確定的情況下,??其規(guī)則是確定的,比如在中文語音識別中,發(fā)音詞典就是從詞語到其帶調(diào)的??拼音之間的映射規(guī)則。??語音識別的過程之所以分為這些部分是由其任務(wù)決定的。假設(shè)輸入的語??音序列為X,輸出文本序列W,則該文本序列的后驗(yàn)概率為p(w|x)。通過貝葉??斯準(zhǔn)則
白標(biāo)簽的作用,考慮輸出類別中沒有空白標(biāo)簽的情況。在該情況下,會個很明顯的問題:??第一個問題是重復(fù)字符(疊詞)的問題,假設(shè)沒有空白標(biāo)簽,映射F僅僅是單純的去除重復(fù),那么將無法處理標(biāo)簽中有重復(fù)的情況。比如中的疊詞。加入空白之后,在疊詞之間出現(xiàn)blank類的話,在經(jīng)過F映后,序列中仍然會有疊詞的出現(xiàn),從而避免了這一問題。??第二個問題是對齊問題,網(wǎng)絡(luò)的輸出會得到連續(xù)的分類輸出,這些的輸出往往沒有標(biāo)注。加入blank之后能很好的將連續(xù)的分類輸出與句別的標(biāo)簽進(jìn)行對應(yīng),最后連續(xù)的分類輸出的結(jié)果便是該句子級別標(biāo)簽的結(jié)果。??經(jīng)過逆向思維之后,就會明顯發(fā)現(xiàn)加入空白標(biāo)簽的作用,當(dāng)然也有不加入空白標(biāo)簽,然后更改了多到一的映射規(guī)則,同樣得到了不錯的效果[但是目前主流的方法仍然需要增加空白標(biāo)簽來解決上述兩個問題。??2.2.1.3前向后向算法??
?能夠同時考慮到聲學(xué)模型和語言模型的信息,解決了?CTC中存在的輸出獨(dú)??立的假設(shè)。RNN-T的結(jié)構(gòu)如圖2-3所示。??三維輸出??????????.....^??i??文本標(biāo)簽?語音特征??圖2-3?RNN-Transducer結(jié)構(gòu)示意圖,聲學(xué)模型RNN為CTC方法中的網(wǎng)絡(luò)部分??圖中的聯(lián)合網(wǎng)絡(luò)有多種方法Graves采用最直接的維度擴(kuò)展相加方式,??假設(shè)聲學(xué)模型RNN?(RNN-AM)的輸出為/tfc,表示RNN-AM在時刻t輸出類??別k的概率。語言模型RNN?(RNN-LM)的輸出為表示在第u個字符出??輸出為類別k的概率。則聯(lián)合網(wǎng)絡(luò)的輸出為:??h(k,?t,?u)?=?ftk?+?(2-27)??輸出為一個三維的向量,其任意一個值表示在時刻t且在位置u輸出類??別為k的概率。因此RNN-T的輸出與標(biāo)簽之間構(gòu)成的損失函數(shù)計算網(wǎng)絡(luò)發(fā)??生了變化。如圖2-4所示:??t?f?t?-?t??-O^Q^O^O^O??rsj?T?) ̄J—???]??以請魯?,?^??12?3?4??t??圖2-4?RNN-T損失函數(shù)計算圖[21]??類似于CTC損失函數(shù)的計算使用前向后向算法。這里定義前向概率??a(t,u),表示在時間1-t輸出字符1-u的概率。圖中點(diǎn)(t,u)的前向累積概率。??從圖中可以得到輸出條件和遞歸公式:?
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 桑亞超;李龍杰;袁傳青;霍慶磊;張樂;;關(guān)于語音識別在空調(diào)上的應(yīng)用與改善[J];日用電器;2019年07期
2 向暉;;數(shù)字語音識別與合成[J];電子世界;2019年15期
3 周弘燁;;語音識別大揭秘:計算機(jī)如何處理聲音?[J];中國新通信;2019年04期
4 程建軍;胡立志;;關(guān)于深度學(xué)習(xí)的語音識別應(yīng)用研究[J];科技經(jīng)濟(jì)導(dǎo)刊;2019年12期
5 姜姝姝;;語音識別64年大突破[J];機(jī)器人產(chǎn)業(yè);2016年06期
6 吳俊宇;;語音識別為何“叫好不叫座”?[J];通信世界;2016年16期
7 徐鑫;;語音識別的未來之路[J];通信世界;2016年16期
8 張連仲;;帶著使命感出發(fā)[J];英語學(xué)習(xí);2017年01期
9 張凱;;榮威eRX5靜態(tài)體驗(yàn) “人性化”語音識別是亮點(diǎn)[J];新能源汽車新聞;2017年01期
10 劉寶華;;語音識別老祖宗[J];經(jīng)營者(汽車商業(yè)評論);2017年03期
相關(guān)博士學(xué)位論文 前10條
1 屠彥輝;復(fù)雜場景下基于深度學(xué)習(xí)的魯棒性語音識別的研究[D];中國科學(xué)技術(shù)大學(xué);2019年
2 賀蘇寧;基于語音識別基元聲學(xué)整體結(jié)構(gòu)特征的識別模型研究[D];電子科技大學(xué);2005年
3 陳立偉;基于HMM和ANN的漢語語音識別[D];哈爾濱工程大學(xué);2005年
4 徐金甫;基于特征提取的抗噪聲語音識別研究[D];華南理工大學(xué);2000年
5 寧更新;抗噪聲語音識別新技術(shù)的研究[D];華南理工大學(xué);2006年
6 沈海峰;語音識別中的環(huán)境補(bǔ)償研究[D];北京郵電大學(xué);2006年
7 李小兵;高效簡約的語音識別聲學(xué)模型[D];中國科學(xué)技術(shù)大學(xué);2006年
8 孫暐;聽覺特性與魯棒語音識別算法研究[D];東南大學(xué);2006年
9 雷建軍;噪聲魯棒語音識別中若干問題的研究[D];北京郵電大學(xué);2007年
10 孫成立;語音關(guān)鍵詞識別技術(shù)的研究[D];北京郵電大學(xué);2008年
相關(guān)碩士學(xué)位論文 前10條
1 張洪;基于Sphinx語音識別的智能家庭管家機(jī)器人的設(shè)計[D];武漢工程大學(xué);2018年
2 易雪蓉;電力系統(tǒng)下語音識別的研究與應(yīng)用[D];武漢工程大學(xué);2018年
3 金丹彤;基于表面肌電信號的無聲語音識別算法研究[D];浙江大學(xué);2019年
4 史舜威;多特征智能批改模型的研究和應(yīng)用[D];北京郵電大學(xué);2019年
5 黃學(xué)峰;面向電信詐騙的反詐平臺技術(shù)研究[D];北京郵電大學(xué);2019年
6 陳洪恒;基于深度學(xué)習(xí)的語音識別方法研究[D];哈爾濱理工大學(xué);2019年
7 李海強(qiáng);基于HTK的漢語離散和連續(xù)數(shù)字語音識別研究[D];哈爾濱理工大學(xué);2019年
8 劉娟宏;基于深度卷積神經(jīng)網(wǎng)絡(luò)的中文語音識別[D];太原理工大學(xué);2019年
9 史燕燕;面向語音識別的抗噪聽覺特征提取及優(yōu)化[D];太原理工大學(xué);2019年
10 婁英丹;增強(qiáng)與自適應(yīng)聯(lián)合的遠(yuǎn)場語音識別算法研究[D];太原理工大學(xué);2019年
本文編號:2884809
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/2884809.html