基于BPE和Transformer的漢語語音識別技術(shù)研究
發(fā)布時間:2021-07-20 06:10
語音識別是實現(xiàn)人機語音交互的前提條件,正受到研究者越來越多的關(guān)注;诼(lián)結(jié)主義時序分類(Connectionist Temporal Classification,CTC)的端到端聲學模型建模技術(shù)成為主流方法之一,但選擇用于CTC預(yù)測的基本輸出單元是一個設(shè)計難題。識別單元的選擇一般是基于語音學知識的,但是也可以通過數(shù)據(jù)驅(qū)動的方式來產(chǎn)生,使用后者所確定的單元可能在語音學上也許沒有什么明確的意義,但也可能達到很好的性能。此外,語音識別系統(tǒng)中往往還包括語言模型,在傳統(tǒng)建模方式中常采用n-gram語言模型。隨著深度學習的發(fā)展,找到優(yōu)化的策略或網(wǎng)絡(luò)結(jié)構(gòu)對語言模型進行改進也頗具研究價值。在此背景下,本文分別對自動語音識別系統(tǒng)中的聲學模型建模技術(shù)和語言模型建模技術(shù)進行探索,一方面結(jié)合CTC理論提出新的建模單元集合,探究新的語言模型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),提升語音識別的整體性能。首先,本文利用字節(jié)對編碼(Byte Pair Encoding,BPE)算法的思想對聲學模型進行改進,通過為其選擇更合適的識別單元來提升語音識別性能。CTC聲學模型可以選擇大于音素的輸出單元,比如聲韻母和音節(jié)等,而且不用對輸入語音信號的...
【文章來源】:哈爾濱工業(yè)大學黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:62 頁
【學位級別】:碩士
【部分圖文】:
語音識別系統(tǒng)基本框架[9]
入CTC之后,本文語音識別系統(tǒng)為圖2-1所示。圖2-1語音識別系統(tǒng)結(jié)構(gòu)CTC引入到聲學模型建模中,不僅解決了訓練模型時需要目標標簽與輸入語音信號的每一幀對齊的問題,簡化識別系統(tǒng)結(jié)構(gòu),而且還得以在識別單元上選擇大于音素的單元,比如音節(jié)和漢字。本章首先介紹聲學模型中所用到的CTC原理及模型訓練中涉及到的計算,接著使用DCNN結(jié)構(gòu)網(wǎng)絡(luò)結(jié)合CTC技術(shù),搭建基于無調(diào)音節(jié)識別單元集合的聲學模型,同時,直接以文字為輸出單元進行建模,作為后續(xù)語言模型的參照。語言模型部分,搭建傳統(tǒng)的bigram語言模型
哈爾濱工業(yè)大學工學碩士學位論文圖2-3 CTC聲學模型示意圖具體流程如下:(1)特征提取。讀取語音信號,構(gòu)造漢明窗,對語音段分幀(幀長25ms,幀移10ms),對分幀加窗后的語音段進行快速傅立葉變換(Fast Fourier Transformation,FFT),將時域信息轉(zhuǎn)換到頻域上去,轉(zhuǎn)換為神經(jīng)網(wǎng)絡(luò)需要的二維頻譜圖像信號,即語譜圖。過程如圖2-4所示。其中,聲學特征使用FFT取絕對值之后的前200個數(shù)據(jù)點,即輸入特征幀為200維向量,這樣做使語音段頻帶切割和滑動得更稠密,捕捉了更多細節(jié)特征。(2)聲學模型;贙eras和TensorFlow框架
【參考文獻】:
期刊論文
[1]基于詞片的語言模型及在漢語語音檢索中的應(yīng)用[J]. 鄭鐵然,韓紀慶,李海洋. 通信學報. 2009(03)
[2]在漢語語音識別中應(yīng)用聲調(diào)信息的研究[J]. 喬春雷,吳及,王作英. 計算機工程與應(yīng)用. 2002(12)
[3]漢語大詞匯量連續(xù)語音識別系統(tǒng)研究進展[J]. 劉加. 電子學報. 2000(01)
[4]漢語連續(xù)語音識別中上下文相關(guān)的識別單元(三音子)的研究[J]. 趙慶衛(wèi),王作英,陸大. 電子學報. 1999(06)
本文編號:3292295
【文章來源】:哈爾濱工業(yè)大學黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:62 頁
【學位級別】:碩士
【部分圖文】:
語音識別系統(tǒng)基本框架[9]
入CTC之后,本文語音識別系統(tǒng)為圖2-1所示。圖2-1語音識別系統(tǒng)結(jié)構(gòu)CTC引入到聲學模型建模中,不僅解決了訓練模型時需要目標標簽與輸入語音信號的每一幀對齊的問題,簡化識別系統(tǒng)結(jié)構(gòu),而且還得以在識別單元上選擇大于音素的單元,比如音節(jié)和漢字。本章首先介紹聲學模型中所用到的CTC原理及模型訓練中涉及到的計算,接著使用DCNN結(jié)構(gòu)網(wǎng)絡(luò)結(jié)合CTC技術(shù),搭建基于無調(diào)音節(jié)識別單元集合的聲學模型,同時,直接以文字為輸出單元進行建模,作為后續(xù)語言模型的參照。語言模型部分,搭建傳統(tǒng)的bigram語言模型
哈爾濱工業(yè)大學工學碩士學位論文圖2-3 CTC聲學模型示意圖具體流程如下:(1)特征提取。讀取語音信號,構(gòu)造漢明窗,對語音段分幀(幀長25ms,幀移10ms),對分幀加窗后的語音段進行快速傅立葉變換(Fast Fourier Transformation,FFT),將時域信息轉(zhuǎn)換到頻域上去,轉(zhuǎn)換為神經(jīng)網(wǎng)絡(luò)需要的二維頻譜圖像信號,即語譜圖。過程如圖2-4所示。其中,聲學特征使用FFT取絕對值之后的前200個數(shù)據(jù)點,即輸入特征幀為200維向量,這樣做使語音段頻帶切割和滑動得更稠密,捕捉了更多細節(jié)特征。(2)聲學模型;贙eras和TensorFlow框架
【參考文獻】:
期刊論文
[1]基于詞片的語言模型及在漢語語音檢索中的應(yīng)用[J]. 鄭鐵然,韓紀慶,李海洋. 通信學報. 2009(03)
[2]在漢語語音識別中應(yīng)用聲調(diào)信息的研究[J]. 喬春雷,吳及,王作英. 計算機工程與應(yīng)用. 2002(12)
[3]漢語大詞匯量連續(xù)語音識別系統(tǒng)研究進展[J]. 劉加. 電子學報. 2000(01)
[4]漢語連續(xù)語音識別中上下文相關(guān)的識別單元(三音子)的研究[J]. 趙慶衛(wèi),王作英,陸大. 電子學報. 1999(06)
本文編號:3292295
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/3292295.html
最近更新
教材專著