面向轉(zhuǎn)錄文本的語音識別錯誤檢測和糾正方法研究
發(fā)布時間:2021-06-29 04:18
語音識別技術(shù)已經(jīng)隨著深度學(xué)習(xí)的發(fā)展取得了很多進步,識別結(jié)果的準確性得到了極大的提升。盡管如此,受說話人發(fā)音、錄制環(huán)境、主題領(lǐng)域等不匹配的影響,識別錯誤仍在所難免。語音識別得到的轉(zhuǎn)錄文本會成為許多自然語言處理任務(wù)的待分析輸入,如自然語言理解,機器翻譯等。語音識別的正確率將直接影響以轉(zhuǎn)錄文本為輸入的下游任務(wù)的性能?紤]到語音識別模型復(fù)雜度高,是語言學(xué)和語音學(xué)知識的高度耦合,性能提升難度大,因而對語音識別結(jié)果進行錯誤檢測和糾正從而提高轉(zhuǎn)錄文本正確率是近年來興起的一種有效技術(shù)手段。鑒于下游文本處理任務(wù)可能采用第三方的語音識別器,或采用端到端模型的,因而無法獲得中間解碼信。所以,僅基于轉(zhuǎn)錄文本的檢錯糾錯技術(shù),是一種更具普適性的錯誤處理方式。針對以上問題,本文采用深度學(xué)習(xí)對轉(zhuǎn)錄文本中的語音識別錯誤進行檢測和糾正。針對轉(zhuǎn)錄文本中錯誤模式的特點,如標簽不均衡、序列到序列的映射、以及檢錯和糾錯結(jié)果相互依賴等,提出端到端的檢錯和糾錯深度模型。論文的主要內(nèi)容如下:(1)數(shù)據(jù)不均衡條件下的語音識別錯誤檢測方法檢錯可以看作是一個分類問題,對轉(zhuǎn)錄文本中的每一個詞進行正確或錯識的分類判決。隨著語音識別性能的不斷提升...
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:65 頁
【學(xué)位級別】:碩士
【部分圖文】:
LAS模型
哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文20:Tag[][]=′′[][]=[1][1]+:[]為空格:Tag[][]=′′:Tag[][]=′′6)對數(shù)組Tag的行進行遍歷,將每兩個Tag為′′的中間標簽若全為′C′,則合并成一個標簽0,若不是則合并為一個標簽1,完成對輸入序列的詞級標注。在下一節(jié)中我們通過設(shè)計模型,使用有標簽的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)對進行有監(jiān)督的語音識別錯誤檢測訓(xùn)練,使得檢錯模型能夠?qū)y試集中未標注的轉(zhuǎn)錄文本進行基于詞級的錯誤檢測和標注。3.3Bi-LSTM錯誤檢測模型3.3.1LSTM模型長短時記憶網(wǎng)絡(luò)是循環(huán)神經(jīng)網(wǎng)絡(luò)的一種,其產(chǎn)生是為了解決RNN的長期依賴問題,通過一種門機制能夠有效的保存之前學(xué)習(xí)到的信息,對信息進行篩選往下傳遞,從而使得模型能夠具有記憶力。LSTM模型也是采用了鏈式結(jié)構(gòu),從左到右對輸入的序列數(shù)據(jù)進行處理,通過對網(wǎng)絡(luò)中的神經(jīng)元狀態(tài)信息進行刪除或增加,來進行不同神經(jīng)元之間的交互。圖3-1LSTM模型
哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文21如圖3-1所示,模型的輸入為序列={1,2,…,},輸出為序列={1,2,…,}。LSTM模型采用了函數(shù)和點乘器,設(shè)計了一種門機制。因為函數(shù)的值域在[0,1]之間,可以用來描述一個神經(jīng)元有多少信息能夠被通過,進行選擇性遺忘無用的信息。若函數(shù)為0則表示沒有信息通過,1則表示信息可以全部通過。具體LSTM計算過程如下:(1)遺忘門。從上一時間步傳來的信息先通過一個“遺忘門”,來決定什么信息應(yīng)該被神經(jīng)元遺忘!斑z忘門”是由函數(shù)構(gòu)成的。對于時刻的輸入,同上一時刻的隱藏狀態(tài)1一起通過函數(shù)得到,再將1時刻的細胞狀態(tài)1與進行點乘計算,得到一個主線遺忘向量。細胞狀態(tài)1的數(shù)值位于0到1之間,1表示信息全部被保留,0則表示信息全部被丟棄。如圖3-2所示:圖3-2LSTM遺忘門遺忘門獲得的遺忘權(quán)重的計算公式為:=1+(3-1)(2)輸入門。這一步主要是決定神經(jīng)元細胞中保留什么信息,這一模塊主要包括兩個部分:第一個部分是同遺忘門,也是一個函數(shù),將時刻的輸入,同上一時刻的隱藏狀態(tài)1,一起通過函數(shù)得到。第二部分則是一個函數(shù),生成一個新的候選數(shù)值為細胞狀態(tài)更新值,隨后和進行點乘,用來選取中的哪一部分信息將被用來更新的細胞狀態(tài)。=([1,]+)(3-2)=tanh([1,]+)(3-3)
本文編號:3255717
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:65 頁
【學(xué)位級別】:碩士
【部分圖文】:
LAS模型
哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文20:Tag[][]=′′[][]=[1][1]+:[]為空格:Tag[][]=′′:Tag[][]=′′6)對數(shù)組Tag的行進行遍歷,將每兩個Tag為′′的中間標簽若全為′C′,則合并成一個標簽0,若不是則合并為一個標簽1,完成對輸入序列的詞級標注。在下一節(jié)中我們通過設(shè)計模型,使用有標簽的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)對進行有監(jiān)督的語音識別錯誤檢測訓(xùn)練,使得檢錯模型能夠?qū)y試集中未標注的轉(zhuǎn)錄文本進行基于詞級的錯誤檢測和標注。3.3Bi-LSTM錯誤檢測模型3.3.1LSTM模型長短時記憶網(wǎng)絡(luò)是循環(huán)神經(jīng)網(wǎng)絡(luò)的一種,其產(chǎn)生是為了解決RNN的長期依賴問題,通過一種門機制能夠有效的保存之前學(xué)習(xí)到的信息,對信息進行篩選往下傳遞,從而使得模型能夠具有記憶力。LSTM模型也是采用了鏈式結(jié)構(gòu),從左到右對輸入的序列數(shù)據(jù)進行處理,通過對網(wǎng)絡(luò)中的神經(jīng)元狀態(tài)信息進行刪除或增加,來進行不同神經(jīng)元之間的交互。圖3-1LSTM模型
哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文21如圖3-1所示,模型的輸入為序列={1,2,…,},輸出為序列={1,2,…,}。LSTM模型采用了函數(shù)和點乘器,設(shè)計了一種門機制。因為函數(shù)的值域在[0,1]之間,可以用來描述一個神經(jīng)元有多少信息能夠被通過,進行選擇性遺忘無用的信息。若函數(shù)為0則表示沒有信息通過,1則表示信息可以全部通過。具體LSTM計算過程如下:(1)遺忘門。從上一時間步傳來的信息先通過一個“遺忘門”,來決定什么信息應(yīng)該被神經(jīng)元遺忘!斑z忘門”是由函數(shù)構(gòu)成的。對于時刻的輸入,同上一時刻的隱藏狀態(tài)1一起通過函數(shù)得到,再將1時刻的細胞狀態(tài)1與進行點乘計算,得到一個主線遺忘向量。細胞狀態(tài)1的數(shù)值位于0到1之間,1表示信息全部被保留,0則表示信息全部被丟棄。如圖3-2所示:圖3-2LSTM遺忘門遺忘門獲得的遺忘權(quán)重的計算公式為:=1+(3-1)(2)輸入門。這一步主要是決定神經(jīng)元細胞中保留什么信息,這一模塊主要包括兩個部分:第一個部分是同遺忘門,也是一個函數(shù),將時刻的輸入,同上一時刻的隱藏狀態(tài)1,一起通過函數(shù)得到。第二部分則是一個函數(shù),生成一個新的候選數(shù)值為細胞狀態(tài)更新值,隨后和進行點乘,用來選取中的哪一部分信息將被用來更新的細胞狀態(tài)。=([1,]+)(3-2)=tanh([1,]+)(3-3)
本文編號:3255717
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3255717.html
最近更新
教材專著