噪聲環(huán)境下的語音關鍵詞檢測
發(fā)布時間:2021-04-12 23:33
隨著智能家居、智能手機和自動化設備的快速發(fā)展,基于語音技術的人機交互變得越來越流行,例如谷歌公司的Google Now,微軟公司的Cortana、亞馬遜公司的Alexa和蘋果公司的Siri已變得十分流行。為了實現免手持的語音識別體驗,語音識別系統(tǒng)需要持續(xù)不斷地監(jiān)聽特定的喚醒詞語來開始語音識別任務,這個過程通常被稱為關鍵詞檢測(Keyword Detection,KWD)或關鍵詞識別(Keyword Spotting,KWS)?紤]到目前很多設備計算資源受限并且大都使用電池作為能量供應,這要求關鍵詞檢測必須滿足小內存占用和低能量消耗的要求。在現實世界的環(huán)境中,噪聲干擾不可避免,噪聲魯棒性對于關鍵詞識別任務而言至關重要。為了提高關鍵詞檢測系統(tǒng)的魯棒性,通用的方法是在系統(tǒng)前端增加一個語音增強模型。本文為提高關鍵詞檢測模型的魯棒性做了三個方面的嘗試。首先,本文將預訓練的語音增強模型和關鍵詞檢測模型連接起來形成一個更復雜的系統(tǒng)。整個模型使用聯(lián)合訓練的方法,因此關鍵詞檢測系統(tǒng)包含的語言學信息可以通過反向傳播的方法傳遞給增強模型。第二,本文提出了一種新的卷積循環(huán)神經網絡,這種網絡結構需要參數量和計算...
【文章來源】:內蒙古大學內蒙古自治區(qū) 211工程院校
【文章頁數】:54 頁
【學位級別】:碩士
【部分圖文】:
關鍵詞檢測系統(tǒng)框架圖
首先對音頻信號進行數模轉換,之后對音頻信號進行預加重、分幀、加窗處理。預加重操作的目的是提高語音中高頻的部分,使得信號在低頻到高頻的整個頻譜變得平坦。語音信號具有短時平穩(wěn)性,即 10-30 ms 內可以認為語音信號的統(tǒng)計學性質近似不變,因而稱一短段語音信號為一幀,從而語音信號被劃分為多幀信號。分幀時,為了避免丟失信息,采取重疊分段的方法,一幀的時長為幀長,相鄰兩幀的起始位置時間差為幀移。加窗操作是指將語音信號與窗函數相乘,方便之后做傅里葉變換。本實驗中,幀長為 30 ms,幀移為 10 ms,窗函數使用漢明窗。經過預處理后,對語音信號作快速傅里葉變換得到頻譜,之后對頻譜取模平方后可以得到信號功率譜。梅爾濾波器組用一組梅爾頻率上線性分布的三角窗濾波器對功率譜進行卷積濾波,并求取對數。最后用離散余弦變換算法對上一步結果進行計算,去除各維信號的相關性,即可得到梅爾倒譜特征。為了進一步提高系統(tǒng)的識別性能,會對 MFCC 特征參數計算一階差分參數(Delta)和二階差分參數(Delta-Delta)。最終可得 13 維 MFCC 特征及其一階二階差分,加上對數能量特征,共 40 維特征。在本研究中,關鍵詞檢測系統(tǒng)的特征是 40 維的 MFCC 特征。
圖 2.3 卷積神經網絡Figure 2.3 Convolutional neural network一個簡單的 CNN 結構如圖 2.3 所示,圖中展示了一層卷積層和一層池化層。網絡的輸入信號為t*f的特征向量,其中t代表時間維度,f代表頻率維度。卷積核大小為m*(rm<=t, r<=f)。s 代表時間軸的長度,v 代表頻率軸的長度。經過卷積后得到 n 個特征映射,對這些特征映射進行降采樣,池化窗大小為 p*q。根據不同的任務判斷是否需要池化,在本文的關鍵詞檢測模型中沒有進行池化操作;诰矸e神經網絡的聲學模型,最后一層為 softmax 層,其輸出的每一個結點對應一個關鍵詞標簽或者非關鍵詞的標簽,輸出值為某關鍵詞或非關鍵詞(未知詞)的后驗概率估計值。在我們的關鍵詞檢測系統(tǒng)中,CNN 的輸出層有 12 個結點對應 12 種標簽,分別對應 10種關鍵詞、“非關鍵詞”以及靜音。原始的后驗概率估計值帶有噪聲,因而需要對后驗概率估計進行平滑,之后計算一個平滑窗內的平滑置信度,比較這 12 種標簽經過平滑處理的置信度打分,最大置信度分數對應的標簽就是系統(tǒng)預測的關鍵詞或“非關鍵詞”。
本文編號:3134179
【文章來源】:內蒙古大學內蒙古自治區(qū) 211工程院校
【文章頁數】:54 頁
【學位級別】:碩士
【部分圖文】:
關鍵詞檢測系統(tǒng)框架圖
首先對音頻信號進行數模轉換,之后對音頻信號進行預加重、分幀、加窗處理。預加重操作的目的是提高語音中高頻的部分,使得信號在低頻到高頻的整個頻譜變得平坦。語音信號具有短時平穩(wěn)性,即 10-30 ms 內可以認為語音信號的統(tǒng)計學性質近似不變,因而稱一短段語音信號為一幀,從而語音信號被劃分為多幀信號。分幀時,為了避免丟失信息,采取重疊分段的方法,一幀的時長為幀長,相鄰兩幀的起始位置時間差為幀移。加窗操作是指將語音信號與窗函數相乘,方便之后做傅里葉變換。本實驗中,幀長為 30 ms,幀移為 10 ms,窗函數使用漢明窗。經過預處理后,對語音信號作快速傅里葉變換得到頻譜,之后對頻譜取模平方后可以得到信號功率譜。梅爾濾波器組用一組梅爾頻率上線性分布的三角窗濾波器對功率譜進行卷積濾波,并求取對數。最后用離散余弦變換算法對上一步結果進行計算,去除各維信號的相關性,即可得到梅爾倒譜特征。為了進一步提高系統(tǒng)的識別性能,會對 MFCC 特征參數計算一階差分參數(Delta)和二階差分參數(Delta-Delta)。最終可得 13 維 MFCC 特征及其一階二階差分,加上對數能量特征,共 40 維特征。在本研究中,關鍵詞檢測系統(tǒng)的特征是 40 維的 MFCC 特征。
圖 2.3 卷積神經網絡Figure 2.3 Convolutional neural network一個簡單的 CNN 結構如圖 2.3 所示,圖中展示了一層卷積層和一層池化層。網絡的輸入信號為t*f的特征向量,其中t代表時間維度,f代表頻率維度。卷積核大小為m*(rm<=t, r<=f)。s 代表時間軸的長度,v 代表頻率軸的長度。經過卷積后得到 n 個特征映射,對這些特征映射進行降采樣,池化窗大小為 p*q。根據不同的任務判斷是否需要池化,在本文的關鍵詞檢測模型中沒有進行池化操作;诰矸e神經網絡的聲學模型,最后一層為 softmax 層,其輸出的每一個結點對應一個關鍵詞標簽或者非關鍵詞的標簽,輸出值為某關鍵詞或非關鍵詞(未知詞)的后驗概率估計值。在我們的關鍵詞檢測系統(tǒng)中,CNN 的輸出層有 12 個結點對應 12 種標簽,分別對應 10種關鍵詞、“非關鍵詞”以及靜音。原始的后驗概率估計值帶有噪聲,因而需要對后驗概率估計進行平滑,之后計算一個平滑窗內的平滑置信度,比較這 12 種標簽經過平滑處理的置信度打分,最大置信度分數對應的標簽就是系統(tǒng)預測的關鍵詞或“非關鍵詞”。
本文編號:3134179
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/3134179.html