天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 信息工程論文 >

噪聲環(huán)境下的語音關(guān)鍵詞檢測

發(fā)布時(shí)間:2021-04-12 23:33
  隨著智能家居、智能手機(jī)和自動(dòng)化設(shè)備的快速發(fā)展,基于語音技術(shù)的人機(jī)交互變得越來越流行,例如谷歌公司的Google Now,微軟公司的Cortana、亞馬遜公司的Alexa和蘋果公司的Siri已變得十分流行。為了實(shí)現(xiàn)免手持的語音識(shí)別體驗(yàn),語音識(shí)別系統(tǒng)需要持續(xù)不斷地監(jiān)聽特定的喚醒詞語來開始語音識(shí)別任務(wù),這個(gè)過程通常被稱為關(guān)鍵詞檢測(Keyword Detection,KWD)或關(guān)鍵詞識(shí)別(Keyword Spotting,KWS)。考慮到目前很多設(shè)備計(jì)算資源受限并且大都使用電池作為能量供應(yīng),這要求關(guān)鍵詞檢測必須滿足小內(nèi)存占用和低能量消耗的要求。在現(xiàn)實(shí)世界的環(huán)境中,噪聲干擾不可避免,噪聲魯棒性對(duì)于關(guān)鍵詞識(shí)別任務(wù)而言至關(guān)重要。為了提高關(guān)鍵詞檢測系統(tǒng)的魯棒性,通用的方法是在系統(tǒng)前端增加一個(gè)語音增強(qiáng)模型。本文為提高關(guān)鍵詞檢測模型的魯棒性做了三個(gè)方面的嘗試。首先,本文將預(yù)訓(xùn)練的語音增強(qiáng)模型和關(guān)鍵詞檢測模型連接起來形成一個(gè)更復(fù)雜的系統(tǒng)。整個(gè)模型使用聯(lián)合訓(xùn)練的方法,因此關(guān)鍵詞檢測系統(tǒng)包含的語言學(xué)信息可以通過反向傳播的方法傳遞給增強(qiáng)模型。第二,本文提出了一種新的卷積循環(huán)神經(jīng)網(wǎng)絡(luò),這種網(wǎng)絡(luò)結(jié)構(gòu)需要參數(shù)量和計(jì)算... 

【文章來源】:內(nèi)蒙古大學(xué)內(nèi)蒙古自治區(qū) 211工程院校

【文章頁數(shù)】:54 頁

【學(xué)位級(jí)別】:碩士

【部分圖文】:

噪聲環(huán)境下的語音關(guān)鍵詞檢測


關(guān)鍵詞檢測系統(tǒng)框架圖

流程圖,特征提取,流程圖


首先對(duì)音頻信號(hào)進(jìn)行數(shù)模轉(zhuǎn)換,之后對(duì)音頻信號(hào)進(jìn)行預(yù)加重、分幀、加窗處理。預(yù)加重操作的目的是提高語音中高頻的部分,使得信號(hào)在低頻到高頻的整個(gè)頻譜變得平坦。語音信號(hào)具有短時(shí)平穩(wěn)性,即 10-30 ms 內(nèi)可以認(rèn)為語音信號(hào)的統(tǒng)計(jì)學(xué)性質(zhì)近似不變,因而稱一短段語音信號(hào)為一幀,從而語音信號(hào)被劃分為多幀信號(hào)。分幀時(shí),為了避免丟失信息,采取重疊分段的方法,一幀的時(shí)長為幀長,相鄰兩幀的起始位置時(shí)間差為幀移。加窗操作是指將語音信號(hào)與窗函數(shù)相乘,方便之后做傅里葉變換。本實(shí)驗(yàn)中,幀長為 30 ms,幀移為 10 ms,窗函數(shù)使用漢明窗。經(jīng)過預(yù)處理后,對(duì)語音信號(hào)作快速傅里葉變換得到頻譜,之后對(duì)頻譜取模平方后可以得到信號(hào)功率譜。梅爾濾波器組用一組梅爾頻率上線性分布的三角窗濾波器對(duì)功率譜進(jìn)行卷積濾波,并求取對(duì)數(shù)。最后用離散余弦變換算法對(duì)上一步結(jié)果進(jìn)行計(jì)算,去除各維信號(hào)的相關(guān)性,即可得到梅爾倒譜特征。為了進(jìn)一步提高系統(tǒng)的識(shí)別性能,會(huì)對(duì) MFCC 特征參數(shù)計(jì)算一階差分參數(shù)(Delta)和二階差分參數(shù)(Delta-Delta)。最終可得 13 維 MFCC 特征及其一階二階差分,加上對(duì)數(shù)能量特征,共 40 維特征。在本研究中,關(guān)鍵詞檢測系統(tǒng)的特征是 40 維的 MFCC 特征。

非關(guān)鍵詞,標(biāo)簽,后驗(yàn)概率,置信度


圖 2.3 卷積神經(jīng)網(wǎng)絡(luò)Figure 2.3 Convolutional neural network一個(gè)簡單的 CNN 結(jié)構(gòu)如圖 2.3 所示,圖中展示了一層卷積層和一層池化層。網(wǎng)絡(luò)的輸入信號(hào)為t*f的特征向量,其中t代表時(shí)間維度,f代表頻率維度。卷積核大小為m*(rm<=t, r<=f)。s 代表時(shí)間軸的長度,v 代表頻率軸的長度。經(jīng)過卷積后得到 n 個(gè)特征映射,對(duì)這些特征映射進(jìn)行降采樣,池化窗大小為 p*q。根據(jù)不同的任務(wù)判斷是否需要池化,在本文的關(guān)鍵詞檢測模型中沒有進(jìn)行池化操作;诰矸e神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型,最后一層為 softmax 層,其輸出的每一個(gè)結(jié)點(diǎn)對(duì)應(yīng)一個(gè)關(guān)鍵詞標(biāo)簽或者非關(guān)鍵詞的標(biāo)簽,輸出值為某關(guān)鍵詞或非關(guān)鍵詞(未知詞)的后驗(yàn)概率估計(jì)值。在我們的關(guān)鍵詞檢測系統(tǒng)中,CNN 的輸出層有 12 個(gè)結(jié)點(diǎn)對(duì)應(yīng) 12 種標(biāo)簽,分別對(duì)應(yīng) 10種關(guān)鍵詞、“非關(guān)鍵詞”以及靜音。原始的后驗(yàn)概率估計(jì)值帶有噪聲,因而需要對(duì)后驗(yàn)概率估計(jì)進(jìn)行平滑,之后計(jì)算一個(gè)平滑窗內(nèi)的平滑置信度,比較這 12 種標(biāo)簽經(jīng)過平滑處理的置信度打分,最大置信度分?jǐn)?shù)對(duì)應(yīng)的標(biāo)簽就是系統(tǒng)預(yù)測的關(guān)鍵詞或“非關(guān)鍵詞”。


本文編號(hào):3134179

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/3134179.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶a6352***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com