當(dāng)前位置：主頁 > 科技論文 > 網(wǎng)絡(luò)通信論文 >

基于深度學(xué)習(xí)的語音關(guān)鍵詞匹配模型

發(fā)布時(shí)間：2020-07-01 13:39

【摘要】：語音是人們?nèi)粘＝涣骰顒?dòng)的最基本、也是最有效的一種方式。人們希望計(jì)算機(jī)能自動(dòng)完成語音識(shí)別,因此語音識(shí)別技術(shù)的發(fā)展顯得非常關(guān)鍵。隨著計(jì)算機(jī)技術(shù)、互聯(lián)網(wǎng)和人工智能的發(fā)展,網(wǎng)絡(luò)中產(chǎn)生了大量的音頻等數(shù)據(jù),對(duì)語音識(shí)別的發(fā)展產(chǎn)生了很大作用。當(dāng)今的關(guān)鍵詞喚醒技術(shù)開始有了大量需求,其中的代表是以Siri為代表的個(gè)人數(shù)字助理以及亞馬遜的智能音箱等設(shè)備,它們喚醒時(shí)用到的喚醒詞檢測就用到了語音關(guān)鍵詞匹配技術(shù)。傳統(tǒng)的語音關(guān)鍵詞匹配多基于傳統(tǒng)聲學(xué)模型,以隱馬爾可夫模型、高斯混合模型等為代表�，F(xiàn)在的語音識(shí)別中大量用到了以深度學(xué)習(xí)為代表的神經(jīng)網(wǎng)絡(luò)模型。本課題針對(duì)語音關(guān)鍵詞識(shí)別問題,對(duì)傳統(tǒng)語音匹配技術(shù)和語音信號(hào)提取進(jìn)行了研究,結(jié)合深度學(xué)習(xí)和相似度匹配算法等。本課題的主要研究內(nèi)容包括以下幾個(gè)方面:基于語音識(shí)別的語音關(guān)鍵詞匹配模型研究。本課題以LSTM模型為基礎(chǔ),用CTC算法代替?zhèn)鹘y(tǒng)如均方誤差(MSE)損失函數(shù),比較有效地訓(xùn)練模型。該LSTM+CTC的框架,模型輸入語音的梅爾倒頻譜系數(shù)特征,經(jīng)過長短時(shí)記憶網(wǎng)絡(luò)和全連接網(wǎng)絡(luò)輸出識(shí)別的文本字符串,再利用相似度算法對(duì)識(shí)別出的兩個(gè)字符串進(jìn)行比較,得到匹配結(jié)果。端到端的語音關(guān)鍵詞匹配模型研究。端到端的模型不同于語音識(shí)別的模型,不將語音轉(zhuǎn)為文本,使用特征提取網(wǎng)絡(luò)訓(xùn)練得到特征圖譜,再經(jīng)過匹配網(wǎng)絡(luò)比較語音之間的相似度。特征提取網(wǎng)絡(luò)有機(jī)地結(jié)合了CLDNN和孿生神經(jīng)網(wǎng)絡(luò),模型輸入語譜圖作為特征,在增加模型參數(shù)量較小的情況下,在語音關(guān)鍵詞匹配的任務(wù)上對(duì)比CNN、LSTM等達(dá)到領(lǐng)先性能。模型方法橫向評(píng)測。通過實(shí)驗(yàn)論證了基于語音識(shí)別的模型使用模糊匹配和端到端的關(guān)鍵詞匹配模型相對(duì)當(dāng)前常用的CNN、LSTM、CLDNN等模型都表現(xiàn)良好。語音關(guān)鍵詞匹配在實(shí)際應(yīng)用中對(duì)負(fù)例要求敏感,基于語音識(shí)別的模型使用精確匹配時(shí)能達(dá)到100%的召回率,盡管其正例的效果很不理想,端對(duì)端的關(guān)鍵詞匹配模型隨著閾值的改變能保持95%左右的召回率�？梢娔Ｐ涂梢詽M足實(shí)際應(yīng)用的要求。
【學(xué)位授予單位】：哈爾濱工業(yè)大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2018
【分類號(hào)】：TN912.3;TP181
【圖文】：

示意圖,分幀,語音,示意圖

而語音的預(yù)加重處理它可以彌補(bǔ)語音高頻部分并使其成為平坦更好地分析和處理頻譜信號(hào)。預(yù)加重通常以 6db/octave 數(shù)字濾波器頻率特性實(shí)現(xiàn)。當(dāng)語音信號(hào)受嘴巴的影響時(shí)，高頻分量將具有更大的下降，因此在預(yù)加重之前通波器是絕對(duì)必要的。過濾器可以表示為公式 2-1 所示。 ( ) = 1 1 是預(yù)加重系數(shù)，在這里取 0.9375。（2）分幀分幀是把語音信號(hào)分割成若干片段，以每一個(gè)片段中心時(shí)刻的一小的的信號(hào)作為一個(gè)整體的語音單位，其單位為幀（frame）。這樣，到某一時(shí)刻語音信號(hào)的短時(shí)特征，對(duì)其進(jìn)行頻譜等處理，并分析幀續(xù)變化。語音信號(hào)的分幀可以是連續(xù)的方式，即相鄰的幀之間沒有分。但更多的時(shí)候分幀時(shí)相鄰的幀之間有交叉重疊，這相鄰幀之間分叫做幀移。一般情況下，把幀移的長度定為是幀長度的一半。每度一般取 10ms 到 20ms 之間。如圖 2-1 所示。

特征參數(shù)提取,倒譜,基本流程,頻率

數(shù)有矩形窗、高斯窗、漢明（Hamming）窗等等。在本論文中使用的是漢明窗。漢明窗的時(shí)域表達(dá)式如公式 2-2 所示。 ( ) = 0.54 0.46 (2 1) (2-2)其中是時(shí)間， ( )是漢明窗的窗函數(shù)。2.2.2 梅爾倒頻譜系數(shù)提取梅爾倒頻譜系數(shù)（Mel-frequency cepstral coefficients，MFCC）是當(dāng)前語音識(shí)別領(lǐng)域常用的特征，也是本文用到的語音識(shí)別特征之一，因此，這一節(jié)將介紹如何提取梅爾倒頻譜系數(shù)[33]。梅爾倒頻譜系數(shù)就是基于倒譜的梅爾頻率特征參數(shù)，梅爾頻率和線性頻率的函數(shù)關(guān)系是非線性的，它們的函數(shù)關(guān)系如公式 2-3 中所示：Mel( ) = 2595 × lg 1 + 700 (2-3)其中的為頻率，單位為 Hz，Mel( )為梅爾頻率。梅爾倒頻譜系數(shù)的提取流程大致如圖 2-2 所示。

【參考文獻(xiàn)】

相關(guān)博士學(xué)位論文前1條

1 陶冶;文本語音匹配的研究和應(yīng)用[D];山東大學(xué);2009年

本文編號(hào)：2736832

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/wltx/2736832.html

上一篇：基于物理熵源的擴(kuò)頻隨機(jī)序列的產(chǎn)生與性能研究
下一篇：飛行器陣列天線RCS縮減技術(shù)研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度學(xué)習(xí)的語音關(guān)鍵詞匹配模型