天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度學(xué)習(xí)的語音關(guān)鍵詞匹配模型

發(fā)布時(shí)間:2020-07-01 13:39
【摘要】:語音是人們?nèi)粘=涣骰顒?dòng)的最基本、也是最有效的一種方式。人們希望計(jì)算機(jī)能自動(dòng)完成語音識(shí)別,因此語音識(shí)別技術(shù)的發(fā)展顯得非常關(guān)鍵。隨著計(jì)算機(jī)技術(shù)、互聯(lián)網(wǎng)和人工智能的發(fā)展,網(wǎng)絡(luò)中產(chǎn)生了大量的音頻等數(shù)據(jù),對(duì)語音識(shí)別的發(fā)展產(chǎn)生了很大作用。當(dāng)今的關(guān)鍵詞喚醒技術(shù)開始有了大量需求,其中的代表是以Siri為代表的個(gè)人數(shù)字助理以及亞馬遜的智能音箱等設(shè)備,它們喚醒時(shí)用到的喚醒詞檢測就用到了語音關(guān)鍵詞匹配技術(shù)。傳統(tǒng)的語音關(guān)鍵詞匹配多基于傳統(tǒng)聲學(xué)模型,以隱馬爾可夫模型、高斯混合模型等為代表,F(xiàn)在的語音識(shí)別中大量用到了以深度學(xué)習(xí)為代表的神經(jīng)網(wǎng)絡(luò)模型。本課題針對(duì)語音關(guān)鍵詞識(shí)別問題,對(duì)傳統(tǒng)語音匹配技術(shù)和語音信號(hào)提取進(jìn)行了研究,結(jié)合深度學(xué)習(xí)和相似度匹配算法等。本課題的主要研究內(nèi)容包括以下幾個(gè)方面:基于語音識(shí)別的語音關(guān)鍵詞匹配模型研究。本課題以LSTM模型為基礎(chǔ),用CTC算法代替?zhèn)鹘y(tǒng)如均方誤差(MSE)損失函數(shù),比較有效地訓(xùn)練模型。該LSTM+CTC的框架,模型輸入語音的梅爾倒頻譜系數(shù)特征,經(jīng)過長短時(shí)記憶網(wǎng)絡(luò)和全連接網(wǎng)絡(luò)輸出識(shí)別的文本字符串,再利用相似度算法對(duì)識(shí)別出的兩個(gè)字符串進(jìn)行比較,得到匹配結(jié)果。端到端的語音關(guān)鍵詞匹配模型研究。端到端的模型不同于語音識(shí)別的模型,不將語音轉(zhuǎn)為文本,使用特征提取網(wǎng)絡(luò)訓(xùn)練得到特征圖譜,再經(jīng)過匹配網(wǎng)絡(luò)比較語音之間的相似度。特征提取網(wǎng)絡(luò)有機(jī)地結(jié)合了CLDNN和孿生神經(jīng)網(wǎng)絡(luò),模型輸入語譜圖作為特征,在增加模型參數(shù)量較小的情況下,在語音關(guān)鍵詞匹配的任務(wù)上對(duì)比CNN、LSTM等達(dá)到領(lǐng)先性能。模型方法橫向評(píng)測。通過實(shí)驗(yàn)論證了基于語音識(shí)別的模型使用模糊匹配和端到端的關(guān)鍵詞匹配模型相對(duì)當(dāng)前常用的CNN、LSTM、CLDNN等模型都表現(xiàn)良好。語音關(guān)鍵詞匹配在實(shí)際應(yīng)用中對(duì)負(fù)例要求敏感,基于語音識(shí)別的模型使用精確匹配時(shí)能達(dá)到100%的召回率,盡管其正例的效果很不理想,端對(duì)端的關(guān)鍵詞匹配模型隨著閾值的改變能保持95%左右的召回率?梢娔P涂梢詽M足實(shí)際應(yīng)用的要求。
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:TN912.3;TP181
【圖文】:

示意圖,分幀,語音,示意圖


而語音的預(yù)加重處理它可以彌補(bǔ)語音高頻部分并使其成為平坦更好地分析和處理頻譜信號(hào)。預(yù)加重通常以 6db/octave 數(shù)字濾波器頻率特性實(shí)現(xiàn)。當(dāng)語音信號(hào)受嘴巴的影響時(shí),高頻分量將具有更大的下降,因此在預(yù)加重之前通波器是絕對(duì)必要的。過濾器可以表示為公式 2-1 所示。 ( ) = 1 1 是預(yù)加重系數(shù),在這里 取 0.9375。(2)分幀分幀是把語音信號(hào)分割成若干片段,以每一個(gè)片段中心時(shí)刻的一小的的信號(hào)作為一個(gè)整體的語音單位,其單位為幀(frame)。這樣,到某一時(shí)刻語音信號(hào)的短時(shí)特征,對(duì)其進(jìn)行頻譜等處理,并分析幀續(xù)變化。語音信號(hào)的分幀可以是連續(xù)的方式,即相鄰的幀之間沒有分。但更多的時(shí)候分幀時(shí)相鄰的幀之間有交叉重疊,這相鄰幀之間分叫做幀移。一般情況下,把幀移的長度定為是幀長度的一半。每度一般取 10ms 到 20ms 之間。如圖 2-1 所示。

特征參數(shù)提取,倒譜,基本流程,頻率


數(shù)有矩形窗、高斯窗、漢明(Hamming)窗等等。在本論文中使用的是漢明窗。漢明窗的時(shí)域表達(dá)式如公式 2-2 所示。 ( ) = 0.54 0.46 (2 1) (2-2)其中 是時(shí)間, ( )是漢明窗的窗函數(shù)。2.2.2 梅爾倒頻譜系數(shù)提取梅爾倒頻譜系數(shù)(Mel-frequency cepstral coefficients,MFCC)是當(dāng)前語音識(shí)別領(lǐng)域常用的特征,也是本文用到的語音識(shí)別特征之一,因此,這一節(jié)將介紹如何提取梅爾倒頻譜系數(shù)[33]。梅爾倒頻譜系數(shù)就是基于倒譜的梅爾頻率特征參數(shù),梅爾頻率和線性頻率的函數(shù)關(guān)系是非線性的,它們的函數(shù)關(guān)系如公式 2-3 中所示:Mel( ) = 2595 × lg 1 + 700 (2-3)其中的 為頻率,單位為 Hz,Mel( )為梅爾頻率。梅爾倒頻譜系數(shù)的提取流程大致如圖 2-2 所示。

【參考文獻(xiàn)】

相關(guān)博士學(xué)位論文 前1條

1 陶冶;文本語音匹配的研究和應(yīng)用[D];山東大學(xué);2009年



本文編號(hào):2736832

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/wltx/2736832.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶bb942***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com
欧美精品久久99九九| 欧美一级片日韩一级片| 日本高清视频在线观看不卡| 伊人久久五月天综合网| 精品欧美在线观看国产| 激情五月天免费在线观看| 黑鬼糟蹋少妇资源在线观看| 欧洲日韩精品一区二区三区| 国产性色精品福利在线观看| 日本午夜精品视频在线观看| 久久国产精品亚州精品毛片| 国产欧美精品对白性色| 亚洲国产综合久久天堂| 中文字幕亚洲精品在线播放| 国产成人精品视频一区二区三区| 亚洲淫片一区二区三区| 中文字幕中文字幕在线十八区| 少妇高潮呻吟浪语91| 久久精品国产一区久久久| 日韩免费国产91在线| 欧洲一区二区三区蜜桃| 亚洲人午夜精品射精日韩| 日韩欧美91在线视频| 一区二区不卡免费观看免费| 免费精品一区二区三区| 三级理论午夜福利在线看| 中文字幕日韩欧美理伦片| 一区二区日本一区二区欧美| 91精品视频全国免费| 色婷婷日本视频在线观看| 欧美不卡高清一区二区三区| 亚洲国产av国产av| 免费在线观看激情小视频| 国产一区二区精品丝袜| 中文字幕亚洲在线一区| 太香蕉久久国产精品视频| 国产成人精品国内自产拍| 久久本道综合色狠狠五月| 久久精品国产亚洲av麻豆尤物| 日韩一区二区三区免费av| 色好吊视频这里只有精|