基于深度學(xué)習(xí)的語音關(guān)鍵詞匹配模型
發(fā)布時(shí)間:2020-07-01 13:39
【摘要】:語音是人們?nèi)粘=涣骰顒?dòng)的最基本、也是最有效的一種方式。人們希望計(jì)算機(jī)能自動(dòng)完成語音識(shí)別,因此語音識(shí)別技術(shù)的發(fā)展顯得非常關(guān)鍵。隨著計(jì)算機(jī)技術(shù)、互聯(lián)網(wǎng)和人工智能的發(fā)展,網(wǎng)絡(luò)中產(chǎn)生了大量的音頻等數(shù)據(jù),對(duì)語音識(shí)別的發(fā)展產(chǎn)生了很大作用。當(dāng)今的關(guān)鍵詞喚醒技術(shù)開始有了大量需求,其中的代表是以Siri為代表的個(gè)人數(shù)字助理以及亞馬遜的智能音箱等設(shè)備,它們喚醒時(shí)用到的喚醒詞檢測就用到了語音關(guān)鍵詞匹配技術(shù)。傳統(tǒng)的語音關(guān)鍵詞匹配多基于傳統(tǒng)聲學(xué)模型,以隱馬爾可夫模型、高斯混合模型等為代表,F(xiàn)在的語音識(shí)別中大量用到了以深度學(xué)習(xí)為代表的神經(jīng)網(wǎng)絡(luò)模型。本課題針對(duì)語音關(guān)鍵詞識(shí)別問題,對(duì)傳統(tǒng)語音匹配技術(shù)和語音信號(hào)提取進(jìn)行了研究,結(jié)合深度學(xué)習(xí)和相似度匹配算法等。本課題的主要研究內(nèi)容包括以下幾個(gè)方面:基于語音識(shí)別的語音關(guān)鍵詞匹配模型研究。本課題以LSTM模型為基礎(chǔ),用CTC算法代替?zhèn)鹘y(tǒng)如均方誤差(MSE)損失函數(shù),比較有效地訓(xùn)練模型。該LSTM+CTC的框架,模型輸入語音的梅爾倒頻譜系數(shù)特征,經(jīng)過長短時(shí)記憶網(wǎng)絡(luò)和全連接網(wǎng)絡(luò)輸出識(shí)別的文本字符串,再利用相似度算法對(duì)識(shí)別出的兩個(gè)字符串進(jìn)行比較,得到匹配結(jié)果。端到端的語音關(guān)鍵詞匹配模型研究。端到端的模型不同于語音識(shí)別的模型,不將語音轉(zhuǎn)為文本,使用特征提取網(wǎng)絡(luò)訓(xùn)練得到特征圖譜,再經(jīng)過匹配網(wǎng)絡(luò)比較語音之間的相似度。特征提取網(wǎng)絡(luò)有機(jī)地結(jié)合了CLDNN和孿生神經(jīng)網(wǎng)絡(luò),模型輸入語譜圖作為特征,在增加模型參數(shù)量較小的情況下,在語音關(guān)鍵詞匹配的任務(wù)上對(duì)比CNN、LSTM等達(dá)到領(lǐng)先性能。模型方法橫向評(píng)測。通過實(shí)驗(yàn)論證了基于語音識(shí)別的模型使用模糊匹配和端到端的關(guān)鍵詞匹配模型相對(duì)當(dāng)前常用的CNN、LSTM、CLDNN等模型都表現(xiàn)良好。語音關(guān)鍵詞匹配在實(shí)際應(yīng)用中對(duì)負(fù)例要求敏感,基于語音識(shí)別的模型使用精確匹配時(shí)能達(dá)到100%的召回率,盡管其正例的效果很不理想,端對(duì)端的關(guān)鍵詞匹配模型隨著閾值的改變能保持95%左右的召回率?梢娔P涂梢詽M足實(shí)際應(yīng)用的要求。
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:TN912.3;TP181
【圖文】:
而語音的預(yù)加重處理它可以彌補(bǔ)語音高頻部分并使其成為平坦更好地分析和處理頻譜信號(hào)。預(yù)加重通常以 6db/octave 數(shù)字濾波器頻率特性實(shí)現(xiàn)。當(dāng)語音信號(hào)受嘴巴的影響時(shí),高頻分量將具有更大的下降,因此在預(yù)加重之前通波器是絕對(duì)必要的。過濾器可以表示為公式 2-1 所示。 ( ) = 1 1 是預(yù)加重系數(shù),在這里 取 0.9375。(2)分幀分幀是把語音信號(hào)分割成若干片段,以每一個(gè)片段中心時(shí)刻的一小的的信號(hào)作為一個(gè)整體的語音單位,其單位為幀(frame)。這樣,到某一時(shí)刻語音信號(hào)的短時(shí)特征,對(duì)其進(jìn)行頻譜等處理,并分析幀續(xù)變化。語音信號(hào)的分幀可以是連續(xù)的方式,即相鄰的幀之間沒有分。但更多的時(shí)候分幀時(shí)相鄰的幀之間有交叉重疊,這相鄰幀之間分叫做幀移。一般情況下,把幀移的長度定為是幀長度的一半。每度一般取 10ms 到 20ms 之間。如圖 2-1 所示。
數(shù)有矩形窗、高斯窗、漢明(Hamming)窗等等。在本論文中使用的是漢明窗。漢明窗的時(shí)域表達(dá)式如公式 2-2 所示。 ( ) = 0.54 0.46 (2 1) (2-2)其中 是時(shí)間, ( )是漢明窗的窗函數(shù)。2.2.2 梅爾倒頻譜系數(shù)提取梅爾倒頻譜系數(shù)(Mel-frequency cepstral coefficients,MFCC)是當(dāng)前語音識(shí)別領(lǐng)域常用的特征,也是本文用到的語音識(shí)別特征之一,因此,這一節(jié)將介紹如何提取梅爾倒頻譜系數(shù)[33]。梅爾倒頻譜系數(shù)就是基于倒譜的梅爾頻率特征參數(shù),梅爾頻率和線性頻率的函數(shù)關(guān)系是非線性的,它們的函數(shù)關(guān)系如公式 2-3 中所示:Mel( ) = 2595 × lg 1 + 700 (2-3)其中的 為頻率,單位為 Hz,Mel( )為梅爾頻率。梅爾倒頻譜系數(shù)的提取流程大致如圖 2-2 所示。
本文編號(hào):2736832
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:TN912.3;TP181
【圖文】:
而語音的預(yù)加重處理它可以彌補(bǔ)語音高頻部分并使其成為平坦更好地分析和處理頻譜信號(hào)。預(yù)加重通常以 6db/octave 數(shù)字濾波器頻率特性實(shí)現(xiàn)。當(dāng)語音信號(hào)受嘴巴的影響時(shí),高頻分量將具有更大的下降,因此在預(yù)加重之前通波器是絕對(duì)必要的。過濾器可以表示為公式 2-1 所示。 ( ) = 1 1 是預(yù)加重系數(shù),在這里 取 0.9375。(2)分幀分幀是把語音信號(hào)分割成若干片段,以每一個(gè)片段中心時(shí)刻的一小的的信號(hào)作為一個(gè)整體的語音單位,其單位為幀(frame)。這樣,到某一時(shí)刻語音信號(hào)的短時(shí)特征,對(duì)其進(jìn)行頻譜等處理,并分析幀續(xù)變化。語音信號(hào)的分幀可以是連續(xù)的方式,即相鄰的幀之間沒有分。但更多的時(shí)候分幀時(shí)相鄰的幀之間有交叉重疊,這相鄰幀之間分叫做幀移。一般情況下,把幀移的長度定為是幀長度的一半。每度一般取 10ms 到 20ms 之間。如圖 2-1 所示。
數(shù)有矩形窗、高斯窗、漢明(Hamming)窗等等。在本論文中使用的是漢明窗。漢明窗的時(shí)域表達(dá)式如公式 2-2 所示。 ( ) = 0.54 0.46 (2 1) (2-2)其中 是時(shí)間, ( )是漢明窗的窗函數(shù)。2.2.2 梅爾倒頻譜系數(shù)提取梅爾倒頻譜系數(shù)(Mel-frequency cepstral coefficients,MFCC)是當(dāng)前語音識(shí)別領(lǐng)域常用的特征,也是本文用到的語音識(shí)別特征之一,因此,這一節(jié)將介紹如何提取梅爾倒頻譜系數(shù)[33]。梅爾倒頻譜系數(shù)就是基于倒譜的梅爾頻率特征參數(shù),梅爾頻率和線性頻率的函數(shù)關(guān)系是非線性的,它們的函數(shù)關(guān)系如公式 2-3 中所示:Mel( ) = 2595 × lg 1 + 700 (2-3)其中的 為頻率,單位為 Hz,Mel( )為梅爾頻率。梅爾倒頻譜系數(shù)的提取流程大致如圖 2-2 所示。
【參考文獻(xiàn)】
相關(guān)博士學(xué)位論文 前1條
1 陶冶;文本語音匹配的研究和應(yīng)用[D];山東大學(xué);2009年
本文編號(hào):2736832
本文鏈接:http://sikaile.net/kejilunwen/wltx/2736832.html
最近更新
教材專著