天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 信息工程論文 >

基于GAN的音頻關(guān)鍵詞識別技術(shù)研究與應(yīng)用

發(fā)布時間:2021-03-06 08:57
  關(guān)鍵詞識別指在連續(xù)語音流中檢測出預(yù)定義關(guān)鍵詞。由于深度神經(jīng)網(wǎng)絡(luò)在語音識別方面有著突破性發(fā)展,近年來關(guān)鍵詞識別的研究主要是基于語音識別展開的。這類方法首先使用聲學(xué)模型和語言模型將語音信號解碼成文字,然后利用文本查找方法搜索關(guān)鍵詞。雖然這種方法能識別關(guān)鍵詞,但存在以下問題:1、關(guān)鍵詞識別準(zhǔn)確率受語音識別和文字查找方法影響。2、無法檢測無文字語言,該方法需要將語音轉(zhuǎn)成文字,對于無文字語言不適用,例如,方言、少數(shù)民族語言等。3、無法獲取關(guān)鍵詞的時序信息,音頻轉(zhuǎn)錄成文字后,損失了關(guān)鍵詞的時序信息,無法知悉關(guān)鍵詞處于音頻哪個時間段。針對問題2和問題3,本文設(shè)計一種能識別無文字語言關(guān)鍵詞且能準(zhǔn)確獲取關(guān)鍵詞時序信息的關(guān)鍵詞識別方法。本文將生成式對抗網(wǎng)絡(luò)用于關(guān)鍵詞識別,提出一種基于GAN的音頻關(guān)鍵詞識別方法,解決無文字語言關(guān)鍵詞檢測。在本文所提方法中,提取梅爾頻率倒譜系數(shù)后直接輸入生成式對抗網(wǎng)絡(luò)生成器,生成器獲取關(guān)鍵詞特征,輸出關(guān)鍵詞時序信息。GAN中判別網(wǎng)絡(luò)起監(jiān)督作用,它使生成器輸出序列更加貼近人工標(biāo)注的標(biāo)簽序列。為了獲取語音中關(guān)鍵詞的位置信息,該算法定義了一個定位損失函數(shù),這保證了生成的掩碼序列可以... 

【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校

【文章頁數(shù)】:86 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于GAN的音頻關(guān)鍵詞識別技術(shù)研究與應(yīng)用


倒譜參數(shù)計算過程

過程圖,特征提取,過程,倒譜


第二章關(guān)鍵詞識別相關(guān)理論基礎(chǔ)9倒譜是語音信號經(jīng)過短時傅里葉變換得到功率譜后經(jīng)對數(shù)運算后再進行傅里葉逆變換得到的譜。倒譜參數(shù)是語音信號重要的特征參數(shù),信號經(jīng)過同態(tài)處理之后就可得到倒譜參數(shù)。2.2特征提取在檢測語音中的關(guān)鍵詞之前,我們首先要從語音信號中提取出可有效表示該語音的特征參數(shù)。在語音識別中常用的幾種特征參數(shù)有感知線性預(yù)測系數(shù)(PerceptualLinearPredictive,PLP)[35]、梅爾頻率倒譜系數(shù)(MelFrequencyCepstralCoefficients,MFCC)[36]、濾波器組特征(Filterbank,F(xiàn)bank)[37],這三種特征均是倒譜域特征。由于梅爾頻率倒譜的頻帶是在Mel刻度上等距劃分的,頻率的尺度值與實際頻率的對數(shù)分布關(guān)系更符合人耳的聽覺特性,它比正常的對數(shù)倒頻譜中的線性間隔的頻帶更能近似表示人類的聽覺系統(tǒng)。由于MFCC具有上述特性,因此本文我們將其選做語音信號的特征。提取MFCC一般要經(jīng)過預(yù)處理、短時傅里葉變換、Mel濾波、倒譜計算等幾個步驟,其提取過程如圖2-2所示。圖2-2MFCC特征提取過程2.2.1預(yù)處理由于人類發(fā)聲器官和采集語音信號設(shè)備等原因,采集的信號一般存在諸如混疊、高次諧波失真、高頻等問題,為了使信號更均勻、平滑,需要對其做預(yù)處理。實際的語音信號是模擬信號,我們首先對模擬信號做離散化和量化處理,之后在進行預(yù)處理。預(yù)處理一般包括預(yù)加重、加窗和分鄭1、預(yù)加重。經(jīng)過離散化和量化之后信號的高頻部分容易衰減,為了阻止高頻部分衰減,那么就需要提升信號的高頻部分,預(yù)加重就是通過高通濾波器來完成這一目的的。預(yù)加重之后的信號頻譜變得均勻、平滑。預(yù)加重的方法是通過函數(shù)為()=11的高通濾波器來實現(xiàn)的。設(shè)時刻的語音采樣值為(),經(jīng)過預(yù)

關(guān)系圖,頻譜,線性,關(guān)系圖


第二章關(guān)鍵詞識別相關(guān)理論基礎(chǔ)11圖2-3線性頻譜與梅爾頻譜關(guān)系圖那么,經(jīng)過濾波器的梅爾頻譜見示(2-14),M代表梅爾濾波器的個數(shù)。s(m)=∑|Xn(k)|2Hm(k)N1k=0,0≤m≤M(2-14)2.2.3倒譜計算在梅爾頻譜上進行倒譜分析,即可獲得梅爾頻率倒譜系數(shù)。倒譜分析是指對Mel頻譜取對數(shù)、做傅里葉逆變換計算。傅里葉逆變換一般是通過離散余弦變換(DCT)來實現(xiàn)的,其表達式見示(2-15):C(n)=∑ln(s(m))cos(πn(m0.5)M)N1m=0,n=1,2,...,L(2-15)式中,|Xn(k)|2是經(jīng)過傅里葉變換得到的功率譜,其表達式在2.1.3小節(jié)中已經(jīng)做過介紹,L是指梅爾頻率倒譜系數(shù)的階數(shù),一般取12-16。2.3隱馬爾可夫模型目前語音識別系統(tǒng)最常用的聲學(xué)模型是隱馬爾可夫模型(HiddenMarkovModel,HMM)[38],在語音識別、自然語言處理、模式識別等領(lǐng)域被廣泛使用。HMM用來描述一個包含隱含未知參數(shù)的馬爾可夫過程,這個過程可描述為:由馬爾可夫鏈隨機生成不可觀察的狀態(tài)序列,然后每個狀態(tài)生成一個對應(yīng)的觀測值,從而產(chǎn)生觀察序列,用圖2-4來表示這個過程。圖中1,2,,表示狀態(tài)序列,是不可觀察的,1,2,,是觀察得到的序列,是可見的。那么,HMM可由一個五元組表示模型,見式(2-16):=(,,,,)(2-16)

【參考文獻】:
期刊論文
[1]基于深度可分離卷積神經(jīng)網(wǎng)絡(luò)的關(guān)鍵詞識別系統(tǒng)[J]. 王帥,彭意兵,何頂新.  微電子學(xué)與計算機. 2019(09)
[2]基于深度神經(jīng)網(wǎng)絡(luò)的關(guān)鍵詞識別系統(tǒng)[J]. 孫彥楠,夏秀渝.  計算機系統(tǒng)應(yīng)用. 2018(05)
[3]語音關(guān)鍵詞識別系統(tǒng)聲學(xué)模型構(gòu)建綜述[J]. 趙曉群,張揚.  燕山大學(xué)學(xué)報. 2017(06)
[4]改進的智能家居語音關(guān)鍵詞識別算法[J]. 張帥林.  電子科技. 2017(07)
[5]基于音素后驗概率的樣例語音關(guān)鍵詞檢測方法[J]. 張衛(wèi)強,宋貝利,蔡猛,劉加.  天津大學(xué)學(xué)報(自然科學(xué)與工程技術(shù)版). 2015(09)
[6]采用深層神經(jīng)網(wǎng)絡(luò)中間層特征的關(guān)鍵詞識別[J]. 劉學(xué),王年松,郭武.  小型微型計算機系統(tǒng). 2015(07)
[7]基于Microsoft Speech SDK的語音關(guān)鍵詞檢出系統(tǒng)的設(shè)計和實現(xiàn)[J]. 林茜,歐建林,蔡駿.  心智與計算. 2007(04)
[8]基于支持向量機的關(guān)鍵詞拒識算法[J]. 張搏,劉金福,張昆帆.  現(xiàn)代電子技術(shù). 2006(12)
[9]基于關(guān)鍵詞捕捉的中文語音網(wǎng)頁瀏覽器[J]. 袁長海,李星.  計算機工程與應(yīng)用. 2003(25)
[10]基于動態(tài)垃圾評價的語音確認方法[J]. 劉俊,朱小燕.  計算機學(xué)報. 2001(05)

碩士論文
[1]噪聲環(huán)境下的語音關(guān)鍵詞檢測[D]. 谷悅.內(nèi)蒙古大學(xué) 2019
[2]基于深度學(xué)習(xí)的漢語語音關(guān)鍵詞檢測方法研究[D]. 王朝松.哈爾濱工業(yè)大學(xué) 2015
[3]基于電話語音的維吾爾語關(guān)鍵詞識別系統(tǒng)研究[D]. 丁玉忠.新疆大學(xué) 2011



本文編號:3066806

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/3066806.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶5c237***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com