天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 信息工程論文 >

基于GAN的音頻關(guān)鍵詞識(shí)別技術(shù)研究與應(yīng)用

發(fā)布時(shí)間:2021-03-06 08:57
  關(guān)鍵詞識(shí)別指在連續(xù)語(yǔ)音流中檢測(cè)出預(yù)定義關(guān)鍵詞。由于深度神經(jīng)網(wǎng)絡(luò)在語(yǔ)音識(shí)別方面有著突破性發(fā)展,近年來(lái)關(guān)鍵詞識(shí)別的研究主要是基于語(yǔ)音識(shí)別展開(kāi)的。這類方法首先使用聲學(xué)模型和語(yǔ)言模型將語(yǔ)音信號(hào)解碼成文字,然后利用文本查找方法搜索關(guān)鍵詞。雖然這種方法能識(shí)別關(guān)鍵詞,但存在以下問(wèn)題:1、關(guān)鍵詞識(shí)別準(zhǔn)確率受語(yǔ)音識(shí)別和文字查找方法影響。2、無(wú)法檢測(cè)無(wú)文字語(yǔ)言,該方法需要將語(yǔ)音轉(zhuǎn)成文字,對(duì)于無(wú)文字語(yǔ)言不適用,例如,方言、少數(shù)民族語(yǔ)言等。3、無(wú)法獲取關(guān)鍵詞的時(shí)序信息,音頻轉(zhuǎn)錄成文字后,損失了關(guān)鍵詞的時(shí)序信息,無(wú)法知悉關(guān)鍵詞處于音頻哪個(gè)時(shí)間段。針對(duì)問(wèn)題2和問(wèn)題3,本文設(shè)計(jì)一種能識(shí)別無(wú)文字語(yǔ)言關(guān)鍵詞且能準(zhǔn)確獲取關(guān)鍵詞時(shí)序信息的關(guān)鍵詞識(shí)別方法。本文將生成式對(duì)抗網(wǎng)絡(luò)用于關(guān)鍵詞識(shí)別,提出一種基于GAN的音頻關(guān)鍵詞識(shí)別方法,解決無(wú)文字語(yǔ)言關(guān)鍵詞檢測(cè)。在本文所提方法中,提取梅爾頻率倒譜系數(shù)后直接輸入生成式對(duì)抗網(wǎng)絡(luò)生成器,生成器獲取關(guān)鍵詞特征,輸出關(guān)鍵詞時(shí)序信息。GAN中判別網(wǎng)絡(luò)起監(jiān)督作用,它使生成器輸出序列更加貼近人工標(biāo)注的標(biāo)簽序列。為了獲取語(yǔ)音中關(guān)鍵詞的位置信息,該算法定義了一個(gè)定位損失函數(shù),這保證了生成的掩碼序列可以... 

【文章來(lái)源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校

【文章頁(yè)數(shù)】:86 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于GAN的音頻關(guān)鍵詞識(shí)別技術(shù)研究與應(yīng)用


倒譜參數(shù)計(jì)算過(guò)程

過(guò)程圖,特征提取,過(guò)程,倒譜


第二章關(guān)鍵詞識(shí)別相關(guān)理論基礎(chǔ)9倒譜是語(yǔ)音信號(hào)經(jīng)過(guò)短時(shí)傅里葉變換得到功率譜后經(jīng)對(duì)數(shù)運(yùn)算后再進(jìn)行傅里葉逆變換得到的譜。倒譜參數(shù)是語(yǔ)音信號(hào)重要的特征參數(shù),信號(hào)經(jīng)過(guò)同態(tài)處理之后就可得到倒譜參數(shù)。2.2特征提取在檢測(cè)語(yǔ)音中的關(guān)鍵詞之前,我們首先要從語(yǔ)音信號(hào)中提取出可有效表示該語(yǔ)音的特征參數(shù)。在語(yǔ)音識(shí)別中常用的幾種特征參數(shù)有感知線性預(yù)測(cè)系數(shù)(PerceptualLinearPredictive,PLP)[35]、梅爾頻率倒譜系數(shù)(MelFrequencyCepstralCoefficients,MFCC)[36]、濾波器組特征(Filterbank,F(xiàn)bank)[37],這三種特征均是倒譜域特征。由于梅爾頻率倒譜的頻帶是在Mel刻度上等距劃分的,頻率的尺度值與實(shí)際頻率的對(duì)數(shù)分布關(guān)系更符合人耳的聽(tīng)覺(jué)特性,它比正常的對(duì)數(shù)倒頻譜中的線性間隔的頻帶更能近似表示人類的聽(tīng)覺(jué)系統(tǒng)。由于MFCC具有上述特性,因此本文我們將其選做語(yǔ)音信號(hào)的特征。提取MFCC一般要經(jīng)過(guò)預(yù)處理、短時(shí)傅里葉變換、Mel濾波、倒譜計(jì)算等幾個(gè)步驟,其提取過(guò)程如圖2-2所示。圖2-2MFCC特征提取過(guò)程2.2.1預(yù)處理由于人類發(fā)聲器官和采集語(yǔ)音信號(hào)設(shè)備等原因,采集的信號(hào)一般存在諸如混疊、高次諧波失真、高頻等問(wèn)題,為了使信號(hào)更均勻、平滑,需要對(duì)其做預(yù)處理。實(shí)際的語(yǔ)音信號(hào)是模擬信號(hào),我們首先對(duì)模擬信號(hào)做離散化和量化處理,之后在進(jìn)行預(yù)處理。預(yù)處理一般包括預(yù)加重、加窗和分鄭1、預(yù)加重。經(jīng)過(guò)離散化和量化之后信號(hào)的高頻部分容易衰減,為了阻止高頻部分衰減,那么就需要提升信號(hào)的高頻部分,預(yù)加重就是通過(guò)高通濾波器來(lái)完成這一目的的。預(yù)加重之后的信號(hào)頻譜變得均勻、平滑。預(yù)加重的方法是通過(guò)函數(shù)為()=11的高通濾波器來(lái)實(shí)現(xiàn)的。設(shè)時(shí)刻的語(yǔ)音采樣值為(),經(jīng)過(guò)預(yù)

關(guān)系圖,頻譜,線性,關(guān)系圖


第二章關(guān)鍵詞識(shí)別相關(guān)理論基礎(chǔ)11圖2-3線性頻譜與梅爾頻譜關(guān)系圖那么,經(jīng)過(guò)濾波器的梅爾頻譜見(jiàn)示(2-14),M代表梅爾濾波器的個(gè)數(shù)。s(m)=∑|Xn(k)|2Hm(k)N1k=0,0≤m≤M(2-14)2.2.3倒譜計(jì)算在梅爾頻譜上進(jìn)行倒譜分析,即可獲得梅爾頻率倒譜系數(shù)。倒譜分析是指對(duì)Mel頻譜取對(duì)數(shù)、做傅里葉逆變換計(jì)算。傅里葉逆變換一般是通過(guò)離散余弦變換(DCT)來(lái)實(shí)現(xiàn)的,其表達(dá)式見(jiàn)示(2-15):C(n)=∑ln(s(m))cos(πn(m0.5)M)N1m=0,n=1,2,...,L(2-15)式中,|Xn(k)|2是經(jīng)過(guò)傅里葉變換得到的功率譜,其表達(dá)式在2.1.3小節(jié)中已經(jīng)做過(guò)介紹,L是指梅爾頻率倒譜系數(shù)的階數(shù),一般取12-16。2.3隱馬爾可夫模型目前語(yǔ)音識(shí)別系統(tǒng)最常用的聲學(xué)模型是隱馬爾可夫模型(HiddenMarkovModel,HMM)[38],在語(yǔ)音識(shí)別、自然語(yǔ)言處理、模式識(shí)別等領(lǐng)域被廣泛使用。HMM用來(lái)描述一個(gè)包含隱含未知參數(shù)的馬爾可夫過(guò)程,這個(gè)過(guò)程可描述為:由馬爾可夫鏈隨機(jī)生成不可觀察的狀態(tài)序列,然后每個(gè)狀態(tài)生成一個(gè)對(duì)應(yīng)的觀測(cè)值,從而產(chǎn)生觀察序列,用圖2-4來(lái)表示這個(gè)過(guò)程。圖中1,2,,表示狀態(tài)序列,是不可觀察的,1,2,,是觀察得到的序列,是可見(jiàn)的。那么,HMM可由一個(gè)五元組表示模型,見(jiàn)式(2-16):=(,,,,)(2-16)

【參考文獻(xiàn)】:
期刊論文
[1]基于深度可分離卷積神經(jīng)網(wǎng)絡(luò)的關(guān)鍵詞識(shí)別系統(tǒng)[J]. 王帥,彭意兵,何頂新.  微電子學(xué)與計(jì)算機(jī). 2019(09)
[2]基于深度神經(jīng)網(wǎng)絡(luò)的關(guān)鍵詞識(shí)別系統(tǒng)[J]. 孫彥楠,夏秀渝.  計(jì)算機(jī)系統(tǒng)應(yīng)用. 2018(05)
[3]語(yǔ)音關(guān)鍵詞識(shí)別系統(tǒng)聲學(xué)模型構(gòu)建綜述[J]. 趙曉群,張揚(yáng).  燕山大學(xué)學(xué)報(bào). 2017(06)
[4]改進(jìn)的智能家居語(yǔ)音關(guān)鍵詞識(shí)別算法[J]. 張帥林.  電子科技. 2017(07)
[5]基于音素后驗(yàn)概率的樣例語(yǔ)音關(guān)鍵詞檢測(cè)方法[J]. 張衛(wèi)強(qiáng),宋貝利,蔡猛,劉加.  天津大學(xué)學(xué)報(bào)(自然科學(xué)與工程技術(shù)版). 2015(09)
[6]采用深層神經(jīng)網(wǎng)絡(luò)中間層特征的關(guān)鍵詞識(shí)別[J]. 劉學(xué),王年松,郭武.  小型微型計(jì)算機(jī)系統(tǒng). 2015(07)
[7]基于Microsoft Speech SDK的語(yǔ)音關(guān)鍵詞檢出系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)[J]. 林茜,歐建林,蔡駿.  心智與計(jì)算. 2007(04)
[8]基于支持向量機(jī)的關(guān)鍵詞拒識(shí)算法[J]. 張搏,劉金福,張昆帆.  現(xiàn)代電子技術(shù). 2006(12)
[9]基于關(guān)鍵詞捕捉的中文語(yǔ)音網(wǎng)頁(yè)瀏覽器[J]. 袁長(zhǎng)海,李星.  計(jì)算機(jī)工程與應(yīng)用. 2003(25)
[10]基于動(dòng)態(tài)垃圾評(píng)價(jià)的語(yǔ)音確認(rèn)方法[J]. 劉俊,朱小燕.  計(jì)算機(jī)學(xué)報(bào). 2001(05)

碩士論文
[1]噪聲環(huán)境下的語(yǔ)音關(guān)鍵詞檢測(cè)[D]. 谷悅.內(nèi)蒙古大學(xué) 2019
[2]基于深度學(xué)習(xí)的漢語(yǔ)語(yǔ)音關(guān)鍵詞檢測(cè)方法研究[D]. 王朝松.哈爾濱工業(yè)大學(xué) 2015
[3]基于電話語(yǔ)音的維吾爾語(yǔ)關(guān)鍵詞識(shí)別系統(tǒng)研究[D]. 丁玉忠.新疆大學(xué) 2011



本文編號(hào):3066806

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/3066806.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶5c237***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com