當(dāng)前位置：主頁 > 科技論文 > 網(wǎng)絡(luò)通信論文 >

基于LSTM網(wǎng)絡(luò)的聲學(xué)場景在線檢測系統(tǒng)

發(fā)布時(shí)間：2020-07-02 03:02

【摘要】：隨著互聯(lián)網(wǎng)的發(fā)展,多媒體技術(shù)的提升以及移動(dòng)設(shè)備的大量普及,出現(xiàn)了大量的以線上直播為主要業(yè)務(wù)的網(wǎng)絡(luò)平臺(tái)。以短視頻分享為主要業(yè)務(wù)的應(yīng)用也日漸流行,目標(biāo)用戶也越來越廣泛。平臺(tái)和應(yīng)用上承載的數(shù)據(jù)量之大、種類之龐雜,給用戶搜索想要的數(shù)據(jù)資源帶來了極大不便,同時(shí)也給網(wǎng)絡(luò)數(shù)據(jù)的監(jiān)管造成了麻煩。本文針對上述多媒體應(yīng)用中的在線音頻數(shù)據(jù),搭建一套可以識(shí)別音頻聲學(xué)場景類別的在線檢測系統(tǒng)。論文的主要內(nèi)容有:(1)基于混合高斯模型(Gaussian Mixed Model,GMM)的聲學(xué)場景識(shí)別方法。本文簡要介紹了DCASE2016 Task1聲學(xué)場景識(shí)別比賽,以及基于GMM的聲學(xué)場景識(shí)別基線系統(tǒng)。該基線系統(tǒng)所使用的特征是梅爾頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)。對每個(gè)場景類型訓(xùn)練一個(gè)GMM模型。分類時(shí),在各GMM模型的輸出中選出最大值,其對應(yīng)的類作為數(shù)據(jù)的預(yù)測類別。(2)基于長短時(shí)記憶網(wǎng)絡(luò)(Long Short Term Memory Network,LSTM)的聲學(xué)場景識(shí)別方法。其主要目的是利用基于LSTM網(wǎng)絡(luò)的聲學(xué)場景識(shí)別模型,對具有鮮明聲學(xué)場景特性的音頻流進(jìn)行區(qū)分。文中在介紹LSTM網(wǎng)絡(luò)結(jié)構(gòu)特點(diǎn)的基礎(chǔ)上,闡述了與所研究模型相關(guān)的音頻預(yù)處理、特征提取、分段處理、LSTM識(shí)別模型的訓(xùn)練和測試等過程,最后給出了該識(shí)別模型的測試結(jié)果。該方法使用DCASE2016 Task1聲學(xué)場景識(shí)別比賽的數(shù)據(jù)集,最高達(dá)到了81.8%的準(zhǔn)確率。(3)在線檢測系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)。在線音頻數(shù)據(jù)中的聲學(xué)場景類別是開集,離線的訓(xùn)練數(shù)據(jù)無法包含在線數(shù)據(jù)中的所有類別。因此本文提出了一種能夠動(dòng)態(tài)區(qū)分在線數(shù)據(jù)中是否含有新類別數(shù)據(jù)的系統(tǒng)框架,并且能夠及時(shí)地將新類別納入到在線檢測系統(tǒng)進(jìn)行分析。為此設(shè)計(jì)了GMM區(qū)分模型以及基于LSTM的聲學(xué)場景識(shí)別模型。最后,系統(tǒng)的測試結(jié)果表明基于LSTM的識(shí)別模型可以進(jìn)行聲學(xué)場景的在線分類,新的聲學(xué)場景類別可以被系統(tǒng)接受并識(shí)別。
【學(xué)位授予單位】：哈爾濱工業(yè)大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2018
【分類號(hào)】：TN912.34
【圖文】：

序列,乘號(hào),控制門,網(wǎng)絡(luò)單元

LSTM 網(wǎng)絡(luò)為了解決 RNN 中出現(xiàn)的梯度消失和梯度爆炸的問題，學(xué)者們提出方案，包括：通過正交初始化避免訓(xùn)練初期階段的梯度消失或爆炸ctified Linear Unit）激活函數(shù)緩解梯度消失現(xiàn)象、梯度剪切解決梯度LSTM 單元控制梯度消失等[1]。其中 LSTM 已經(jīng)成功應(yīng)用于機(jī)器翻譯、對話生成等領(lǐng)域，展現(xiàn)出了出色的建模能力。因此本文基于 LSTM 網(wǎng)絡(luò)單元搭建聲學(xué)場景識(shí)別可以充分利用其任意長度序列均可作為輸入的特點(diǎn)，將之利用于在別中。LSTM 通過引入單元狀態(tài)（cell state）和三個(gè)控制門：輸入門（input g門（output gate）、遺忘門（forget gate）來解決 RNN 不能處理長題[38]。其單元結(jié)構(gòu)如圖 3-2 所示。

框架圖,增量模型,在線檢測,聲學(xué)

第 4 章在線檢測系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)為了減少在拒識(shí)數(shù)據(jù)中發(fā)現(xiàn)新類別的人工干涉，對那些留存的拒識(shí)數(shù)據(jù)進(jìn)行分類時(shí)，采用 Canopy 聚類算法[49]預(yù)先對這些數(shù)據(jù)進(jìn)行聚類，然后可以通過人工核驗(yàn)的方式確定所聚出的新類別的意義，并進(jìn)行標(biāo)注。這些新類別數(shù)據(jù)連同可識(shí)別數(shù)據(jù)一起形成再訓(xùn)練數(shù)據(jù)集，用于在原有 LSTM 識(shí)別模型基礎(chǔ)上進(jìn)行再訓(xùn)練，得到新的 LSTM 識(shí)別模型。同時(shí)也使用再訓(xùn)練數(shù)據(jù)集重新訓(xùn)練 GMM區(qū)分模型，使得新類別數(shù)據(jù)在新模型被啟用后也可以被順利接收。綜上所述，系統(tǒng)可以在接收、識(shí)別新類別數(shù)據(jù)的能力上，進(jìn)行動(dòng)態(tài)的增量提升。聲學(xué)場景在線檢測的增量模型框架大致如圖 4-1 所示。

【參考文獻(xiàn)】

相關(guān)期刊論文前4條

1 鄭貴濱;韓紀(jì)慶;李海峰;鄭鐵然;;基于分段的實(shí)時(shí)聲頻檢索方法[J];聲學(xué)學(xué)報(bào);2006年02期

2 陳振標(biāo),徐波;基于子帶能量特征的最優(yōu)化語音端點(diǎn)檢測算法研究[J];聲學(xué)學(xué)報(bào);2005年02期

3 韓紀(jì)慶;張磊;鄭鐵然;;網(wǎng)絡(luò)環(huán)境下的語音識(shí)別方法[J];計(jì)算機(jī)科學(xué);2005年01期

4 宋博,須德;音頻信息檢索的研究及實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用;2003年12期

相關(guān)會(huì)議論文前1條

1 姜洪臣;梁偉;張樹武;徐波;;音頻場景分類的音頻特征提取和分析[A];第八屆全國人機(jī)語音通訊學(xué)術(shù)會(huì)議論文集[C];2005年

相關(guān)碩士學(xué)位論文前2條

1 張強(qiáng);網(wǎng)絡(luò)音頻數(shù)據(jù)分類標(biāo)注與前處理系統(tǒng)構(gòu)建[D];哈爾濱工業(yè)大學(xué);2012年

2 胡艷芳;廣播音頻的自動(dòng)分段分類技術(shù)[D];清華大學(xué);2009年

本文編號(hào)：2737646

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/wltx/2737646.html

上一篇：通用濾波多載波及其在非完美同步條件下的傳輸性能研究
下一篇：室溫下電磁感應(yīng)光柵效應(yīng)的研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于LSTM網(wǎng)絡(luò)的聲學(xué)場景在線檢測系統(tǒng)