基于LSTM網(wǎng)絡(luò)的聲學(xué)場景在線檢測系統(tǒng)
發(fā)布時(shí)間:2020-07-02 03:02
【摘要】:隨著互聯(lián)網(wǎng)的發(fā)展,多媒體技術(shù)的提升以及移動(dòng)設(shè)備的大量普及,出現(xiàn)了大量的以線上直播為主要業(yè)務(wù)的網(wǎng)絡(luò)平臺(tái)。以短視頻分享為主要業(yè)務(wù)的應(yīng)用也日漸流行,目標(biāo)用戶也越來越廣泛。平臺(tái)和應(yīng)用上承載的數(shù)據(jù)量之大、種類之龐雜,給用戶搜索想要的數(shù)據(jù)資源帶來了極大不便,同時(shí)也給網(wǎng)絡(luò)數(shù)據(jù)的監(jiān)管造成了麻煩。本文針對(duì)上述多媒體應(yīng)用中的在線音頻數(shù)據(jù),搭建一套可以識(shí)別音頻聲學(xué)場景類別的在線檢測系統(tǒng)。論文的主要內(nèi)容有:(1)基于混合高斯模型(Gaussian Mixed Model,GMM)的聲學(xué)場景識(shí)別方法。本文簡要介紹了DCASE2016 Task1聲學(xué)場景識(shí)別比賽,以及基于GMM的聲學(xué)場景識(shí)別基線系統(tǒng)。該基線系統(tǒng)所使用的特征是梅爾頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)。對(duì)每個(gè)場景類型訓(xùn)練一個(gè)GMM模型。分類時(shí),在各GMM模型的輸出中選出最大值,其對(duì)應(yīng)的類作為數(shù)據(jù)的預(yù)測類別。(2)基于長短時(shí)記憶網(wǎng)絡(luò)(Long Short Term Memory Network,LSTM)的聲學(xué)場景識(shí)別方法。其主要目的是利用基于LSTM網(wǎng)絡(luò)的聲學(xué)場景識(shí)別模型,對(duì)具有鮮明聲學(xué)場景特性的音頻流進(jìn)行區(qū)分。文中在介紹LSTM網(wǎng)絡(luò)結(jié)構(gòu)特點(diǎn)的基礎(chǔ)上,闡述了與所研究模型相關(guān)的音頻預(yù)處理、特征提取、分段處理、LSTM識(shí)別模型的訓(xùn)練和測試等過程,最后給出了該識(shí)別模型的測試結(jié)果。該方法使用DCASE2016 Task1聲學(xué)場景識(shí)別比賽的數(shù)據(jù)集,最高達(dá)到了81.8%的準(zhǔn)確率。(3)在線檢測系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)。在線音頻數(shù)據(jù)中的聲學(xué)場景類別是開集,離線的訓(xùn)練數(shù)據(jù)無法包含在線數(shù)據(jù)中的所有類別。因此本文提出了一種能夠動(dòng)態(tài)區(qū)分在線數(shù)據(jù)中是否含有新類別數(shù)據(jù)的系統(tǒng)框架,并且能夠及時(shí)地將新類別納入到在線檢測系統(tǒng)進(jìn)行分析。為此設(shè)計(jì)了GMM區(qū)分模型以及基于LSTM的聲學(xué)場景識(shí)別模型。最后,系統(tǒng)的測試結(jié)果表明基于LSTM的識(shí)別模型可以進(jìn)行聲學(xué)場景的在線分類,新的聲學(xué)場景類別可以被系統(tǒng)接受并識(shí)別。
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:TN912.34
【圖文】:
LSTM 網(wǎng)絡(luò)為了解決 RNN 中出現(xiàn)的梯度消失和梯度爆炸的問題,學(xué)者們提出方案,包括:通過正交初始化避免訓(xùn)練初期階段的梯度消失或爆炸ctified Linear Unit)激活函數(shù)緩解梯度消失現(xiàn)象、梯度剪切解決梯度LSTM 單元控制梯度消失等[1]。其中 LSTM 已經(jīng)成功應(yīng)用于機(jī)器翻譯、對(duì)話生成等領(lǐng)域,展現(xiàn)出了出色的建模能力。因此本文基于 LSTM 網(wǎng)絡(luò)單元搭建聲學(xué)場景識(shí)別可以充分利用其任意長度序列均可作為輸入的特點(diǎn),將之利用于在別中。LSTM 通過引入單元狀態(tài)(cell state)和三個(gè)控制門:輸入門(input g門(output gate)、遺忘門(forget gate)來解決 RNN 不能處理長題[38]。其單元結(jié)構(gòu)如圖 3-2 所示。
第 4 章 在線檢測系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)為了減少在拒識(shí)數(shù)據(jù)中發(fā)現(xiàn)新類別的人工干涉,對(duì)那些留存的拒識(shí)數(shù)據(jù)進(jìn)行分類時(shí),采用 Canopy 聚類算法[49]預(yù)先對(duì)這些數(shù)據(jù)進(jìn)行聚類,然后可以通過人工核驗(yàn)的方式確定所聚出的新類別的意義,并進(jìn)行標(biāo)注。這些新類別數(shù)據(jù)連同可識(shí)別數(shù)據(jù)一起形成再訓(xùn)練數(shù)據(jù)集,用于在原有 LSTM 識(shí)別模型基礎(chǔ)上進(jìn)行再訓(xùn)練,得到新的 LSTM 識(shí)別模型。同時(shí)也使用再訓(xùn)練數(shù)據(jù)集重新訓(xùn)練 GMM區(qū)分模型,使得新類別數(shù)據(jù)在新模型被啟用后也可以被順利接收。綜上所述,系統(tǒng)可以在接收、識(shí)別新類別數(shù)據(jù)的能力上,進(jìn)行動(dòng)態(tài)的增量提升。聲學(xué)場景在線檢測的增量模型框架大致如圖 4-1 所示。
本文編號(hào):2737646
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:TN912.34
【圖文】:
LSTM 網(wǎng)絡(luò)為了解決 RNN 中出現(xiàn)的梯度消失和梯度爆炸的問題,學(xué)者們提出方案,包括:通過正交初始化避免訓(xùn)練初期階段的梯度消失或爆炸ctified Linear Unit)激活函數(shù)緩解梯度消失現(xiàn)象、梯度剪切解決梯度LSTM 單元控制梯度消失等[1]。其中 LSTM 已經(jīng)成功應(yīng)用于機(jī)器翻譯、對(duì)話生成等領(lǐng)域,展現(xiàn)出了出色的建模能力。因此本文基于 LSTM 網(wǎng)絡(luò)單元搭建聲學(xué)場景識(shí)別可以充分利用其任意長度序列均可作為輸入的特點(diǎn),將之利用于在別中。LSTM 通過引入單元狀態(tài)(cell state)和三個(gè)控制門:輸入門(input g門(output gate)、遺忘門(forget gate)來解決 RNN 不能處理長題[38]。其單元結(jié)構(gòu)如圖 3-2 所示。
第 4 章 在線檢測系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)為了減少在拒識(shí)數(shù)據(jù)中發(fā)現(xiàn)新類別的人工干涉,對(duì)那些留存的拒識(shí)數(shù)據(jù)進(jìn)行分類時(shí),采用 Canopy 聚類算法[49]預(yù)先對(duì)這些數(shù)據(jù)進(jìn)行聚類,然后可以通過人工核驗(yàn)的方式確定所聚出的新類別的意義,并進(jìn)行標(biāo)注。這些新類別數(shù)據(jù)連同可識(shí)別數(shù)據(jù)一起形成再訓(xùn)練數(shù)據(jù)集,用于在原有 LSTM 識(shí)別模型基礎(chǔ)上進(jìn)行再訓(xùn)練,得到新的 LSTM 識(shí)別模型。同時(shí)也使用再訓(xùn)練數(shù)據(jù)集重新訓(xùn)練 GMM區(qū)分模型,使得新類別數(shù)據(jù)在新模型被啟用后也可以被順利接收。綜上所述,系統(tǒng)可以在接收、識(shí)別新類別數(shù)據(jù)的能力上,進(jìn)行動(dòng)態(tài)的增量提升。聲學(xué)場景在線檢測的增量模型框架大致如圖 4-1 所示。
【參考文獻(xiàn)】
相關(guān)期刊論文 前4條
1 鄭貴濱;韓紀(jì)慶;李海峰;鄭鐵然;;基于分段的實(shí)時(shí)聲頻檢索方法[J];聲學(xué)學(xué)報(bào);2006年02期
2 陳振標(biāo),徐波;基于子帶能量特征的最優(yōu)化語音端點(diǎn)檢測算法研究[J];聲學(xué)學(xué)報(bào);2005年02期
3 韓紀(jì)慶;張磊;鄭鐵然;;網(wǎng)絡(luò)環(huán)境下的語音識(shí)別方法[J];計(jì)算機(jī)科學(xué);2005年01期
4 宋博,須德;音頻信息檢索的研究及實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用;2003年12期
相關(guān)會(huì)議論文 前1條
1 姜洪臣;梁偉;張樹武;徐波;;音頻場景分類的音頻特征提取和分析[A];第八屆全國人機(jī)語音通訊學(xué)術(shù)會(huì)議論文集[C];2005年
相關(guān)碩士學(xué)位論文 前2條
1 張強(qiáng);網(wǎng)絡(luò)音頻數(shù)據(jù)分類標(biāo)注與前處理系統(tǒng)構(gòu)建[D];哈爾濱工業(yè)大學(xué);2012年
2 胡艷芳;廣播音頻的自動(dòng)分段分類技術(shù)[D];清華大學(xué);2009年
本文編號(hào):2737646
本文鏈接:http://sikaile.net/kejilunwen/wltx/2737646.html
最近更新
教材專著