天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 信息工程論文 >

基于深層神經(jīng)網(wǎng)絡(luò)的多聲音事件檢測方法研究

發(fā)布時間:2020-08-04 08:58
【摘要】:聲音作為人類感知周圍環(huán)境和相互交流的重要信息來源,一直受到廣泛研究者的關(guān)注和青睞。多聲音事件檢測就是使用機器對聲音進行分析,判斷出其中包含的內(nèi)容,比如是“講話聲”還是“腳步聲”,或者“講話聲”和“腳步聲”同時發(fā)生。聲音事件檢測在安全監(jiān)控、異常檢測、情景感知、生物監(jiān)測和內(nèi)容檢索中有著廣泛的應(yīng)用前景。傳統(tǒng)的多聲音事件檢測系統(tǒng)主要使用非負矩陣分解(Non-negative matrix factorization,NMF)、高斯混合模型和隱馬爾可夫模型(GMM-HMM)等。近幾年,隨著深度學(xué)習(xí)的迅速發(fā)展,基于深度神經(jīng)網(wǎng)絡(luò)的方法給檢測性能帶來了突破性進展。深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)相繼在聲音事件檢測中獲得了成功應(yīng)用。然而,這些基于深度神經(jīng)網(wǎng)絡(luò)的方法沒有針對性地解決多聲音事件檢測中的兩個難點問題:事件間重疊以及數(shù)據(jù)量較少。因此目前事件檢測的整體性能還比較低,這給其實用化帶來了巨大的困難。本文圍繞上述的兩個難點問題,展開基于深度神經(jīng)網(wǎng)絡(luò)的多聲音事件檢測方法的研究。首先,從有效特征提取的角度出發(fā),搭建了基于CNN-RNN的基線系統(tǒng)。我們使用CNN提取特征中的事件譜結(jié)構(gòu)信息,并使用RNN對時間上下文信息建模。實驗結(jié)果表明,和傳統(tǒng)方法相比,這種方法可以取得更好的檢測性能。其次,從事件重疊的角度出發(fā),提出了基于CapsNet-RNN的多聲音事件檢測模型。我們使用膠囊對事件進行多角度建模,利用路由算法讓網(wǎng)絡(luò)從局部特征預(yù)測事件,并在此基礎(chǔ)上使用RNN學(xué)習(xí)上下文信息。實驗表明,這種方法在識別不同事件時具有挑選特征頻帶和通道的能力,有效提升了重疊事件的檢測性能。此外,從當(dāng)前標(biāo)注數(shù)據(jù)集較小的角度出發(fā),將自訓(xùn)練的半監(jiān)督學(xué)習(xí)方法應(yīng)用于多聲音事件檢測。實驗表明該方法可以顯著增加可訓(xùn)練數(shù)據(jù),改善檢測性能。最后,構(gòu)建了兩個基于變壓器的聲音數(shù)據(jù)庫,并在變壓器場景下驗證了上述CNN-RNN和CapsNet-RNN方法的有效性。
【學(xué)位授予單位】:中國科學(xué)技術(shù)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:TP183;TN912.3
【圖文】:

波形,事件檢測,例子,事件


;;對某個觀點或行為的贊同。聲音事件檢測(Sound邋Event邋Detection,邋SED),就逡逑機器設(shè)備能夠分辨聲音中的這些事件內(nèi)容,即精確地標(biāo)注出輸入聲音信號逡逑個事件的開始和結(jié)束時間信息。聲音事件檢測與數(shù)字信號處理、概率論、數(shù)逡逑計、人工智能、計算機以及yL經(jīng)生理學(xué)有著密不可分的關(guān)系,是廣泛關(guān)聯(lián)的逡逑課題,具有重要的研宄價值。逡逑從任務(wù)類型來區(qū)分,聲音事件檢測分為單聲音事件檢測(Monophonic邋Sound逡逑ent邋Detection,邋MSED)和多聲音事件檢測(Polyphonic邋Sound邋Event邋Detection,逡逑ED)。單聲音事件檢測任務(wù)中每個時刻至多只檢測出一種事件,而在多聲音事逡逑測中每個時刻則可能同時檢測出兩個或兩個以上的事件。一個多聲音事件逡逑的例子見圖丨.1,圖中上部分為音頻波形,下部分為幾個事件的出現(xiàn)時間。顯逡逑易見,大部分實際場景是多個事件同時發(fā)生,這使得多聲音事件檢測比單聲音逡逑檢測有更高的研宄價值和應(yīng)用價值。本課題所研宄的內(nèi)容即為多聲音事件逡逑。需要說明的是,本文中未經(jīng)特殊說明,“事件檢測”或者“聲音事件檢測”逡逑“多聲音事件檢測”,“事件”特指“聲音事件”。逡逑/邐邋'邋\逡逑

功率譜,事件檢測,系統(tǒng)框架,神經(jīng)網(wǎng)絡(luò)


圖1.2基于深度神經(jīng)網(wǎng)絡(luò)的多聲音事件檢測系統(tǒng)框架逡逑(1)特征提取模塊逡逑從音頻中提取聲音特征。一般情況下,以20-200ms為幀長進行分幀,隨后以幀逡逑為單位計算聲學(xué)特征,常用的特征有梅爾倒譜系數(shù)(MFCC)[19,77】、梅爾能量(Mel逡逑Energies)163-64】、幅度譜(Amplitude邋Spectrum)丨78】和功率譜(Power邋Spectrum)[61]等。逡逑得到特征后,根據(jù)模型選擇是否對特征值進行幅度歸一化以及分段操作。此外,逡逑也可以在提取特征前對音頻進行幅度歸一化、聲源分離、噪聲抑制等預(yù)處理。逡逑(2)標(biāo)注讀取模塊逡逑標(biāo)注讀取主要是從文本標(biāo)簽中提取事件發(fā)生和結(jié)束的時間信息,將其按照逡逑特征的長度轉(zhuǎn)化成離散序列串,使得標(biāo)注和特征在幀級別上一一對應(yīng)。最終將標(biāo)逡逑注數(shù)值化為二值矩陣,矩陣的橫軸代表幀的序號,縱軸代表不同事件(見圖1.2中逡逑的標(biāo)注數(shù)值化矩陣),相應(yīng)事件出現(xiàn)的位置值為I,否則為0。例如以40ms為幀逡逑長,20ms為幀移,事件A發(fā)生在0.60s-0.68s這段時間,則二值矩陣中第31幀逡逑一

模型圖,事件檢測,模型,隱層


2.2.2基于DNN的檢測模型逡逑基于DNN的多聲音事件檢測模型是被證明優(yōu)于GMM-HMM或者NMF模逡逑型的,其模型框圖如圖2.2所示。與典型的GMM-HMM或者NMF相比,DNN模逡逑型有如下特點:1)可以處理多分類任務(wù);2)具有更強的特征編碼能力;3)可以逡逑適應(yīng)各種類型的輸入特征。逡逑1|010 ̄---|邋1邋10|邐一?預(yù)測向量邋t逡逑0.91邋0.1邋I邋0.2|邋?邋??邋1邋0.810.11邐—?后驗概率p逡逑邐隱邋yL邐逡逑邐隱層L-1邐逡逑隱層2逡逑邐^1邐逡逑p邐■邋一^特征、逡逑圖2.2基于DNN的多聲音事件檢測模型逡逑在基于DNN的多聲音事件檢測系統(tǒng)中,對音頻分幀后分別估計每幀中所有逡逑事件的出現(xiàn)概率卩(3^(/0丨\,0),這里化為類別編號&邋=邋1,2,...,尺,其中0是分逡逑類器的參數(shù),輸入特征&是從第f幀提取的音頻特征,欠是總事件類別數(shù)。隨逡逑后,輸入特征七送入DNN后經(jīng)過一系列隱層,且在最后一層(隱層L)使用逡逑Sigmoid作為非線性激活函數(shù)。測試時采用固定的閾值"對隱層L得到的后驗概逡逑率jPCVt(fc)|\,0)進行判決,若后驗概率P(3^(fc)lxf,0)大于閾值M則認為事件i逡逑出現(xiàn),否則認為該事件沒有出現(xiàn),分別用丨和0來表示。模型的最后得到每個事逡逑件是否出現(xiàn)的預(yù)測向量負,長度為類別數(shù)欠。逡逑需要注意的是

【相似文獻】

相關(guān)期刊論文 前10條

1 ;更正啟示[J];測繪與空間地理信息;2017年11期

2 續(xù)宏;趙文潔;;高速公路事件檢測系統(tǒng)發(fā)展趨勢[J];中國交通信息化;2012年11期

3 張婧麗;周文tD;洪宇;姚建民;周國棟;朱巧明;;基于框架語義擴展訓(xùn)練集的有監(jiān)督事件檢測方法[J];中文信息學(xué)報;2019年05期

4 湯偉;付雅文;;大規(guī)模RFID復(fù)雜事件檢測優(yōu)化技術(shù)研究[J];信息與電腦(理論版);2009年10期

5 王亞;徐傳飛;陳艷格;;基于內(nèi)外存調(diào)度的長過程復(fù)雜事件檢測[J];計算機科學(xué);2012年08期

6 王永恒;楊圣洪;郭波;;高效的射頻識別數(shù)據(jù)流層次復(fù)雜事件檢測[J];計算機工程;2010年06期

7 劉娜;;視頻事件檢測系統(tǒng)技術(shù)方案升級及管理新思路淺談[J];中國交通信息化;2018年06期

8 陸W毥

本文編號:2780333


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/2780333.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶e187d***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com