面向多信道不均衡數(shù)據(jù)的聲學(xué)場景分類方法

發(fā)布時間：2021-11-15 20:47

　　聲音信號在生活中無處不在,人們一直在嘗試著合理地將其利用。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,聲音信號處理的能力在不斷提高,給人們的生活帶來了諸多便利。聲學(xué)場景分類作為信號處理的新興研究領(lǐng)域,近年來受到越來越多的關(guān)注,其已經(jīng)被有效應(yīng)用在情境感知等設(shè)備上。在生活中,錄音設(shè)備的種類多種多樣,由于這些設(shè)備信道的差異,導(dǎo)致即使在同時同地,它們所錄制到的音頻數(shù)據(jù)也可能存在不同。此外,由于多種原因采用不同設(shè)備所獲得的聲音數(shù)據(jù)量也可能不同,因此存在數(shù)據(jù)不均衡的問題。信道差異及數(shù)據(jù)不均衡的影響給聲學(xué)場景分類任務(wù)的研究帶來很大的困難。本文重點研究多信道不均衡數(shù)據(jù)影響下的聲學(xué)場景分類問題。首先,提出基于FBank特征的卷積網(wǎng)絡(luò)聲學(xué)場景分類方法,對所有數(shù)據(jù)不區(qū)分設(shè)備地提取FBank聲學(xué)特征,使用卷積神經(jīng)網(wǎng)絡(luò)對特征進(jìn)行分類,使用交叉熵作為模型的損失函數(shù)。該方法作為本文的基線系統(tǒng)。隨后,提出基于信道無關(guān)嵌入特征的聲學(xué)場景分類方法。不同設(shè)備在同時同地錄制所得到的平行數(shù)據(jù)對包含完全一致的語義信息,而差別僅為信道不同�？紤]到從原始音頻數(shù)據(jù)提取的FBank特征中會包含設(shè)備的信道信息,其與聲學(xué)場景無關(guān)且會影響模型的分類準(zhǔn)確率。因此,...

【文章來源】：哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校

【文章頁數(shù)】：62 頁

【學(xué)位級別】：碩士

【部分圖文】：

FBank特征提取流程圖

示意圖,濾波器,頻率,示意圖

哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文-10-圖2-2Mel頻率濾波器組示意圖三角濾波器的頻率響應(yīng)為，0,(1)2((1)),(1)()((1)(1))(()(1))()2((1)),()(1)((1)(1))(()(1))mkfmkfmfmkfmfmfmfmfmHkfmkfmkfmfmfmfmfm<≤≤+=+≤≤++0,kf(m1)≥（2-8）式中10()1MmmHk=∑=。使用Mel濾波器組對能量譜E(k)處理后的結(jié)果為，10()()(),1,2,...,NmkEmEkHkmM==∑=（2-9）（6）取對數(shù)得到的E(m)結(jié)果要進(jìn)行取對數(shù)計算，這樣的非線性關(guān)系更符合人耳，并且可以將E(m)中過大的值縮放，公式為，logFBank=E(m)=ln(E(m)),m=1,2,...,M（2-10）2.3卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks，CNN)最早可以追溯到上世紀(jì)中后期，1962年Hubel和Wiesel對貓的大腦視覺系統(tǒng)進(jìn)行研究，提出了感受野(Receptivefields)的概念[29]，在視覺系統(tǒng)的信息處理領(lǐng)域做出了杰出貢獻(xiàn)。1980年日本人工智能專家福島邦彥受到脊椎動物視覺神經(jīng)系統(tǒng)的啟發(fā)，提出了一個包含卷積層、池化層的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)[30]，具有位置特征的平移不變性和對形狀的輕微畸變不敏感性，是現(xiàn)代卷積神經(jīng)網(wǎng)絡(luò)的鼻祖。1998年，深度學(xué)習(xí)三巨頭之一的

示意圖,卷積,卷積核,示意圖

哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文-12-中，常見的有DNN-HMM[42]、CNN[43]、LSTM[44]�，F(xiàn)階段，F(xiàn)Bank特征和卷積神經(jīng)網(wǎng)絡(luò)框架的組合方式在聲學(xué)場景分類任務(wù)中出現(xiàn)的次數(shù)越來越多。通用的卷積網(wǎng)絡(luò)框架包含卷積層、池化層、激活層、全連接層、批標(biāo)準(zhǔn)化層等。2.3.1卷積層卷積是通過兩個函數(shù)f和g生成第三個函數(shù)的一種數(shù)學(xué)算子，設(shè)f(x)和g(x)為R1上的兩個可積函數(shù)，兩者卷積得到新函數(shù)h(x)如式（2-11）所示，其連續(xù)的定義如式（2-12）所示，離散的定義如式（2-13）所示。h(x)=(f*g)(x)(2-11)(f*g)(x)f(τ)g(xτ)dτ∞∞=∫(2-12)(f*g)(x)f()g(x)τττ∞=∞=∑(2-13)卷積層對輸入數(shù)據(jù)的處理主要依靠卷積核(Filter)的計算，卷積核的大小通常為奇數(shù)，以輸入5×5矩陣，卷積核大小3×3為例，計算卷積首先將卷積核旋轉(zhuǎn)180度，輸入矩陣與卷積核對應(yīng)位置相乘，得到的結(jié)果即為該區(qū)域卷積后的結(jié)果，移動固定的步長，直到所有區(qū)域都計算完畢，計算如圖2-3所示。圖2-3卷積計算示意圖在AlexNet中使用的是11×11和5×5這樣較大的卷積核，因為在當(dāng)時人們的觀念中，大的卷積核即擁有較大的感受野，這樣觀察到的信息就會更多，然而選擇較大的卷積核所帶來的缺點是計算量過于龐大，導(dǎo)致無法搭建深層的模型，計算效率過低。2014年牛津大學(xué)的計算機視覺組(VisualGeometryGroup，VGG)聯(lián)合Google

本文編號：3497464

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3497464.html

上一篇：基于機器視覺的溫室自走式施藥機器人的研制
下一篇：SCADA系統(tǒng)的Modbus/TCP協(xié)議安全研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向多信道不均衡數(shù)據(jù)的聲學(xué)場景分類方法