面向多信道不均衡數(shù)據(jù)的聲學(xué)場景分類方法
發(fā)布時間:2021-11-15 20:47
聲音信號在生活中無處不在,人們一直在嘗試著合理地將其利用。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,聲音信號處理的能力在不斷提高,給人們的生活帶來了諸多便利。聲學(xué)場景分類作為信號處理的新興研究領(lǐng)域,近年來受到越來越多的關(guān)注,其已經(jīng)被有效應(yīng)用在情境感知等設(shè)備上。在生活中,錄音設(shè)備的種類多種多樣,由于這些設(shè)備信道的差異,導(dǎo)致即使在同時同地,它們所錄制到的音頻數(shù)據(jù)也可能存在不同。此外,由于多種原因采用不同設(shè)備所獲得的聲音數(shù)據(jù)量也可能不同,因此存在數(shù)據(jù)不均衡的問題。信道差異及數(shù)據(jù)不均衡的影響給聲學(xué)場景分類任務(wù)的研究帶來很大的困難。本文重點研究多信道不均衡數(shù)據(jù)影響下的聲學(xué)場景分類問題。首先,提出基于FBank特征的卷積網(wǎng)絡(luò)聲學(xué)場景分類方法,對所有數(shù)據(jù)不區(qū)分設(shè)備地提取FBank聲學(xué)特征,使用卷積神經(jīng)網(wǎng)絡(luò)對特征進(jìn)行分類,使用交叉熵作為模型的損失函數(shù)。該方法作為本文的基線系統(tǒng)。隨后,提出基于信道無關(guān)嵌入特征的聲學(xué)場景分類方法。不同設(shè)備在同時同地錄制所得到的平行數(shù)據(jù)對包含完全一致的語義信息,而差別僅為信道不同?紤]到從原始音頻數(shù)據(jù)提取的FBank特征中會包含設(shè)備的信道信息,其與聲學(xué)場景無關(guān)且會影響模型的分類準(zhǔn)確率。因此,...
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:62 頁
【學(xué)位級別】:碩士
【部分圖文】:
FBank特征提取流程圖
哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文-10-圖2-2Mel頻率濾波器組示意圖三角濾波器的頻率響應(yīng)為,0,(1)2((1)),(1)()((1)(1))(()(1))()2((1)),()(1)((1)(1))(()(1))mkfmkfmfmkfmfmfmfmfmHkfmkfmkfmfmfmfmfm<≤≤+=+≤≤++0,kf(m1)≥(2-8)式中10()1MmmHk=∑=。使用Mel濾波器組對能量譜E(k)處理后的結(jié)果為,10()()(),1,2,...,NmkEmEkHkmM==∑=(2-9)(6)取對數(shù)得到的E(m)結(jié)果要進(jìn)行取對數(shù)計算,這樣的非線性關(guān)系更符合人耳,并且可以將E(m)中過大的值縮放,公式為,logFBank=E(m)=ln(E(m)),m=1,2,...,M(2-10)2.3卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks,CNN)最早可以追溯到上世紀(jì)中后期,1962年Hubel和Wiesel對貓的大腦視覺系統(tǒng)進(jìn)行研究,提出了感受野(Receptivefields)的概念[29],在視覺系統(tǒng)的信息處理領(lǐng)域做出了杰出貢獻(xiàn)。1980年日本人工智能專家福島邦彥受到脊椎動物視覺神經(jīng)系統(tǒng)的啟發(fā),提出了一個包含卷積層、池化層的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)[30],具有位置特征的平移不變性和對形狀的輕微畸變不敏感性,是現(xiàn)代卷積神經(jīng)網(wǎng)絡(luò)的鼻祖。1998年,深度學(xué)習(xí)三巨頭之一的
哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文-12-中,常見的有DNN-HMM[42]、CNN[43]、LSTM[44],F(xiàn)階段,F(xiàn)Bank特征和卷積神經(jīng)網(wǎng)絡(luò)框架的組合方式在聲學(xué)場景分類任務(wù)中出現(xiàn)的次數(shù)越來越多。通用的卷積網(wǎng)絡(luò)框架包含卷積層、池化層、激活層、全連接層、批標(biāo)準(zhǔn)化層等。2.3.1卷積層卷積是通過兩個函數(shù)f和g生成第三個函數(shù)的一種數(shù)學(xué)算子,設(shè)f(x)和g(x)為R1上的兩個可積函數(shù),兩者卷積得到新函數(shù)h(x)如式(2-11)所示,其連續(xù)的定義如式(2-12)所示,離散的定義如式(2-13)所示。h(x)=(f*g)(x)(2-11)(f*g)(x)f(τ)g(xτ)dτ∞∞=∫(2-12)(f*g)(x)f()g(x)τττ∞=∞=∑(2-13)卷積層對輸入數(shù)據(jù)的處理主要依靠卷積核(Filter)的計算,卷積核的大小通常為奇數(shù),以輸入5×5矩陣,卷積核大小3×3為例,計算卷積首先將卷積核旋轉(zhuǎn)180度,輸入矩陣與卷積核對應(yīng)位置相乘,得到的結(jié)果即為該區(qū)域卷積后的結(jié)果,移動固定的步長,直到所有區(qū)域都計算完畢,計算如圖2-3所示。圖2-3卷積計算示意圖在AlexNet中使用的是11×11和5×5這樣較大的卷積核,因為在當(dāng)時人們的觀念中,大的卷積核即擁有較大的感受野,這樣觀察到的信息就會更多,然而選擇較大的卷積核所帶來的缺點是計算量過于龐大,導(dǎo)致無法搭建深層的模型,計算效率過低。2014年牛津大學(xué)的計算機視覺組(VisualGeometryGroup,VGG)聯(lián)合Google
本文編號:3497464
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:62 頁
【學(xué)位級別】:碩士
【部分圖文】:
FBank特征提取流程圖
哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文-10-圖2-2Mel頻率濾波器組示意圖三角濾波器的頻率響應(yīng)為,0,(1)2((1)),(1)()((1)(1))(()(1))()2((1)),()(1)((1)(1))(()(1))mkfmkfmfmkfmfmfmfmfmHkfmkfmkfmfmfmfmfm<≤≤+=+≤≤++0,kf(m1)≥(2-8)式中10()1MmmHk=∑=。使用Mel濾波器組對能量譜E(k)處理后的結(jié)果為,10()()(),1,2,...,NmkEmEkHkmM==∑=(2-9)(6)取對數(shù)得到的E(m)結(jié)果要進(jìn)行取對數(shù)計算,這樣的非線性關(guān)系更符合人耳,并且可以將E(m)中過大的值縮放,公式為,logFBank=E(m)=ln(E(m)),m=1,2,...,M(2-10)2.3卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks,CNN)最早可以追溯到上世紀(jì)中后期,1962年Hubel和Wiesel對貓的大腦視覺系統(tǒng)進(jìn)行研究,提出了感受野(Receptivefields)的概念[29],在視覺系統(tǒng)的信息處理領(lǐng)域做出了杰出貢獻(xiàn)。1980年日本人工智能專家福島邦彥受到脊椎動物視覺神經(jīng)系統(tǒng)的啟發(fā),提出了一個包含卷積層、池化層的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)[30],具有位置特征的平移不變性和對形狀的輕微畸變不敏感性,是現(xiàn)代卷積神經(jīng)網(wǎng)絡(luò)的鼻祖。1998年,深度學(xué)習(xí)三巨頭之一的
哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文-12-中,常見的有DNN-HMM[42]、CNN[43]、LSTM[44],F(xiàn)階段,F(xiàn)Bank特征和卷積神經(jīng)網(wǎng)絡(luò)框架的組合方式在聲學(xué)場景分類任務(wù)中出現(xiàn)的次數(shù)越來越多。通用的卷積網(wǎng)絡(luò)框架包含卷積層、池化層、激活層、全連接層、批標(biāo)準(zhǔn)化層等。2.3.1卷積層卷積是通過兩個函數(shù)f和g生成第三個函數(shù)的一種數(shù)學(xué)算子,設(shè)f(x)和g(x)為R1上的兩個可積函數(shù),兩者卷積得到新函數(shù)h(x)如式(2-11)所示,其連續(xù)的定義如式(2-12)所示,離散的定義如式(2-13)所示。h(x)=(f*g)(x)(2-11)(f*g)(x)f(τ)g(xτ)dτ∞∞=∫(2-12)(f*g)(x)f()g(x)τττ∞=∞=∑(2-13)卷積層對輸入數(shù)據(jù)的處理主要依靠卷積核(Filter)的計算,卷積核的大小通常為奇數(shù),以輸入5×5矩陣,卷積核大小3×3為例,計算卷積首先將卷積核旋轉(zhuǎn)180度,輸入矩陣與卷積核對應(yīng)位置相乘,得到的結(jié)果即為該區(qū)域卷積后的結(jié)果,移動固定的步長,直到所有區(qū)域都計算完畢,計算如圖2-3所示。圖2-3卷積計算示意圖在AlexNet中使用的是11×11和5×5這樣較大的卷積核,因為在當(dāng)時人們的觀念中,大的卷積核即擁有較大的感受野,這樣觀察到的信息就會更多,然而選擇較大的卷積核所帶來的缺點是計算量過于龐大,導(dǎo)致無法搭建深層的模型,計算效率過低。2014年牛津大學(xué)的計算機視覺組(VisualGeometryGroup,VGG)聯(lián)合Google
本文編號:3497464
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3497464.html
最近更新
教材專著