基于卷積神經(jīng)網(wǎng)絡(luò)的中國樂器分類
【文章頁數(shù)】:6 頁
【部分圖文】:
圖1曲笛和侗笛的MFCC特征
我們比較了被作為音頻特征廣泛地使用的Mel頻率倒譜系數(shù)(MelFrequencyCepstralCoefficients,MFCC)[3]和常數(shù)Q變換(ConstantQTransform,CQT)[4].圖1展示了曲笛和侗笛的MFCC特征,圖1(a),(b)來自曲笛的....
圖2曲笛和侗笛的CQT特征
圖1曲笛和侗笛的MFCC特征大數(shù)據(jù)時(shí)代機(jī)器算力的提升使得深度學(xué)習(xí)得以蓬勃發(fā)展,而深度神經(jīng)網(wǎng)絡(luò)可以自動(dòng)地從數(shù)據(jù)中學(xué)習(xí)到特征,從而減少人本身在特征工程中所做的工作.伴隨著深度學(xué)習(xí)的廣泛使用,當(dāng)使用神經(jīng)網(wǎng)絡(luò)作為分類器時(shí),對(duì)數(shù)Mel聲譜圖[5]被普遍采用.從提取過程上來講,提取對(duì)數(shù)Me....
圖3特征提取的過程
特征提取的整個(gè)過程如圖3所示.首先,采樣率為44.1kHz的單聲道音頻在使用漢寧窗分窗后被分成一系列的幀,在這個(gè)過程中使用了1024個(gè)采樣點(diǎn)作為跳距,2048個(gè)采樣點(diǎn)作為窗距.之后,快速傅里葉變換在每一幀上得到了使用,這樣就得到了聲譜圖.接下來,64個(gè)Mel濾波器組被用來對(duì)得....
圖4VGGish的網(wǎng)絡(luò)結(jié)構(gòu)
VGGish的網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示,它由8個(gè)卷積層和1個(gè)全連接層組成,使用對(duì)數(shù)Mel聲譜圖作為輸入特征.每個(gè)卷積層的通道數(shù)都在圖4中進(jìn)行了標(biāo)注,卷積層的卷積核的大小為3×3,步長為1,每次卷積操作前會(huì)對(duì)圖像進(jìn)行大小為1的邊緣像素填充,批量歸一化(BatchNormalizatio....
本文編號(hào):3915140
本文鏈接:http://sikaile.net/wenyilunwen/yinlelunwen/3915140.html