基于輕量級深度神經(jīng)網(wǎng)絡(luò)的環(huán)境聲音識別
【文章頁數(shù)】:6 頁
【部分圖文】:
圖1十類聲音可視化MFCC譜圖
本實(shí)驗(yàn)以25ms的窗口和10ms幀長為參數(shù)從音頻片段中提取特征,計(jì)算出0~22050Hz的40個(gè)梅爾(Mel)波段,并保留40個(gè)MFCC系數(shù),得到的特征矩陣為40×174×1,即頻率×?xí)r間×通道,如圖1所示,在這一過程中,需要對時(shí)間維度不足的特征矩陣進(jìn)行補(bǔ)零至統(tǒng)一長度。除....
圖2Fire模塊結(jié)構(gòu)
SqueezNet卷積神經(jīng)網(wǎng)絡(luò)模型是由加利福尼亞大學(xué)伯克利分校和斯坦福大學(xué)的研究學(xué)者在2016年聯(lián)合提出的一種旨在降低模型參數(shù)輸入量的網(wǎng)絡(luò)模型,它能解決AlexNet[20]和VGGNet(VisualGeometryGroupNet)[21]模型因參數(shù)量巨大而降低運(yùn)算....
圖3基于Fire模塊的網(wǎng)絡(luò)
本實(shí)驗(yàn)針對參考卷積神經(jīng)網(wǎng)絡(luò)模型Cnet[23],設(shè)計(jì)一類基于SqueezNet網(wǎng)絡(luò)Fire模塊的輕量級網(wǎng)絡(luò)模型,并將其命名Fnet,見圖3。Fnet由輸入層、一組16個(gè)3×3卷積核構(gòu)成的“卷積+池化”結(jié)構(gòu)、三組Fire模塊、全局平均池化層和輸出層構(gòu)成。為有效驗(yàn)證模型性能,本實(shí)驗(yàn)....
圖4模型結(jié)果比較
首先,本實(shí)驗(yàn)以Cnet作為參考網(wǎng)絡(luò),使用Fire模塊搭建Fnet1和Fnet2模型,兩個(gè)模型都采用圖1提取的MFCC譜圖作為輸入,輸入維度為40×174×1。從圖4的實(shí)驗(yàn)結(jié)果可以看出:參數(shù)數(shù)量越多,模型分類的穩(wěn)定性就越高。從訓(xùn)練迭代200次后的分類準(zhǔn)確性來看,F(xiàn)net1與Cnet....
本文編號:3897299
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/3897299.html