基于多分辨率時(shí)頻特征融合的聲學(xué)場(chǎng)景分類

發(fā)布時(shí)間：2021-10-28 18:44

　　聲學(xué)場(chǎng)景分類是計(jì)算機(jī)聽(tīng)覺(jué)中最難的任務(wù)之一,在單一特征條件下采用基本的卷積神經(jīng)網(wǎng)絡(luò)相對(duì)于傳統(tǒng)的分類方法精度已經(jīng)有所提升,但是效果依然不夠理想。針對(duì)這一問(wèn)題,在卷積神經(jīng)網(wǎng)絡(luò)框架下,提出了一種基于時(shí)頻特征融合的聲學(xué)場(chǎng)景分類方案。在分類模型構(gòu)建方面,提出一種多分辨率卷積池化方案,構(gòu)造多分辨率卷積神經(jīng)網(wǎng)絡(luò),以更好地適應(yīng)提取特征的時(shí)頻結(jié)構(gòu);在特征選取方面,融合低層次包絡(luò)特征對(duì)數(shù)——Mel子帶能量和高層次結(jié)構(gòu)特征——非負(fù)矩陣分解系數(shù)矩陣,把兩種二維特征堆疊為三維特征送入分類模型。在2017年和2018年聲學(xué)場(chǎng)景分類和事件檢測(cè)挑戰(zhàn)賽的開(kāi)發(fā)數(shù)據(jù)集上進(jìn)行了訓(xùn)練和測(cè)試。實(shí)驗(yàn)結(jié)果表明,文中提出方案比基線系統(tǒng)的分類精度分別提高7.5%和10.3%,可有效改善分類效果。

【文章來(lái)源】：聲學(xué)技術(shù). 2020,39(04)北大核心CSCD

【文章頁(yè)數(shù)】：7 頁(yè)

【文章目錄】：
0引言
1 方案框架
2 MCNN模型
    2.1 適應(yīng)聲音時(shí)頻結(jié)構(gòu)的CNN框架
    2.2 MCNN
3 特征選取
    3.1 LME特征
    3.2 NMF特征
    3.3 融合特征
4 實(shí)驗(yàn)結(jié)果與分析
    4.1 實(shí)驗(yàn)數(shù)據(jù)
    4.2 基線系統(tǒng)
    4.3 結(jié)果分析
        4.3.1 MCNN模型效果
        4.3.2 融合特征效果
5 結(jié)論

本文編號(hào)：3463181

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/xinxigongchenglunwen/3463181.html

上一篇：基于無(wú)線傳感器的棉田土壤墑情監(jiān)控系統(tǒng)設(shè)計(jì)
下一篇：北京南郊?xì)馊苣z垂直分布特征與典型過(guò)程激光雷達(dá)探測(cè)分析

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于多分辨率時(shí)頻特征融合的聲學(xué)場(chǎng)景分類