保留立體聲相位信息的聲音場(chǎng)景分類系統(tǒng)
發(fā)布時(shí)間:2021-12-02 10:24
針對(duì)立體聲音頻采集設(shè)備逐漸普及的趨勢(shì),本文提出了一種保留立體聲相位信息的聲音場(chǎng)景分類算法。在預(yù)處理階段,根據(jù)左右通道的相位信息對(duì)音頻樣本進(jìn)行源環(huán)境提取,生成一種全新的四通道特征。在此基礎(chǔ)上,集成多個(gè)卷積神經(jīng)網(wǎng)絡(luò),搭建一個(gè)針對(duì)立體聲音頻錄音的聲音場(chǎng)景分類系統(tǒng)。區(qū)別于現(xiàn)有聲音場(chǎng)景分類系統(tǒng)只使用時(shí)頻譜的幅度信息,本文所提出的方法保留了立體聲音頻的相位信息。這使得聲學(xué)特征中所包含的空間方位信息更豐富,立體聲音頻的優(yōu)勢(shì)得到發(fā)揮。實(shí)驗(yàn)結(jié)果證明保留立體聲相位信息的聲音場(chǎng)景分類系統(tǒng)具有更好的性能,在2019年IEEE音頻和聲學(xué)信號(hào)處理技術(shù)委員會(huì)舉辦的聲音場(chǎng)景分類賽事中相比于基線系統(tǒng)的整體識(shí)別準(zhǔn)確率提升了18.3%。
【文章來源】:信號(hào)處理. 2020,36(06)北大核心CSCD
【文章頁數(shù)】:8 頁
【部分圖文】:
源環(huán)境提取在復(fù)數(shù)平面上的幾何表示
梅爾頻率尺度的對(duì)數(shù)分布關(guān)系更適應(yīng)于人的感官,在梅爾尺度下我們使用一系列的等距三角形帶通濾波器組成梅爾濾波器組,取每個(gè)三角形濾波器頻率帶寬內(nèi)所有的信號(hào)幅度加權(quán)和作為該帶通濾波器的輸出,對(duì)時(shí)頻圖進(jìn)行濾波。濾波器組在普通頻域尺度下的分布如圖2所示。3.2 A-weighting修正
本次實(shí)驗(yàn)一共涉及到了3個(gè)數(shù)據(jù)集,包括TAU(Tampere University)2019城市聲音場(chǎng)景開發(fā)數(shù)據(jù)集、TAU 2019城市聲音場(chǎng)景排行數(shù)據(jù)集和TAU 2019城市聲音場(chǎng)景評(píng)估數(shù)據(jù)集。數(shù)據(jù)集的采集設(shè)備為Soundman OKM II Klassik/studio A3和Zoom F8,在采集過程中麥克風(fēng)會(huì)佩戴在采集者的左右耳上以最大程度還原人類聽覺系統(tǒng)的工作方式,這種采集方式也為我們提取相位信息提供了先決條件。其中,TAU 2019城市聲音場(chǎng)景開發(fā)數(shù)據(jù)集是一個(gè)高質(zhì)量的雙通道音頻數(shù)據(jù)集,包含了在10個(gè)歐洲城市中收集的各種聲音場(chǎng)景樣本。錄音的總時(shí)長(zhǎng)為 40小時(shí),總共14400個(gè)10 s錄音片段,包括機(jī)場(chǎng)、巴士、地鐵、地鐵站、公園、公共廣場(chǎng)、購物中心、街道、步行街道、交通電車10個(gè)分類,每個(gè)類別對(duì)應(yīng)1440個(gè)錄音片段。開發(fā)數(shù)據(jù)集包含訓(xùn)練子集和評(píng)估子集兩部分可以進(jìn)行初始評(píng)估。而TAU 2019城市聲音場(chǎng)景排行數(shù)據(jù)集和TAU 2019城市聲音場(chǎng)景評(píng)估數(shù)據(jù)集均未公開標(biāo)簽信息,僅用于Kaggle線上挑戰(zhàn)賽在線評(píng)估和聲音場(chǎng)景分類賽事最終評(píng)估。聲音場(chǎng)景分類賽事是由IEEE音頻和聲學(xué)信號(hào)處理技術(shù)委員會(huì)(AASP)舉辦的聲音場(chǎng)景/事件的檢測(cè)/分類(Detection and Classification of Acoustic Scenes and Events, DCASE)挑戰(zhàn)賽的一個(gè)常駐子任務(wù),也是其中歷史最悠久,競(jìng)爭(zhēng)最激烈的子任務(wù)。5.2 訓(xùn)練配置
【參考文獻(xiàn)】:
期刊論文
[1]卷積神經(jīng)網(wǎng)絡(luò)在異常聲音識(shí)別中的研究[J]. 胡濤,張超,程炳,吳小培. 信號(hào)處理. 2018(03)
本文編號(hào):3528252
【文章來源】:信號(hào)處理. 2020,36(06)北大核心CSCD
【文章頁數(shù)】:8 頁
【部分圖文】:
源環(huán)境提取在復(fù)數(shù)平面上的幾何表示
梅爾頻率尺度的對(duì)數(shù)分布關(guān)系更適應(yīng)于人的感官,在梅爾尺度下我們使用一系列的等距三角形帶通濾波器組成梅爾濾波器組,取每個(gè)三角形濾波器頻率帶寬內(nèi)所有的信號(hào)幅度加權(quán)和作為該帶通濾波器的輸出,對(duì)時(shí)頻圖進(jìn)行濾波。濾波器組在普通頻域尺度下的分布如圖2所示。3.2 A-weighting修正
本次實(shí)驗(yàn)一共涉及到了3個(gè)數(shù)據(jù)集,包括TAU(Tampere University)2019城市聲音場(chǎng)景開發(fā)數(shù)據(jù)集、TAU 2019城市聲音場(chǎng)景排行數(shù)據(jù)集和TAU 2019城市聲音場(chǎng)景評(píng)估數(shù)據(jù)集。數(shù)據(jù)集的采集設(shè)備為Soundman OKM II Klassik/studio A3和Zoom F8,在采集過程中麥克風(fēng)會(huì)佩戴在采集者的左右耳上以最大程度還原人類聽覺系統(tǒng)的工作方式,這種采集方式也為我們提取相位信息提供了先決條件。其中,TAU 2019城市聲音場(chǎng)景開發(fā)數(shù)據(jù)集是一個(gè)高質(zhì)量的雙通道音頻數(shù)據(jù)集,包含了在10個(gè)歐洲城市中收集的各種聲音場(chǎng)景樣本。錄音的總時(shí)長(zhǎng)為 40小時(shí),總共14400個(gè)10 s錄音片段,包括機(jī)場(chǎng)、巴士、地鐵、地鐵站、公園、公共廣場(chǎng)、購物中心、街道、步行街道、交通電車10個(gè)分類,每個(gè)類別對(duì)應(yīng)1440個(gè)錄音片段。開發(fā)數(shù)據(jù)集包含訓(xùn)練子集和評(píng)估子集兩部分可以進(jìn)行初始評(píng)估。而TAU 2019城市聲音場(chǎng)景排行數(shù)據(jù)集和TAU 2019城市聲音場(chǎng)景評(píng)估數(shù)據(jù)集均未公開標(biāo)簽信息,僅用于Kaggle線上挑戰(zhàn)賽在線評(píng)估和聲音場(chǎng)景分類賽事最終評(píng)估。聲音場(chǎng)景分類賽事是由IEEE音頻和聲學(xué)信號(hào)處理技術(shù)委員會(huì)(AASP)舉辦的聲音場(chǎng)景/事件的檢測(cè)/分類(Detection and Classification of Acoustic Scenes and Events, DCASE)挑戰(zhàn)賽的一個(gè)常駐子任務(wù),也是其中歷史最悠久,競(jìng)爭(zhēng)最激烈的子任務(wù)。5.2 訓(xùn)練配置
【參考文獻(xiàn)】:
期刊論文
[1]卷積神經(jīng)網(wǎng)絡(luò)在異常聲音識(shí)別中的研究[J]. 胡濤,張超,程炳,吳小培. 信號(hào)處理. 2018(03)
本文編號(hào):3528252
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/3528252.html
最近更新
教材專著