保留立體聲相位信息的聲音場景分類系統(tǒng)
發(fā)布時間:2021-12-02 10:24
針對立體聲音頻采集設(shè)備逐漸普及的趨勢,本文提出了一種保留立體聲相位信息的聲音場景分類算法。在預(yù)處理階段,根據(jù)左右通道的相位信息對音頻樣本進行源環(huán)境提取,生成一種全新的四通道特征。在此基礎(chǔ)上,集成多個卷積神經(jīng)網(wǎng)絡(luò),搭建一個針對立體聲音頻錄音的聲音場景分類系統(tǒng)。區(qū)別于現(xiàn)有聲音場景分類系統(tǒng)只使用時頻譜的幅度信息,本文所提出的方法保留了立體聲音頻的相位信息。這使得聲學(xué)特征中所包含的空間方位信息更豐富,立體聲音頻的優(yōu)勢得到發(fā)揮。實驗結(jié)果證明保留立體聲相位信息的聲音場景分類系統(tǒng)具有更好的性能,在2019年IEEE音頻和聲學(xué)信號處理技術(shù)委員會舉辦的聲音場景分類賽事中相比于基線系統(tǒng)的整體識別準(zhǔn)確率提升了18.3%。
【文章來源】:信號處理. 2020,36(06)北大核心CSCD
【文章頁數(shù)】:8 頁
【部分圖文】:
源環(huán)境提取在復(fù)數(shù)平面上的幾何表示
梅爾頻率尺度的對數(shù)分布關(guān)系更適應(yīng)于人的感官,在梅爾尺度下我們使用一系列的等距三角形帶通濾波器組成梅爾濾波器組,取每個三角形濾波器頻率帶寬內(nèi)所有的信號幅度加權(quán)和作為該帶通濾波器的輸出,對時頻圖進行濾波。濾波器組在普通頻域尺度下的分布如圖2所示。3.2 A-weighting修正
本次實驗一共涉及到了3個數(shù)據(jù)集,包括TAU(Tampere University)2019城市聲音場景開發(fā)數(shù)據(jù)集、TAU 2019城市聲音場景排行數(shù)據(jù)集和TAU 2019城市聲音場景評估數(shù)據(jù)集。數(shù)據(jù)集的采集設(shè)備為Soundman OKM II Klassik/studio A3和Zoom F8,在采集過程中麥克風(fēng)會佩戴在采集者的左右耳上以最大程度還原人類聽覺系統(tǒng)的工作方式,這種采集方式也為我們提取相位信息提供了先決條件。其中,TAU 2019城市聲音場景開發(fā)數(shù)據(jù)集是一個高質(zhì)量的雙通道音頻數(shù)據(jù)集,包含了在10個歐洲城市中收集的各種聲音場景樣本。錄音的總時長為 40小時,總共14400個10 s錄音片段,包括機場、巴士、地鐵、地鐵站、公園、公共廣場、購物中心、街道、步行街道、交通電車10個分類,每個類別對應(yīng)1440個錄音片段。開發(fā)數(shù)據(jù)集包含訓(xùn)練子集和評估子集兩部分可以進行初始評估。而TAU 2019城市聲音場景排行數(shù)據(jù)集和TAU 2019城市聲音場景評估數(shù)據(jù)集均未公開標(biāo)簽信息,僅用于Kaggle線上挑戰(zhàn)賽在線評估和聲音場景分類賽事最終評估。聲音場景分類賽事是由IEEE音頻和聲學(xué)信號處理技術(shù)委員會(AASP)舉辦的聲音場景/事件的檢測/分類(Detection and Classification of Acoustic Scenes and Events, DCASE)挑戰(zhàn)賽的一個常駐子任務(wù),也是其中歷史最悠久,競爭最激烈的子任務(wù)。5.2 訓(xùn)練配置
【參考文獻】:
期刊論文
[1]卷積神經(jīng)網(wǎng)絡(luò)在異常聲音識別中的研究[J]. 胡濤,張超,程炳,吳小培. 信號處理. 2018(03)
本文編號:3528252
【文章來源】:信號處理. 2020,36(06)北大核心CSCD
【文章頁數(shù)】:8 頁
【部分圖文】:
源環(huán)境提取在復(fù)數(shù)平面上的幾何表示
梅爾頻率尺度的對數(shù)分布關(guān)系更適應(yīng)于人的感官,在梅爾尺度下我們使用一系列的等距三角形帶通濾波器組成梅爾濾波器組,取每個三角形濾波器頻率帶寬內(nèi)所有的信號幅度加權(quán)和作為該帶通濾波器的輸出,對時頻圖進行濾波。濾波器組在普通頻域尺度下的分布如圖2所示。3.2 A-weighting修正
本次實驗一共涉及到了3個數(shù)據(jù)集,包括TAU(Tampere University)2019城市聲音場景開發(fā)數(shù)據(jù)集、TAU 2019城市聲音場景排行數(shù)據(jù)集和TAU 2019城市聲音場景評估數(shù)據(jù)集。數(shù)據(jù)集的采集設(shè)備為Soundman OKM II Klassik/studio A3和Zoom F8,在采集過程中麥克風(fēng)會佩戴在采集者的左右耳上以最大程度還原人類聽覺系統(tǒng)的工作方式,這種采集方式也為我們提取相位信息提供了先決條件。其中,TAU 2019城市聲音場景開發(fā)數(shù)據(jù)集是一個高質(zhì)量的雙通道音頻數(shù)據(jù)集,包含了在10個歐洲城市中收集的各種聲音場景樣本。錄音的總時長為 40小時,總共14400個10 s錄音片段,包括機場、巴士、地鐵、地鐵站、公園、公共廣場、購物中心、街道、步行街道、交通電車10個分類,每個類別對應(yīng)1440個錄音片段。開發(fā)數(shù)據(jù)集包含訓(xùn)練子集和評估子集兩部分可以進行初始評估。而TAU 2019城市聲音場景排行數(shù)據(jù)集和TAU 2019城市聲音場景評估數(shù)據(jù)集均未公開標(biāo)簽信息,僅用于Kaggle線上挑戰(zhàn)賽在線評估和聲音場景分類賽事最終評估。聲音場景分類賽事是由IEEE音頻和聲學(xué)信號處理技術(shù)委員會(AASP)舉辦的聲音場景/事件的檢測/分類(Detection and Classification of Acoustic Scenes and Events, DCASE)挑戰(zhàn)賽的一個常駐子任務(wù),也是其中歷史最悠久,競爭最激烈的子任務(wù)。5.2 訓(xùn)練配置
【參考文獻】:
期刊論文
[1]卷積神經(jīng)網(wǎng)絡(luò)在異常聲音識別中的研究[J]. 胡濤,張超,程炳,吳小培. 信號處理. 2018(03)
本文編號:3528252
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/3528252.html
最近更新
教材專著