基于深度學(xué)習(xí)的聲音場(chǎng)景檢測(cè)的研究
發(fā)布時(shí)間:2021-12-30 14:13
聲音載有人類日常環(huán)境和在其發(fā)生事件的大量信息,人類可以感受到自己所處的聲音場(chǎng)景(海邊,大街等),并識(shí)別出各個(gè)聲源(海浪,汽車聲等)。音頻信號(hào)自動(dòng)檢測(cè)技術(shù)在音頻文件的內(nèi)容搜索和移動(dòng)設(shè)備的情境感知等方面都有著廣闊的應(yīng)用前景,故而人們對(duì)該項(xiàng)技術(shù)展開(kāi)了一系列研究。但由于多個(gè)聲源疊加或環(huán)境噪音干擾等原因,基于機(jī)器學(xué)習(xí)的聲音自動(dòng)檢測(cè)技術(shù)的可靠性一直都不高,所以人類在機(jī)器學(xué)習(xí)領(lǐng)域仍然需要大量的研究才能準(zhǔn)確地識(shí)別現(xiàn)實(shí)場(chǎng)景中的單個(gè)聲源和聲音場(chǎng)景。聲音場(chǎng)景識(shí)別指的是人類或人工系統(tǒng)從流媒體或音頻記錄中識(shí)別音頻內(nèi)容(標(biāo)簽)的任務(wù),傳統(tǒng)的聲音識(shí)別問(wèn)題往往是通過(guò)數(shù)字信號(hào)處理或者簡(jiǎn)單的分類器解決,而現(xiàn)在隨著深度學(xué)習(xí)的普及,傳統(tǒng)的識(shí)別方法需改善應(yīng)對(duì)未來(lái)的應(yīng)用需求。本文主要的研究?jī)?nèi)容是使用深度學(xué)習(xí)的方法識(shí)別聲音場(chǎng)景。主要實(shí)現(xiàn)過(guò)程是使用改進(jìn)后的深層卷積神經(jīng)網(wǎng)絡(luò)組建一個(gè)多特征的弱學(xué)習(xí)器組,再使用集成學(xué)習(xí)策略組建強(qiáng)學(xué)習(xí)器,以構(gòu)建一個(gè)用于聲場(chǎng)識(shí)別任務(wù)的基于多譜圖集成學(xué)習(xí)系統(tǒng)。由于深度學(xué)習(xí)本身對(duì)數(shù)據(jù)量是有一定要求的,所以為了解決音頻源文件數(shù)量不足的問(wèn)題,本文首先嘗試對(duì)音頻文件進(jìn)行數(shù)據(jù)擴(kuò)充。具體做法上,使用了生成式對(duì)抗神經(jīng)網(wǎng)絡(luò)的拓...
【文章來(lái)源】:成都理工大學(xué)四川省
【文章頁(yè)數(shù)】:81 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
聲場(chǎng)識(shí)別的基線系統(tǒng)的主體結(jié)構(gòu)與大多聚類深度學(xué)習(xí)任務(wù)類似,從前到后的流程為原始數(shù)據(jù)集輸入,數(shù)據(jù)擴(kuò)充,特征提取,訓(xùn)練學(xué)習(xí)器,獲得分類器,評(píng)估結(jié)果,如圖2-1:圖 2-1 基線系統(tǒng)的基本結(jié)構(gòu)圖如圖2-1中流程所示,在擁有了源音頻數(shù)據(jù)集后,可能由于音頻的數(shù)據(jù)不足的問(wèn)題進(jìn)行數(shù)據(jù)擴(kuò)充,既可以對(duì)原始數(shù)據(jù)(源音頻波形文件)進(jìn)行學(xué)習(xí)創(chuàng)造新的波形文件,也可以對(duì)音頻特征進(jìn)行學(xué)習(xí)以創(chuàng)造音頻特征的擴(kuò)充數(shù)據(jù)。對(duì)于音頻的特征提取,本章將使用兩種方法,其一是經(jīng)典的聲學(xué)特征處理方法——梅爾頻率倒譜系數(shù)(MFCC),由Davis et al.(1980)提出,將在本章第3節(jié)中闡述;其二是一種較新的音頻特征提取方法——諧波沖擊分離,由Fitzgeral(2010)提出
圖2-2 MFCC實(shí)現(xiàn)流程圖(1)將信號(hào)進(jìn)行分幀處理,為每個(gè)幀提取一組梅爾頻譜系數(shù)即時(shí)域信號(hào)S ( n )。將所有樣本的時(shí)域信號(hào) S ( n )組合成 ( )iS n 。對(duì) ( )iS n 計(jì)算離散傅里葉變換(DFT),得 ( )iS k ,其中 i 表示相對(duì)幀數(shù); ( )iP k 是幀 i 的功率譜。
本文編號(hào):3558362
【文章來(lái)源】:成都理工大學(xué)四川省
【文章頁(yè)數(shù)】:81 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
聲場(chǎng)識(shí)別的基線系統(tǒng)的主體結(jié)構(gòu)與大多聚類深度學(xué)習(xí)任務(wù)類似,從前到后的流程為原始數(shù)據(jù)集輸入,數(shù)據(jù)擴(kuò)充,特征提取,訓(xùn)練學(xué)習(xí)器,獲得分類器,評(píng)估結(jié)果,如圖2-1:圖 2-1 基線系統(tǒng)的基本結(jié)構(gòu)圖如圖2-1中流程所示,在擁有了源音頻數(shù)據(jù)集后,可能由于音頻的數(shù)據(jù)不足的問(wèn)題進(jìn)行數(shù)據(jù)擴(kuò)充,既可以對(duì)原始數(shù)據(jù)(源音頻波形文件)進(jìn)行學(xué)習(xí)創(chuàng)造新的波形文件,也可以對(duì)音頻特征進(jìn)行學(xué)習(xí)以創(chuàng)造音頻特征的擴(kuò)充數(shù)據(jù)。對(duì)于音頻的特征提取,本章將使用兩種方法,其一是經(jīng)典的聲學(xué)特征處理方法——梅爾頻率倒譜系數(shù)(MFCC),由Davis et al.(1980)提出,將在本章第3節(jié)中闡述;其二是一種較新的音頻特征提取方法——諧波沖擊分離,由Fitzgeral(2010)提出
圖2-2 MFCC實(shí)現(xiàn)流程圖(1)將信號(hào)進(jìn)行分幀處理,為每個(gè)幀提取一組梅爾頻譜系數(shù)即時(shí)域信號(hào)S ( n )。將所有樣本的時(shí)域信號(hào) S ( n )組合成 ( )iS n 。對(duì) ( )iS n 計(jì)算離散傅里葉變換(DFT),得 ( )iS k ,其中 i 表示相對(duì)幀數(shù); ( )iP k 是幀 i 的功率譜。
本文編號(hào):3558362
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/3558362.html
最近更新
教材專著