天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 信息工程論文 >

基于深度學(xué)習(xí)的音頻事件識(shí)別研究

發(fā)布時(shí)間:2021-07-24 12:03
  音頻事件識(shí)別作為音頻研究領(lǐng)域的基礎(chǔ)核心任務(wù),是目前熱門的音頻研究方向如聲音場(chǎng)景分析、音頻事件檢測(cè)、音頻自動(dòng)標(biāo)注等任務(wù)的關(guān)鍵部分。對(duì)于音頻事件識(shí)別系統(tǒng)的構(gòu)建,有一些本質(zhì)的難點(diǎn)需要解決,即音頻分布的隨機(jī)性和音頻事件本身的多樣性。研究的理論目標(biāo)為分析這些根本問(wèn)題,試圖提出一些解決問(wèn)題的思路,研究的實(shí)踐目標(biāo)則是提出適合于音頻事件識(shí)別這個(gè)任務(wù)的獨(dú)特的系統(tǒng)結(jié)構(gòu)。本論文通過(guò)綜合前人的廣泛研究成果,以及機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、語(yǔ)音識(shí)別、人耳感知等領(lǐng)域的知識(shí),從音頻的本質(zhì)出發(fā),提出了分層的屬性理論算法框架,并主要從兩方面著手研究。1.研究了基于卷積神經(jīng)網(wǎng)絡(luò)的音頻事件識(shí)別對(duì)卷積神經(jīng)網(wǎng)絡(luò)的研究,主要目的是解決音頻事件的多樣性和隨機(jī)性,參考國(guó)內(nèi)外對(duì)音頻網(wǎng)絡(luò)設(shè)計(jì)的普適與類別依賴思想,本文對(duì)輸入和網(wǎng)絡(luò)兩個(gè)模塊都進(jìn)行了詳細(xì)的探討,并得出了一些對(duì)更深入研究有指導(dǎo)意義的結(jié)論:輸入方面,嘗試了CQT譜、原始音頻,設(shè)計(jì)了Mel譜、激勵(lì)源和聲道譜等,通過(guò)實(shí)驗(yàn)論證得出最佳輸入Mel聲譜;網(wǎng)絡(luò)方面,重點(diǎn)對(duì)音頻的視野進(jìn)行了研究,主要從卷積視野、網(wǎng)絡(luò)深度視野著手;之后優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),考慮了分層信息網(wǎng)絡(luò)、殘差網(wǎng)絡(luò)、LSTM網(wǎng)絡(luò)的的引入等,最... 

【文章來(lái)源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校

【文章頁(yè)數(shù)】:79 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于深度學(xué)習(xí)的音頻事件識(shí)別研究


圖2-1音頻識(shí)別算法框架??

音頻,加窗處理,分幀,音頻信號(hào)


;在網(wǎng)絡(luò)方面,由于CNN網(wǎng)絡(luò)具有頻移不變性,能夠有效的減輕由聲源境之間的差異引起的頻譜偏移,另一方面其強(qiáng)大的特征提取能力能夠解決分布隨機(jī)性的問(wèn)題,因此重點(diǎn)嘗試適配適用于音頻識(shí)別的CNN網(wǎng)絡(luò)。??.2?CNN最佳輸入研究??3.1小節(jié)表明本章的網(wǎng)絡(luò)主要基于CNN,本節(jié)主要探討CNN前的各種可能性。??.2.1?原始首頻??音頻事件識(shí)別的最原始輸入是一條一條的音頻流,但是在正式輸入到深之前,還需要進(jìn)行輸入的變換,以期望能夠讓網(wǎng)絡(luò)從變換后的輸入里更好學(xué)習(xí)到分類信息。??國(guó)內(nèi)外的研究也時(shí)常使用未經(jīng)加工的原始音頻數(shù)據(jù)實(shí)驗(yàn),本課題作為對(duì),也探討了原始音頻作為輸入的情況,例如,典型的槍聲的原始輸入波形所示:??

聲譜圖,聲譜,縱軸,橫軸


??聲譜圖的提取如下圖3-1所示。聲譜圖是聲譜特征的可視化,是一種隨時(shí)間??而變化的頻譜圖,其提取的基本流程為對(duì)音頻文件進(jìn)行信號(hào)變化,進(jìn)行短時(shí)傅里??葉變換之后,將其按照灰度和顏色映射關(guān)系,即可繪制成聲譜圖:??音頻一_^分幀加窗?^傅里葉變換?I?L〇Q_度值??數(shù)據(jù)?預(yù)處理?STFT?|?L〇9EJ5A????\?)?\?y?V,?,?J??_—??r?'?、??聲譜圖??灰度與顏色映射?????J?V???)??圖3-2聲譜圖的生成流程??本文選用具體的幾種類別的聲譜圖進(jìn)行分析,分別選用了嬰兒哭泣聲、狗叫??-上:AA*??尸等:??cir^??—ac**?*?...、??、■麟、?-?'?^?^??(a)嬰兒哭泣聲?(b)女性尖叫聲??f?I?i?i?>?^?*?i?;?:?^???;?:?;?I??鱗!5'.-.??:?fe??■??(c)腳步聲?(d)典型槍聲??圖3-3四種典型的聲譜圖??聲譜橫軸為時(shí)間,縱軸為頻率。圖中的橫紋對(duì)應(yīng)短時(shí)譜的凸點(diǎn),即共振峰;??豎紋的單條為基音,條紋的起點(diǎn)相當(dāng)于激勵(lì)源脈沖的起點(diǎn),條紋之間的距離代表??基音周期

【參考文獻(xiàn)】:
期刊論文
[1]基于MFCC和短時(shí)能量混合的異常聲音識(shí)別算法[J]. 呂霄云,王宏霞.  計(jì)算機(jī)應(yīng)用. 2010(03)

碩士論文
[1]場(chǎng)景依賴的關(guān)鍵音頻事件檢測(cè)[D]. 齊曉旭.北京郵電大學(xué) 2013



本文編號(hào):3300616

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/3300616.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶331f0***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com