天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 自動化論文 >

基于深度網(wǎng)絡(luò)和哈希學習的音樂識別

發(fā)布時間:2021-06-11 15:33
  最近隨著互聯(lián)網(wǎng)和數(shù)字音頻技術(shù)的發(fā)展,音樂信息檢索MIR(Music information retrieval)逐漸成為研究熱點。其中,對音樂風格進行識別是一項重要的研究內(nèi)容;此外,樂器、歌曲情緒等的識別也是研究熱點。目前音樂信息檢索領(lǐng)域的識別分類系統(tǒng)主要流程是先手動提取音樂特征,再對分類器進行訓練建模,最后把音樂特征輸入建好的模型中進行識別分類。但現(xiàn)在手動提取音樂特征技術(shù)遇到了瓶頸。深度學習作為一種新的特征提取技術(shù),已在圖像處理、自然語言理解等領(lǐng)域擁有了出色的表現(xiàn),因此本文利用深度學習強大的特征提取功能發(fā)現(xiàn)更適用于音樂識別分類的音樂特征,并設(shè)計不同的網(wǎng)絡(luò)結(jié)構(gòu),基于這些音樂特征進行識別分類。首先針對大多基于時間特征的音樂風格識別分類性能不佳的問題,提出了考慮時間和頻率兩方面特征的HPSS(Harmonic/Percussion Sound Separation)分離算法,把原始音樂信號譜圖分離成時間特征諧波分量和頻率特征沖擊分量,并聯(lián)合原始譜圖一起作為卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetwork,CNN)的輸入;然后設(shè)計了 CNN的網(wǎng)絡(luò)結(jié)構(gòu)以及研究了該網(wǎng)絡(luò)結(jié)構(gòu)中不... 

【文章來源】:南京信息工程大學江蘇省

【文章頁數(shù)】:68 頁

【學位級別】:碩士

【部分圖文】:

基于深度網(wǎng)絡(luò)和哈希學習的音樂識別


音頻信號的STET圖

過程圖,過程,聲音,模數(shù)轉(zhuǎn)換


頓字(Hz)?吋間(s)??圖2-1音頻信號的STFT圖??Fig.2-1?Resulting?of?STFT?for?audio?signal??(2)?MFCC??聲音是模擬信號,聲音的時域波形只代表聲音隨時間變化的關(guān)系,不能很好的代表??聲音的特征,因此,必須將聲音波形轉(zhuǎn)換為聲學特征向量。目前冇許多聲音特征提取方??法,如梅爾頻率倒譜系數(shù)MFCC、線性預測倒譜系數(shù)LPCC、多媒體內(nèi)容描述接「1?MPKG7??等,其屮MFCC是基于倒譜的,更符合人的聽覺原理,因而是最普遍、最有效的聲音特??征提取算法。在提取MFCC前,需要對聲音做前期處理,包括模數(shù)轉(zhuǎn)換、預加重和加窗。??模數(shù)轉(zhuǎn)換就是把模擬信號轉(zhuǎn)換為數(shù)字信號,包括兩個步驟:采樣和量化,即以?定的采??樣率和采樣位數(shù)把聲昔連續(xù)波形轉(zhuǎn)換為離散的數(shù)據(jù)點。采樣和M化U對波形做M?FCC??特征提取,算法流程圖如閣2-2所示,圖2-3是一個典型的12階的MFCC恃征參數(shù)的??三維表示圖。??Spect

聲譜圖,聲譜圖,聲譜


幀數(shù)階數(shù)??閣2-3?MFCC特征圖??Fig.2-3?MFCC?features??(3)?mel-spectrogram??梅爾聲譜(mel-spectrogram)足一種時間-頻率表證(time-frequency?representation)。??從音頻倍號的窄重疊窗n傅立葉變換得到的。每個傅立葉變換構(gòu)成幀。然a:將這??連續(xù)的幀排列成-個矩陣,就形成了這個聲譜。最后將頻率軸由線性刻度變成梅爾刻??(mel?scale)以降低維數(shù),并且采用對數(shù)刻度值。??梅爾聲譜閣是荇樂識別的首選輸入類型,其包拈音樂標簽、邊界、起始檢測和潛在??征學等廣泛的特征,并且己經(jīng)證明梅爾尺度與人類聽覺系統(tǒng)相似[|2],為了獲得梅爾??譜閣,需要將STFT和對幅度取對數(shù)作為預處理步驟,然后使用梅爾濾波,直接將聲??矩陣輸入網(wǎng)絡(luò)進行識別分類,詳細步驟在第四章中會進行詳細闡述。圖2-4為某個咅??信號的梅爾廣_'譜閣。????x104??

【參考文獻】:
期刊論文
[1]Spherical torus-based video hashing for near-duplicate video detection[J]. Xiushan NIE,Yane CHAI,Ju LIU,Jiande SUN,Yilong YIN.  Science China(Information Sciences). 2016(05)
[2]基于樣本熵的語音/音樂識別[J]. 楊松,于鳳芹.  計算機工程與應用. 2012(23)



本文編號:3224803

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3224803.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶0c8eb***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com