基于深度網(wǎng)絡(luò)和哈希學(xué)習(xí)的音樂識別

發(fā)布時間：2021-06-11 15:33

　　最近隨著互聯(lián)網(wǎng)和數(shù)字音頻技術(shù)的發(fā)展,音樂信息檢索MIR（Music information retrieval）逐漸成為研究熱點。其中,對音樂風(fēng)格進行識別是一項重要的研究內(nèi)容;此外,樂器、歌曲情緒等的識別也是研究熱點。目前音樂信息檢索領(lǐng)域的識別分類系統(tǒng)主要流程是先手動提取音樂特征,再對分類器進行訓(xùn)練建模,最后把音樂特征輸入建好的模型中進行識別分類。但現(xiàn)在手動提取音樂特征技術(shù)遇到了瓶頸。深度學(xué)習(xí)作為一種新的特征提取技術(shù),已在圖像處理、自然語言理解等領(lǐng)域擁有了出色的表現(xiàn),因此本文利用深度學(xué)習(xí)強大的特征提取功能發(fā)現(xiàn)更適用于音樂識別分類的音樂特征,并設(shè)計不同的網(wǎng)絡(luò)結(jié)構(gòu),基于這些音樂特征進行識別分類。首先針對大多基于時間特征的音樂風(fēng)格識別分類性能不佳的問題,提出了考慮時間和頻率兩方面特征的HPSS（Harmonic/Percussion Sound Separation）分離算法,把原始音樂信號譜圖分離成時間特征諧波分量和頻率特征沖擊分量,并聯(lián)合原始譜圖一起作為卷積神經(jīng)網(wǎng)絡(luò)（ConvolutionalNeuralNetwork,CNN）的輸入;然后設(shè)計了 CNN的網(wǎng)絡(luò)結(jié)構(gòu)以及研究了該網(wǎng)絡(luò)結(jié)構(gòu)中不...

【文章來源】：南京信息工程大學(xué)江蘇省

【文章頁數(shù)】：68 頁

【學(xué)位級別】：碩士

【部分圖文】：

音頻信號的STET圖

過程圖,過程,聲音,模數(shù)轉(zhuǎn)換

頓字（Ｈｚ）?吋間（ｓ）??圖２－１音頻信號的ＳＴＦＴ圖??Ｆｉｇ．２－１?Ｒｅｓｕｌｔｉｎｇ?ｏｆ?ＳＴＦＴ?ｆｏｒ?ａｕｄｉｏ?ｓｉｇｎａｌ??（２）?ＭＦＣＣ??聲音是模擬信號，聲音的時域波形只代表聲音隨時間變化的關(guān)系，不能很好的代表??聲音的特征，因此，必須將聲音波形轉(zhuǎn)換為聲學(xué)特征向量。目前冇許多聲音特征提取方??法，如梅爾頻率倒譜系數(shù)ＭＦＣＣ、線性預(yù)測倒譜系數(shù)ＬＰＣＣ、多媒體內(nèi)容描述接「１?ＭＰＫＧ７??等，其屮ＭＦＣＣ是基于倒譜的，更符合人的聽覺原理，因而是最普遍、最有效的聲音特??征提取算法。在提�。停疲茫们埃枰獙β曇糇銮捌谔幚�，包括模數(shù)轉(zhuǎn)換、預(yù)加重和加窗。??模數(shù)轉(zhuǎn)換就是把模擬信號轉(zhuǎn)換為數(shù)字信號，包括兩個步驟：采樣和量化，即以？定的采??樣率和采樣位數(shù)把聲昔連續(xù)波形轉(zhuǎn)換為離散的數(shù)據(jù)點。采樣和Ｍ化Ｕ對波形做Ｍ?ＦＣＣ??特征提取，算法流程圖如閣２－２所示，圖２－３是一個典型的１２階的ＭＦＣＣ恃征參數(shù)的??三維表示圖。??Ｓｐｅｃｔ

聲譜圖,聲譜圖,聲譜

幀數(shù)階數(shù)??閣２－３?ＭＦＣＣ特征圖??Ｆｉｇ．２－３?ＭＦＣＣ?ｆｅａｔｕｒｅｓ??（３）?ｍｅｌ－ｓｐｅｃｔｒｏｇｒａｍ??梅爾聲譜（ｍｅｌ－ｓｐｅｃｔｒｏｇｒａｍ）足一種時間－頻率表證（ｔｉｍｅ－ｆｒｅｑｕｅｎｃｙ?ｒｅｐｒｅｓｅｎｔａｔｉｏｎ）。??從音頻倍號的窄重疊窗ｎ傅立葉變換得到的。每個傅立葉變換構(gòu)成幀。然ａ：將這??連續(xù)的幀排列成－個矩陣，就形成了這個聲譜。最后將頻率軸由線性刻度變成梅爾刻??（ｍｅｌ?ｓｃａｌｅ）以降低維數(shù)，并且采用對數(shù)刻度值。??梅爾聲譜閣是荇樂識別的首選輸入類型，其包拈音樂標簽、邊界、起始檢測和潛在??征學(xué)等廣泛的特征，并且己經(jīng)證明梅爾尺度與人類聽覺系統(tǒng)相似［｜２］，為了獲得梅爾??譜閣，需要將ＳＴＦＴ和對幅度取對數(shù)作為預(yù)處理步驟，然后使用梅爾濾波，直接將聲??矩陣輸入網(wǎng)絡(luò)進行識別分類，詳細步驟在第四章中會進行詳細闡述。圖２－４為某個咅??信號的梅爾廣＿＇譜閣。??？?ｘ１０４??

【參考文獻】：
期刊論文
[1]Spherical torus-based video hashing for near-duplicate video detection[J]. Xiushan NIE,Yane CHAI,Ju LIU,Jiande SUN,Yilong YIN. Science China（Information Sciences）. 2016(05)
[2]基于樣本熵的語音/音樂識別[J]. 楊松,于鳳芹. 計算機工程與應(yīng)用. 2012(23)

本文編號：3224803

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3224803.html

上一篇：基于深度學(xué)習(xí)的冷水機組傳感器故障診斷方法研究
下一篇：基于AIS與雷達的船舶監(jiān)控系統(tǒng)研究與實現(xiàn)

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度網(wǎng)絡(luò)和哈希學(xué)習(xí)的音樂識別