基于內(nèi)容的音樂流派自動(dòng)分類系統(tǒng)的研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-01-03 21:43
隨著互聯(lián)網(wǎng)和多媒體技術(shù)的迅猛發(fā)展,在線音樂服務(wù)已經(jīng)成為面向大眾消費(fèi)者最重要的互聯(lián)網(wǎng)在線服務(wù)之一。互聯(lián)網(wǎng)上的音樂曲庫規(guī)模已經(jīng)極其龐大,各大在線曲庫中不乏曲目規(guī)模上百萬者,這些曲庫的規(guī)模還在迅速擴(kuò)大中。隨之而來的一個(gè)重要又緊迫的需求是自動(dòng)化標(biāo)注并合理組織與分類海量的數(shù)字化音樂曲目,以便消費(fèi)者根據(jù)個(gè)人喜好高效便捷地從海量音樂曲庫中檢索自己感興趣的音樂曲目。近年來音樂信息檢索(Music Information Retrieval,MIR)已經(jīng)發(fā)展為一個(gè)令人矚目的新興研究領(lǐng)域,其中基于內(nèi)容的音樂流派自動(dòng)分類是一個(gè)重要的音樂自動(dòng)標(biāo)注任務(wù)。本研究設(shè)計(jì)并實(shí)現(xiàn)了 一個(gè)基于內(nèi)容的音樂流派自動(dòng)分類系統(tǒng)。作者根據(jù)音樂在時(shí)間上的流動(dòng)特點(diǎn),結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和長短時(shí)記憶網(wǎng)絡(luò)設(shè)計(jì)了一種特殊結(jié)構(gòu)的基于音樂梅爾頻譜的深度學(xué)習(xí)分類器,并在GTZAN數(shù)據(jù)集上驗(yàn)證了該網(wǎng)絡(luò)結(jié)構(gòu)的有效性;該深度學(xué)習(xí)分類器的另一個(gè)優(yōu)點(diǎn)是其可以方便地對(duì)音樂進(jìn)行實(shí)時(shí)處理;為了進(jìn)一步提高該深度學(xué)習(xí)分類器的分類準(zhǔn)確率,作者對(duì)梅爾頻譜進(jìn)行了和聲打擊分離,并引入集成學(xué)習(xí)技術(shù),最終獲得了超高的分類準(zhǔn)確率;為了指導(dǎo)分類系統(tǒng)按照給定目標(biāo)音樂流派標(biāo)簽進(jìn)行音樂檢索,本...
【文章來源】:北京化工大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:72 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-1輸入層神經(jīng)元??Fig.2-1?Input?Neurons??
OOOOOOOOOOOOOOOOOOOOOOOOOOOO??OOOOOOOOOOOOOOOOOOOOOOOOOOOO??圖2-1輸入層神經(jīng)元??Fig.2-1?Input?Neurons??按照慣例,將輸入像素連接到隱含層神經(jīng)元。但是CNN與全連接層的不同之處??在于,CNN只在輸入圖像的小型局部區(qū)域建立連接。具體來說,第一個(gè)隱含層中的??每個(gè)神經(jīng)元將連接到輸入神經(jīng)元的一個(gè)小區(qū)域,例如,對(duì)應(yīng)于25X25個(gè)輸入像素的5??X5區(qū)域。所以,對(duì)于一個(gè)特定的隱藏神經(jīng)元,我們可能有這樣的連接:??13??
?'??mmMmmEmmsmmsm??圖2-4卷積連接??Fig.2-4?Convolution?Connection??以此類推建立第一個(gè)隱含層。請(qǐng)注意,如果我們有28X28的輸入圖像和5X5的??局部感受域,那么隱含層中將會(huì)有24X24個(gè)神經(jīng)元。這是因?yàn)槲覀冎荒茉谂鲎草斎??圖像的右側(cè)(或底部)之前移動(dòng)局部感受域神經(jīng)元。??以上經(jīng)展示了局部感受域一次被移動(dòng)一個(gè)像素。事實(shí)上,有時(shí)也使用不同的步幅??長度。例如可以將局部感受域2像素向右(或向下)移動(dòng),在這種情況下即使用了長??度為2的步幅。??2.2.3共享權(quán)值和偏置??每個(gè)隱藏的神經(jīng)元都有一個(gè)偏置,和幾個(gè)共享權(quán)值連接到它的局部感受域,且將??對(duì)隱藏層中的所有神經(jīng)元都使用相同的權(quán)值和偏置。即對(duì)于第j,k個(gè)隱藏的神經(jīng)元,??其輸出是:??/?4?4?、??。?S?X??知"??式(2-9)??V?/=0?m=0?j??其中,0■是神經(jīng)元的激活函數(shù),可能是sigmoid函數(shù)。6是共享的偏置。氣?是5??X5的共享權(quán)值矩陣。〇^表示位置X
本文編號(hào):2955538
【文章來源】:北京化工大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:72 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-1輸入層神經(jīng)元??Fig.2-1?Input?Neurons??
OOOOOOOOOOOOOOOOOOOOOOOOOOOO??OOOOOOOOOOOOOOOOOOOOOOOOOOOO??圖2-1輸入層神經(jīng)元??Fig.2-1?Input?Neurons??按照慣例,將輸入像素連接到隱含層神經(jīng)元。但是CNN與全連接層的不同之處??在于,CNN只在輸入圖像的小型局部區(qū)域建立連接。具體來說,第一個(gè)隱含層中的??每個(gè)神經(jīng)元將連接到輸入神經(jīng)元的一個(gè)小區(qū)域,例如,對(duì)應(yīng)于25X25個(gè)輸入像素的5??X5區(qū)域。所以,對(duì)于一個(gè)特定的隱藏神經(jīng)元,我們可能有這樣的連接:??13??
?'??mmMmmEmmsmmsm??圖2-4卷積連接??Fig.2-4?Convolution?Connection??以此類推建立第一個(gè)隱含層。請(qǐng)注意,如果我們有28X28的輸入圖像和5X5的??局部感受域,那么隱含層中將會(huì)有24X24個(gè)神經(jīng)元。這是因?yàn)槲覀冎荒茉谂鲎草斎??圖像的右側(cè)(或底部)之前移動(dòng)局部感受域神經(jīng)元。??以上經(jīng)展示了局部感受域一次被移動(dòng)一個(gè)像素。事實(shí)上,有時(shí)也使用不同的步幅??長度。例如可以將局部感受域2像素向右(或向下)移動(dòng),在這種情況下即使用了長??度為2的步幅。??2.2.3共享權(quán)值和偏置??每個(gè)隱藏的神經(jīng)元都有一個(gè)偏置,和幾個(gè)共享權(quán)值連接到它的局部感受域,且將??對(duì)隱藏層中的所有神經(jīng)元都使用相同的權(quán)值和偏置。即對(duì)于第j,k個(gè)隱藏的神經(jīng)元,??其輸出是:??/?4?4?、??。?S?X??知"??式(2-9)??V?/=0?m=0?j??其中,0■是神經(jīng)元的激活函數(shù),可能是sigmoid函數(shù)。6是共享的偏置。氣?是5??X5的共享權(quán)值矩陣。〇^表示位置X
本文編號(hào):2955538
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2955538.html
最近更新
教材專著