基于CNN的多音調(diào)鋼琴轉(zhuǎn)錄算法的研究與實(shí)現(xiàn)
發(fā)布時間:2021-08-05 03:41
自動音樂轉(zhuǎn)錄(Automatic Music Transcription,AMT)算法將原始音樂翻譯為符號標(biāo)記,主要包含了音符的起始時間,結(jié)束時間和音調(diào)三個信息,它在音樂教學(xué)、音樂欣賞、音樂信息檢索、樂理分析等方面有著廣泛的應(yīng)用。但是多音調(diào)自動音樂轉(zhuǎn)錄算法仍然是一個具有挑戰(zhàn)性的問題。本文實(shí)現(xiàn)了一套基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的多音調(diào)鋼琴轉(zhuǎn)錄算法。首先對原始的鋼琴音樂信號進(jìn)行時頻分析,讀入雙聲道的音樂信號后進(jìn)行常數(shù)Q變換(Constant Q Transform,CQT)得到雙聲道時頻特征表示;接著進(jìn)行多音調(diào)起始時間檢測,通過多音調(diào)起始時間檢測模型檢測并行音符的起始時間,公共起始時間檢測模型檢測并行音符的公共起始時間,并對多音調(diào)起始時間對齊;最后進(jìn)行多音調(diào)結(jié)束時間檢測,通過幀級多音調(diào)檢測模型檢測每個音符的結(jié)束時間。本文的主要工作包括:(1)調(diào)查國內(nèi)外相關(guān)研究現(xiàn)狀,并簡述自動音樂轉(zhuǎn)錄的核心技術(shù);(2)設(shè)計并實(shí)現(xiàn)了多音調(diào)起始時間檢測模塊,采用兩個基于CNN的模型實(shí)現(xiàn)了音符的起始時間和音調(diào)信息的檢測,采用對齊后處理策略優(yōu)化了多音調(diào)起始時間...
【文章來源】:華中科技大學(xué)湖北省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:66 頁
【學(xué)位級別】:碩士
【部分圖文】:
relu圖像表示在實(shí)際的應(yīng)用中,sigmoid和tanh更常用于全連接層,而relu則更適合于卷積層
圖 3.4 F#4 音符時域圖及對應(yīng) CQT 頻譜圖②輸入采用 CQT 的頻譜特征,其頻譜軸為對數(shù)軸。當(dāng)頻譜特征整體向上或者向下平移時,其標(biāo)簽也會隨之變化。Samuel[45]在 2017 年利用這種特性在有限的數(shù)據(jù)集上記性了數(shù)據(jù)集擴(kuò)增。而 CNN 的池化層使 CNN 學(xué)習(xí)到的特征具有平移不變性,結(jié)合對數(shù)軸的 CQT 頻譜,可以學(xué)習(xí)到音調(diào)不變性的特征。③相比于 DNN,CNN 采用共享參數(shù)進(jìn)行特征提取過程,既可以減少模型的大小,同時還能有效防止過擬合,提高模型的泛化性能。(3)輸出:多音調(diào)起始時間檢測模型會檢測輸入幀中的新彈奏音符的音調(diào)信息,故其神經(jīng)網(wǎng)絡(luò)的輸出層包含 88 個輸出單元,對應(yīng)了鋼琴中的 88 個按鍵音符,故該模型是一個多標(biāo)簽多任務(wù)模型,可能在某個時刻同時有多個新增音符存在,也就是同時有多個鋼琴鍵被按下。激活函數(shù)采用 sigmoid,輸出值在(0,1),表示了輸入幀時刻是某個音符的起始時間的概率。
華 中 科 技 大 學(xué) 碩 士 學(xué) 位 論 文需要利用時頻信號的變化特征,相當(dāng)于空間特征,故需要連續(xù)數(shù)幀頻譜的輸入,故采用滑窗方式截取一個頻譜圖作為最終的輸入,最終設(shè)定的。3)最大值歸一化:為了讓 CNN 模型能更好的識別輸入特征,我們對據(jù)進(jìn)行了最大值歸一化,將輸入頻譜的值歸一化到(0, 1)。
本文編號:3322993
【文章來源】:華中科技大學(xué)湖北省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:66 頁
【學(xué)位級別】:碩士
【部分圖文】:
relu圖像表示在實(shí)際的應(yīng)用中,sigmoid和tanh更常用于全連接層,而relu則更適合于卷積層
圖 3.4 F#4 音符時域圖及對應(yīng) CQT 頻譜圖②輸入采用 CQT 的頻譜特征,其頻譜軸為對數(shù)軸。當(dāng)頻譜特征整體向上或者向下平移時,其標(biāo)簽也會隨之變化。Samuel[45]在 2017 年利用這種特性在有限的數(shù)據(jù)集上記性了數(shù)據(jù)集擴(kuò)增。而 CNN 的池化層使 CNN 學(xué)習(xí)到的特征具有平移不變性,結(jié)合對數(shù)軸的 CQT 頻譜,可以學(xué)習(xí)到音調(diào)不變性的特征。③相比于 DNN,CNN 采用共享參數(shù)進(jìn)行特征提取過程,既可以減少模型的大小,同時還能有效防止過擬合,提高模型的泛化性能。(3)輸出:多音調(diào)起始時間檢測模型會檢測輸入幀中的新彈奏音符的音調(diào)信息,故其神經(jīng)網(wǎng)絡(luò)的輸出層包含 88 個輸出單元,對應(yīng)了鋼琴中的 88 個按鍵音符,故該模型是一個多標(biāo)簽多任務(wù)模型,可能在某個時刻同時有多個新增音符存在,也就是同時有多個鋼琴鍵被按下。激活函數(shù)采用 sigmoid,輸出值在(0,1),表示了輸入幀時刻是某個音符的起始時間的概率。
華 中 科 技 大 學(xué) 碩 士 學(xué) 位 論 文需要利用時頻信號的變化特征,相當(dāng)于空間特征,故需要連續(xù)數(shù)幀頻譜的輸入,故采用滑窗方式截取一個頻譜圖作為最終的輸入,最終設(shè)定的。3)最大值歸一化:為了讓 CNN 模型能更好的識別輸入特征,我們對據(jù)進(jìn)行了最大值歸一化,將輸入頻譜的值歸一化到(0, 1)。
本文編號:3322993
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3322993.html
最近更新
教材專著