基于CNN的多音調(diào)鋼琴轉(zhuǎn)錄算法的研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-08-05 03:41
自動(dòng)音樂轉(zhuǎn)錄(Automatic Music Transcription,AMT)算法將原始音樂翻譯為符號(hào)標(biāo)記,主要包含了音符的起始時(shí)間,結(jié)束時(shí)間和音調(diào)三個(gè)信息,它在音樂教學(xué)、音樂欣賞、音樂信息檢索、樂理分析等方面有著廣泛的應(yīng)用。但是多音調(diào)自動(dòng)音樂轉(zhuǎn)錄算法仍然是一個(gè)具有挑戰(zhàn)性的問題。本文實(shí)現(xiàn)了一套基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的多音調(diào)鋼琴轉(zhuǎn)錄算法。首先對(duì)原始的鋼琴音樂信號(hào)進(jìn)行時(shí)頻分析,讀入雙聲道的音樂信號(hào)后進(jìn)行常數(shù)Q變換(Constant Q Transform,CQT)得到雙聲道時(shí)頻特征表示;接著進(jìn)行多音調(diào)起始時(shí)間檢測(cè),通過多音調(diào)起始時(shí)間檢測(cè)模型檢測(cè)并行音符的起始時(shí)間,公共起始時(shí)間檢測(cè)模型檢測(cè)并行音符的公共起始時(shí)間,并對(duì)多音調(diào)起始時(shí)間對(duì)齊;最后進(jìn)行多音調(diào)結(jié)束時(shí)間檢測(cè),通過幀級(jí)多音調(diào)檢測(cè)模型檢測(cè)每個(gè)音符的結(jié)束時(shí)間。本文的主要工作包括:(1)調(diào)查國(guó)內(nèi)外相關(guān)研究現(xiàn)狀,并簡(jiǎn)述自動(dòng)音樂轉(zhuǎn)錄的核心技術(shù);(2)設(shè)計(jì)并實(shí)現(xiàn)了多音調(diào)起始時(shí)間檢測(cè)模塊,采用兩個(gè)基于CNN的模型實(shí)現(xiàn)了音符的起始時(shí)間和音調(diào)信息的檢測(cè),采用對(duì)齊后處理策略優(yōu)化了多音調(diào)起始時(shí)間...
【文章來源】:華中科技大學(xué)湖北省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:66 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
relu圖像表示在實(shí)際的應(yīng)用中,sigmoid和tanh更常用于全連接層,而relu則更適合于卷積層
圖 3.4 F#4 音符時(shí)域圖及對(duì)應(yīng) CQT 頻譜圖②輸入采用 CQT 的頻譜特征,其頻譜軸為對(duì)數(shù)軸。當(dāng)頻譜特征整體向上或者向下平移時(shí),其標(biāo)簽也會(huì)隨之變化。Samuel[45]在 2017 年利用這種特性在有限的數(shù)據(jù)集上記性了數(shù)據(jù)集擴(kuò)增。而 CNN 的池化層使 CNN 學(xué)習(xí)到的特征具有平移不變性,結(jié)合對(duì)數(shù)軸的 CQT 頻譜,可以學(xué)習(xí)到音調(diào)不變性的特征。③相比于 DNN,CNN 采用共享參數(shù)進(jìn)行特征提取過程,既可以減少模型的大小,同時(shí)還能有效防止過擬合,提高模型的泛化性能。(3)輸出:多音調(diào)起始時(shí)間檢測(cè)模型會(huì)檢測(cè)輸入幀中的新彈奏音符的音調(diào)信息,故其神經(jīng)網(wǎng)絡(luò)的輸出層包含 88 個(gè)輸出單元,對(duì)應(yīng)了鋼琴中的 88 個(gè)按鍵音符,故該模型是一個(gè)多標(biāo)簽多任務(wù)模型,可能在某個(gè)時(shí)刻同時(shí)有多個(gè)新增音符存在,也就是同時(shí)有多個(gè)鋼琴鍵被按下。激活函數(shù)采用 sigmoid,輸出值在(0,1),表示了輸入幀時(shí)刻是某個(gè)音符的起始時(shí)間的概率。
華 中 科 技 大 學(xué) 碩 士 學(xué) 位 論 文需要利用時(shí)頻信號(hào)的變化特征,相當(dāng)于空間特征,故需要連續(xù)數(shù)幀頻譜的輸入,故采用滑窗方式截取一個(gè)頻譜圖作為最終的輸入,最終設(shè)定的。3)最大值歸一化:為了讓 CNN 模型能更好的識(shí)別輸入特征,我們對(duì)據(jù)進(jìn)行了最大值歸一化,將輸入頻譜的值歸一化到(0, 1)。
本文編號(hào):3322993
【文章來源】:華中科技大學(xué)湖北省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:66 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
relu圖像表示在實(shí)際的應(yīng)用中,sigmoid和tanh更常用于全連接層,而relu則更適合于卷積層
圖 3.4 F#4 音符時(shí)域圖及對(duì)應(yīng) CQT 頻譜圖②輸入采用 CQT 的頻譜特征,其頻譜軸為對(duì)數(shù)軸。當(dāng)頻譜特征整體向上或者向下平移時(shí),其標(biāo)簽也會(huì)隨之變化。Samuel[45]在 2017 年利用這種特性在有限的數(shù)據(jù)集上記性了數(shù)據(jù)集擴(kuò)增。而 CNN 的池化層使 CNN 學(xué)習(xí)到的特征具有平移不變性,結(jié)合對(duì)數(shù)軸的 CQT 頻譜,可以學(xué)習(xí)到音調(diào)不變性的特征。③相比于 DNN,CNN 采用共享參數(shù)進(jìn)行特征提取過程,既可以減少模型的大小,同時(shí)還能有效防止過擬合,提高模型的泛化性能。(3)輸出:多音調(diào)起始時(shí)間檢測(cè)模型會(huì)檢測(cè)輸入幀中的新彈奏音符的音調(diào)信息,故其神經(jīng)網(wǎng)絡(luò)的輸出層包含 88 個(gè)輸出單元,對(duì)應(yīng)了鋼琴中的 88 個(gè)按鍵音符,故該模型是一個(gè)多標(biāo)簽多任務(wù)模型,可能在某個(gè)時(shí)刻同時(shí)有多個(gè)新增音符存在,也就是同時(shí)有多個(gè)鋼琴鍵被按下。激活函數(shù)采用 sigmoid,輸出值在(0,1),表示了輸入幀時(shí)刻是某個(gè)音符的起始時(shí)間的概率。
華 中 科 技 大 學(xué) 碩 士 學(xué) 位 論 文需要利用時(shí)頻信號(hào)的變化特征,相當(dāng)于空間特征,故需要連續(xù)數(shù)幀頻譜的輸入,故采用滑窗方式截取一個(gè)頻譜圖作為最終的輸入,最終設(shè)定的。3)最大值歸一化:為了讓 CNN 模型能更好的識(shí)別輸入特征,我們對(duì)據(jù)進(jìn)行了最大值歸一化,將輸入頻譜的值歸一化到(0, 1)。
本文編號(hào):3322993
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3322993.html
最近更新
教材專著