基于卷積神經網絡的音樂信號多樂器識別方法研究
發(fā)布時間:2022-07-15 12:17
隨著音樂數據的增長,基于內容的音樂信息檢索已經迫在眉睫。在音樂信號中對多種樂器進行分類識別,是音樂信息檢索領域的一個重要研究課題。傳統(tǒng)的樂器識別工作大多針對單音音樂中的樂器識別和復音音樂中的主要樂器識別。受限于數據集和有效的分類特征,復音音樂中多樂器識別的工作并不多。卷積神經網絡在圖像識別中得到了突破性的應用,很多工作已經使用卷積神經網絡對時頻譜圖的特征進行提取和學習。同時,最近幀級數據集的發(fā)布,也為多樂器識別問題提供了新的思路。本文通過合成數據集來擴展網絡模型的可用數據量,從樂器的樂理知識出發(fā)提取關鍵特征,構建了符合認知邏輯的兩級分類模型,提出了基于卷積神經網絡的音樂信號多樂器識別方法。本文的主要工作如下:(1)調研了眾多數據集,并引入了三個具有幀級標簽的數據集。受其啟發(fā),我們也構建了自建數據集來增加數據規(guī)模。我們從專業(yè)平臺獲取了真實世界演奏的原始音頻和相應的MIDI數字樂譜,選擇基于動態(tài)規(guī)劃的動態(tài)時間規(guī)整算法來把MIDI樂譜上的標簽注釋對齊到原始音頻上。(2)從樂理知識和信號處理的角度出發(fā),以音高特征和常數Q變換作為網絡的輸入特征。首先,提取音高特征時,我們使用了人工設置參數的濾波...
【文章頁數】:77 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景及意義
1.2 國內外研究現狀
1.2.1 樂器識別的場景
1.2.2 樂器識別的方法
1.2.3 樂器識別的時間精度
1.3 本文主要工作
1.4 本文的組織結構
第二章 基礎知識介紹
2.1 樂器基本知識介紹
2.1.1 樂器的音高范圍
2.1.2 樂器的音色
2.1.3 樂器的分類
2.1.4 樂器適用的音樂類型
2.2 數字音樂的基礎知識
2.2.1 音頻的屬性
2.2.2 MIDI文件
2.3 卷積神經網絡的基礎知識
2.3.1 卷積神經網絡簡介
2.3.2 損失函數
2.3.3 網絡的優(yōu)化
2.4 幀級數據集
2.4.1 Bach10 數據集
2.4.2 MedleyDB數據集
2.4.3 MIXING SECRETS數據集
2.5 本章小結
第三章 數據集的構建
3.1 引言
3.2 樂譜對齊算法
3.2.1 隱馬爾可夫模型
3.2.2 動態(tài)時間規(guī)整算法
3.3 MIDI樂譜對齊原始音頻
3.3.1 搭建流程
3.3.2 對齊結果
3.4 本章小結
第四章 音高特征與常數Q變換
4.1 引言
4.2 音高特征
4.2.1 多音高檢測方法綜述
4.2.2 構建音高特征提取模型
4.2.3 音高特征提取實驗及結果分析
4.3 常數Q變換
4.3.1 十二平均律與常數Q變換
4.3.2 常數Q變換的快速計算及其改進
4.3.3 計算常數Q變換矩陣
4.4 本章小結
第五章 基于兩級分類模型的樂器識別研究
5.1 特征處理
5.1.1 音高特征矩陣的處理
5.1.2 常數Q變換矩陣的處理
5.2 基準模型
5.2.1 基準模型的構建
5.2.2 實驗與分析
5.3 基于注意力網絡的分類模型
5.3.1 基于注意力網絡的分類模型的構建
5.3.2 實驗與分析
5.4 兩級分類模型
5.4.1 兩級分類模型的構建
5.4.2 實驗與分析
5.5 實驗總結及與現有方法對比
5.6 本章小結
總結與展望
參考文獻
攻讀碩士學位期間取得的研究成果
致謝
附件
【參考文獻】:
期刊論文
[1]音樂信號分析中常數Q變換的性能研究[J]. 丁志中,戴禮榮. 聲學技術. 2005(04)
本文編號:3662033
【文章頁數】:77 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景及意義
1.2 國內外研究現狀
1.2.1 樂器識別的場景
1.2.2 樂器識別的方法
1.2.3 樂器識別的時間精度
1.3 本文主要工作
1.4 本文的組織結構
第二章 基礎知識介紹
2.1 樂器基本知識介紹
2.1.1 樂器的音高范圍
2.1.2 樂器的音色
2.1.3 樂器的分類
2.1.4 樂器適用的音樂類型
2.2 數字音樂的基礎知識
2.2.1 音頻的屬性
2.2.2 MIDI文件
2.3 卷積神經網絡的基礎知識
2.3.1 卷積神經網絡簡介
2.3.2 損失函數
2.3.3 網絡的優(yōu)化
2.4 幀級數據集
2.4.1 Bach10 數據集
2.4.2 MedleyDB數據集
2.4.3 MIXING SECRETS數據集
2.5 本章小結
第三章 數據集的構建
3.1 引言
3.2 樂譜對齊算法
3.2.1 隱馬爾可夫模型
3.2.2 動態(tài)時間規(guī)整算法
3.3 MIDI樂譜對齊原始音頻
3.3.1 搭建流程
3.3.2 對齊結果
3.4 本章小結
第四章 音高特征與常數Q變換
4.1 引言
4.2 音高特征
4.2.1 多音高檢測方法綜述
4.2.2 構建音高特征提取模型
4.2.3 音高特征提取實驗及結果分析
4.3 常數Q變換
4.3.1 十二平均律與常數Q變換
4.3.2 常數Q變換的快速計算及其改進
4.3.3 計算常數Q變換矩陣
4.4 本章小結
第五章 基于兩級分類模型的樂器識別研究
5.1 特征處理
5.1.1 音高特征矩陣的處理
5.1.2 常數Q變換矩陣的處理
5.2 基準模型
5.2.1 基準模型的構建
5.2.2 實驗與分析
5.3 基于注意力網絡的分類模型
5.3.1 基于注意力網絡的分類模型的構建
5.3.2 實驗與分析
5.4 兩級分類模型
5.4.1 兩級分類模型的構建
5.4.2 實驗與分析
5.5 實驗總結及與現有方法對比
5.6 本章小結
總結與展望
參考文獻
攻讀碩士學位期間取得的研究成果
致謝
附件
【參考文獻】:
期刊論文
[1]音樂信號分析中常數Q變換的性能研究[J]. 丁志中,戴禮榮. 聲學技術. 2005(04)
本文編號:3662033
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/3662033.html