基于卷積神經(jīng)網(wǎng)絡(luò)的歌唱語音識(shí)別
發(fā)布時(shí)間:2020-08-08 03:45
【摘要】:采用信號(hào)分析手段對(duì)歌唱藝術(shù)嗓音的質(zhì)量和狀態(tài)進(jìn)行科學(xué)客觀評(píng)價(jià),這樣對(duì)歌唱表演人才的科學(xué)選拔、教學(xué)、培訓(xùn)以及嗓音疾病診斷等方面有著重要的意義。然而,目前相關(guān)方法還存在著較多問題亟待解決,如聲學(xué)參數(shù)研究單一、信息融合效率低、算法魯棒性不好、低信噪比情況下識(shí)別準(zhǔn)確率低、評(píng)價(jià)階段信息利用不充分等。針對(duì)以上問題,本文采用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)作為基礎(chǔ)網(wǎng)絡(luò),通過相關(guān)預(yù)處理以及對(duì)CNN網(wǎng)絡(luò)的參數(shù)優(yōu)化和結(jié)構(gòu)調(diào)整,將傳統(tǒng)二維CNN(2DCNN)網(wǎng)絡(luò)改進(jìn)為更適用于一維聲音信號(hào)的一維CNN(1DCNN)網(wǎng)絡(luò),提出了基于1DCNN網(wǎng)絡(luò)的歌唱藝術(shù)嗓音質(zhì)量評(píng)價(jià)方法。首先,對(duì)嗓音信號(hào)進(jìn)行預(yù)處理。利用語音分析技術(shù)提取歌聲聲學(xué)參數(shù)第一共振峰、第三共振峰、基頻、音域、基頻微擾、第一共振峰微擾、第三共振峰微擾、平均能量等,將這些基礎(chǔ)特征進(jìn)行融合重組構(gòu)成輸入信號(hào)。本文采用小波分解重構(gòu)低頻系數(shù)信號(hào),結(jié)合高階累積量思想對(duì)重構(gòu)的帶噪嗓音信號(hào)進(jìn)行檢測(cè)分析,提出了一種基于改進(jìn)小波變換的基音周期檢測(cè)方法。實(shí)驗(yàn)證明,本文所提方法可以提高低信噪比下基音周期檢測(cè)的準(zhǔn)確性,且計(jì)算量較小,聲音信號(hào)的頻譜結(jié)構(gòu)和信息保留完整。然后,提出了改進(jìn)的適用于一維聲音信號(hào)的1DCNN模型。通過改進(jìn)和調(diào)整傳統(tǒng)2DCNN的結(jié)構(gòu),提出了一種能更好地描述一維嗓音信號(hào)的時(shí)變特性的1DCNN模型。針對(duì)CNN訓(xùn)練過程中耗時(shí)較長(zhǎng)的問題,本文通過融合分?jǐn)?shù)階神經(jīng)網(wǎng)絡(luò)思想,提出了利用Sigmoid函數(shù)分?jǐn)?shù)階處理節(jié)點(diǎn)的方法,同時(shí)提出了改進(jìn)的0.5分?jǐn)?shù)階1DCNN模型。實(shí)驗(yàn)證明,本文所提模型收斂速度更快,縮短了CNN訓(xùn)練耗時(shí),且嗓音質(zhì)量評(píng)價(jià)系統(tǒng)精度為85.7%,相較于傳統(tǒng)2DCNN網(wǎng)絡(luò)提升了5.4%。最后,提出了一種基于1DCNN模型的歌唱藝術(shù)嗓音質(zhì)量評(píng)價(jià)方法。在Matlab R2016a平臺(tái)完成仿真實(shí)驗(yàn),將預(yù)測(cè)評(píng)價(jià)結(jié)果與專業(yè)人士的主觀評(píng)價(jià)結(jié)果進(jìn)行比較,得出誤差統(tǒng)計(jì)結(jié)果;并與BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)、小波神經(jīng)網(wǎng)絡(luò)以及傳統(tǒng)2DCNN網(wǎng)絡(luò)進(jìn)行對(duì)比分析。實(shí)驗(yàn)結(jié)果表明,本文所提方法平均誤差為0.23,比BP神經(jīng)網(wǎng)絡(luò)低0.50,比小波神經(jīng)網(wǎng)絡(luò)低0.33。本文所提基于1DCNN的歌唱藝術(shù)嗓音質(zhì)量評(píng)價(jià)方法較好地解決了特征信息融合以及利用率、低信噪比下基音周期檢測(cè)、一維卷積神經(jīng)網(wǎng)絡(luò)的構(gòu)造以及訓(xùn)練效率等問題,能夠客觀有效地評(píng)估歌唱藝術(shù)嗓音質(zhì)量等級(jí),對(duì)比誤差小,魯棒性較好且可移植性強(qiáng)。本文方法不僅可用于歌唱嗓音評(píng)估,還可用于嗓音疾病診斷等方面,具有較大的應(yīng)用價(jià)值。
【學(xué)位授予單位】:西南科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:TN912.34;TP183
【圖文】:
量化過程統(tǒng)計(jì)模型
散變換[35]。根據(jù)取樣定理,當(dāng)取樣丟失信息,通過取樣信號(hào)可以準(zhǔn)確地號(hào)進(jìn)行量化,連續(xù)波形的波形離散成若干個(gè),并且在同一個(gè)幅值范圍電平的選擇依賴于數(shù)字表示的應(yīng)模型來表示,即量化后的信號(hào) (~x n和,即 ()~x n= x (n)+ e (n)。圖 2-1 量化過程統(tǒng)計(jì)模型 statistical model of quantizing proc
)量化誤差在所劃分的間隔內(nèi)均勻分布,且具有度函數(shù)如圖 2-2 所示。音的預(yù)加重弱的原因很多,但在口腔唇中對(duì)高頻的影響遠(yuǎn)遠(yuǎn)析最原始信號(hào),所以要對(duì)藝術(shù)嗓音進(jìn)行預(yù)加重技使得信號(hào)更加接近原始信號(hào)。在實(shí)驗(yàn)中,通常是重,一般選取 FIR 數(shù)字濾波器[42],其傳遞函數(shù)()11 H z z個(gè)作用:(1)增添一個(gè)零點(diǎn)抵消減少的高頻成其頻譜;在藝術(shù)嗓音中剩下聲道的影響,提取的致[43];(2)FIR 數(shù)字濾波器是一個(gè)高通濾波器)它還便于共振峰的檢測(cè),減少頻譜的動(dòng)蕩,提
【學(xué)位授予單位】:西南科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:TN912.34;TP183
【圖文】:
量化過程統(tǒng)計(jì)模型
散變換[35]。根據(jù)取樣定理,當(dāng)取樣丟失信息,通過取樣信號(hào)可以準(zhǔn)確地號(hào)進(jìn)行量化,連續(xù)波形的波形離散成若干個(gè),并且在同一個(gè)幅值范圍電平的選擇依賴于數(shù)字表示的應(yīng)模型來表示,即量化后的信號(hào) (~x n和,即 ()~x n= x (n)+ e (n)。圖 2-1 量化過程統(tǒng)計(jì)模型 statistical model of quantizing proc
)量化誤差在所劃分的間隔內(nèi)均勻分布,且具有度函數(shù)如圖 2-2 所示。音的預(yù)加重弱的原因很多,但在口腔唇中對(duì)高頻的影響遠(yuǎn)遠(yuǎn)析最原始信號(hào),所以要對(duì)藝術(shù)嗓音進(jìn)行預(yù)加重技使得信號(hào)更加接近原始信號(hào)。在實(shí)驗(yàn)中,通常是重,一般選取 FIR 數(shù)字濾波器[42],其傳遞函數(shù)()11 H z z個(gè)作用:(1)增添一個(gè)零點(diǎn)抵消減少的高頻成其頻譜;在藝術(shù)嗓音中剩下聲道的影響,提取的致[43];(2)FIR 數(shù)字濾波器是一個(gè)高通濾波器)它還便于共振峰的檢測(cè),減少頻譜的動(dòng)蕩,提
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 曾維亮;林志賢;陳永灑;;基于卷積神經(jīng)網(wǎng)絡(luò)的智能冰箱果蔬圖像識(shí)別的研究[J];微型機(jī)與應(yīng)用;2017年08期
2 王媛媛;周濤;吳翠穎;;基于卷積神經(jīng)網(wǎng)絡(luò)的PET/CT多模態(tài)圖像識(shí)別研究[J];電視技術(shù);2017年03期
3 尹勰;閆磊;;基于深度卷積神經(jīng)網(wǎng)絡(luò)的圖像目標(biāo)檢測(cè)[J];工業(yè)控制計(jì)算機(jī);2017年04期
4 張慶輝;萬晨霞;;卷積神經(jīng)網(wǎng)絡(luò)綜述[J];中原工學(xué)院學(xué)報(bào);2017年03期
5 俞汝R
本文編號(hào):2784997
本文鏈接:http://sikaile.net/kejilunwen/wltx/2784997.html
最近更新
教材專著