當(dāng)前位置：主頁 > 科技論文 > 網(wǎng)絡(luò)通信論文 >

基于卷積神經(jīng)網(wǎng)絡(luò)的歌唱語音識(shí)別

發(fā)布時(shí)間：2020-08-08 03:45

【摘要】：采用信號(hào)分析手段對(duì)歌唱藝術(shù)嗓音的質(zhì)量和狀態(tài)進(jìn)行科學(xué)客觀評(píng)價(jià),這樣對(duì)歌唱表演人才的科學(xué)選拔、教學(xué)、培訓(xùn)以及嗓音疾病診斷等方面有著重要的意義。然而,目前相關(guān)方法還存在著較多問題亟待解決,如聲學(xué)參數(shù)研究單一、信息融合效率低、算法魯棒性不好、低信噪比情況下識(shí)別準(zhǔn)確率低、評(píng)價(jià)階段信息利用不充分等。針對(duì)以上問題,本文采用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)作為基礎(chǔ)網(wǎng)絡(luò),通過相關(guān)預(yù)處理以及對(duì)CNN網(wǎng)絡(luò)的參數(shù)優(yōu)化和結(jié)構(gòu)調(diào)整,將傳統(tǒng)二維CNN(2DCNN)網(wǎng)絡(luò)改進(jìn)為更適用于一維聲音信號(hào)的一維CNN(1DCNN)網(wǎng)絡(luò),提出了基于1DCNN網(wǎng)絡(luò)的歌唱藝術(shù)嗓音質(zhì)量評(píng)價(jià)方法。首先,對(duì)嗓音信號(hào)進(jìn)行預(yù)處理。利用語音分析技術(shù)提取歌聲聲學(xué)參數(shù)第一共振峰、第三共振峰、基頻、音域、基頻微擾、第一共振峰微擾、第三共振峰微擾、平均能量等,將這些基礎(chǔ)特征進(jìn)行融合重組構(gòu)成輸入信號(hào)。本文采用小波分解重構(gòu)低頻系數(shù)信號(hào),結(jié)合高階累積量思想對(duì)重構(gòu)的帶噪嗓音信號(hào)進(jìn)行檢測(cè)分析,提出了一種基于改進(jìn)小波變換的基音周期檢測(cè)方法。實(shí)驗(yàn)證明,本文所提方法可以提高低信噪比下基音周期檢測(cè)的準(zhǔn)確性,且計(jì)算量較小,聲音信號(hào)的頻譜結(jié)構(gòu)和信息保留完整。然后,提出了改進(jìn)的適用于一維聲音信號(hào)的1DCNN模型。通過改進(jìn)和調(diào)整傳統(tǒng)2DCNN的結(jié)構(gòu),提出了一種能更好地描述一維嗓音信號(hào)的時(shí)變特性的1DCNN模型。針對(duì)CNN訓(xùn)練過程中耗時(shí)較長(zhǎng)的問題,本文通過融合分?jǐn)?shù)階神經(jīng)網(wǎng)絡(luò)思想,提出了利用Sigmoid函數(shù)分?jǐn)?shù)階處理節(jié)點(diǎn)的方法,同時(shí)提出了改進(jìn)的0.5分?jǐn)?shù)階1DCNN模型。實(shí)驗(yàn)證明,本文所提模型收斂速度更快,縮短了CNN訓(xùn)練耗時(shí),且嗓音質(zhì)量評(píng)價(jià)系統(tǒng)精度為85.7%,相較于傳統(tǒng)2DCNN網(wǎng)絡(luò)提升了5.4%。最后,提出了一種基于1DCNN模型的歌唱藝術(shù)嗓音質(zhì)量評(píng)價(jià)方法。在Matlab R2016a平臺(tái)完成仿真實(shí)驗(yàn),將預(yù)測(cè)評(píng)價(jià)結(jié)果與專業(yè)人士的主觀評(píng)價(jià)結(jié)果進(jìn)行比較,得出誤差統(tǒng)計(jì)結(jié)果;并與BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)、小波神經(jīng)網(wǎng)絡(luò)以及傳統(tǒng)2DCNN網(wǎng)絡(luò)進(jìn)行對(duì)比分析。實(shí)驗(yàn)結(jié)果表明,本文所提方法平均誤差為0.23,比BP神經(jīng)網(wǎng)絡(luò)低0.50,比小波神經(jīng)網(wǎng)絡(luò)低0.33。本文所提基于1DCNN的歌唱藝術(shù)嗓音質(zhì)量評(píng)價(jià)方法較好地解決了特征信息融合以及利用率、低信噪比下基音周期檢測(cè)、一維卷積神經(jīng)網(wǎng)絡(luò)的構(gòu)造以及訓(xùn)練效率等問題,能夠客觀有效地評(píng)估歌唱藝術(shù)嗓音質(zhì)量等級(jí),對(duì)比誤差小,魯棒性較好且可移植性強(qiáng)。本文方法不僅可用于歌唱嗓音評(píng)估,還可用于嗓音疾病診斷等方面,具有較大的應(yīng)用價(jià)值。
【學(xué)位授予單位】：西南科技大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2018
【分類號(hào)】：TN912.34;TP183
【圖文】：

統(tǒng)計(jì)模型,量化過程

量化過程統(tǒng)計(jì)模型

波形,分布密度,取樣定理,量化過程

散變換[35]。根據(jù)取樣定理，當(dāng)取樣丟失信息，通過取樣信號(hào)可以準(zhǔn)確地號(hào)進(jìn)行量化，連續(xù)波形的波形離散成若干個(gè)，并且在同一個(gè)幅值范圍電平的選擇依賴于數(shù)字表示的應(yīng)模型來表示，即量化后的信號(hào) (~x n和，即 ()~x n= x (n)+ e (n)。圖 2-1 量化過程統(tǒng)計(jì)模型 statistical model of quantizing proc

譜線,預(yù)加重,基音,譜線

）量化誤差在所劃分的間隔內(nèi)均勻分布，且具有度函數(shù)如圖 2-2 所示。音的預(yù)加重弱的原因很多，但在口腔唇中對(duì)高頻的影響遠(yuǎn)遠(yuǎn)析最原始信號(hào)，所以要對(duì)藝術(shù)嗓音進(jìn)行預(yù)加重技使得信號(hào)更加接近原始信號(hào)。在實(shí)驗(yàn)中，通常是重，一般選取 FIR 數(shù)字濾波器[42]，其傳遞函數(shù)()11 H z z個(gè)作用：（1）增添一個(gè)零點(diǎn)抵消減少的高頻成其頻譜；在藝術(shù)嗓音中剩下聲道的影響，提取的致[43]；（2）FIR 數(shù)字濾波器是一個(gè)高通濾波器）它還便于共振峰的檢測(cè)，減少頻譜的動(dòng)蕩，提

【相似文獻(xiàn)】

相關(guān)期刊論文前10條

1 曾維亮;林志賢;陳永灑;;基于卷積神經(jīng)網(wǎng)絡(luò)的智能冰箱果蔬圖像識(shí)別的研究[J];微型機(jī)與應(yīng)用;2017年08期

2 王媛媛;周濤;吳翠穎;;基于卷積神經(jīng)網(wǎng)絡(luò)的PET/CT多模態(tài)圖像識(shí)別研究[J];電視技術(shù);2017年03期

3 尹勰;閆磊;;基于深度卷積神經(jīng)網(wǎng)絡(luò)的圖像目標(biāo)檢測(cè)[J];工業(yè)控制計(jì)算機(jī);2017年04期

4 張慶輝;萬晨霞;;卷積神經(jīng)網(wǎng)絡(luò)綜述[J];中原工學(xué)院學(xué)報(bào);2017年03期

5 俞汝R

本文編號(hào)：2784997

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/wltx/2784997.html

上一篇：基于H.264視頻信息隱藏功能的設(shè)計(jì)與實(shí)現(xiàn)
下一篇：可移動(dòng)網(wǎng)絡(luò)的干擾分析與仿真

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于卷積神經(jīng)網(wǎng)絡(luò)的歌唱語音識(shí)別