天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

卷積神經(jīng)網(wǎng)絡(luò)研究及其在基音檢測(cè)中的應(yīng)用

發(fā)布時(shí)間:2017-10-10 16:32

  本文關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò)研究及其在基音檢測(cè)中的應(yīng)用


  更多相關(guān)文章: 卷積神經(jīng)網(wǎng)絡(luò) 基音檢測(cè) 語音信號(hào)處理 錯(cuò)誤反向傳播算法


【摘要】:卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)是一種源于人工神經(jīng)網(wǎng)絡(luò)(Neural Network, NN)的深度機(jī)器學(xué)習(xí)方法,近年來在圖像識(shí)別領(lǐng)域取得了巨大的成功。CNN由于采用局部連接和權(quán)值共享,保持了網(wǎng)絡(luò)的深層結(jié)構(gòu),同時(shí)又大大減少了網(wǎng)絡(luò)參數(shù),使模型具有良好的泛化能力又較容易訓(xùn)練。NN的訓(xùn)練算法是基于梯度下降的錯(cuò)誤信號(hào)反向傳播(Back Propagate, BP)算法,CNN的訓(xùn)練算法是BP算法的一種變形。本文從梯度下降的數(shù)學(xué)推導(dǎo)中總結(jié)了NN訓(xùn)練過程中的錯(cuò)誤信號(hào)傳播和權(quán)重修改策略,用切割小圖訓(xùn)練共權(quán)神經(jīng)網(wǎng)絡(luò)的方式解釋了CNN中的卷積過程,并以特殊卷積的方式解釋了CNN的子采樣過程,最后將NN的錯(cuò)誤信號(hào)傳播和權(quán)重修改策略移植到CNN的訓(xùn)練中。我們將推導(dǎo)出的CNN訓(xùn)練方法用C++編碼實(shí)現(xiàn),用CNN應(yīng)用最早最典型的手寫數(shù)字識(shí)別問題驗(yàn)證被編碼的推導(dǎo)過程,得到了正確的效果。語音是人類生產(chǎn)生活中使用最為廣泛的一種交流媒介,隨著信息技術(shù)及移動(dòng)互聯(lián)網(wǎng)的發(fā)展與普及,語音被廣泛用于智能人機(jī)交互領(lǐng)域;纛l率是語音信號(hào)處理技術(shù)中一個(gè)非常重要的語音參數(shù),F(xiàn)實(shí)生活中,人們往往是在有噪聲環(huán)境下進(jìn)行語音交流,常用的基音提取方法在低信噪比環(huán)境下效果很差。本文深入分析了神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò),并將其和傳統(tǒng)基音檢測(cè)方法結(jié)合,得到CNN_ACF_DP基音檢測(cè)方法。該方法用ACF對(duì)語音文件算出一組基音判決信息,再用CNN算出一組基音判決信息,然后融合兩組基音判決信息,最后在融合信息上使用基于語音短時(shí)平穩(wěn)性的動(dòng)態(tài)規(guī)劃(Dynamic Programming,DP)求出基音序列。我們將CNN_ACF_DP方法與近年國(guó)際權(quán)威期刊上的PEFAC、Jin方法用相同的數(shù)據(jù)進(jìn)行了對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,我們的方法明顯優(yōu)于Jin方法,在某些數(shù)據(jù)上取得了比PEFAC更優(yōu)的結(jié)果,總體性能與PEFAC方法相近。本文的方法在濁音識(shí)別錯(cuò)誤率(VDE)和基音識(shí)別率(DR)兩個(gè)指標(biāo)上都明顯優(yōu)于Jin方法。在隨機(jī)說話人隨機(jī)噪聲環(huán)境下VDE和DR指標(biāo)略低于PEFAC, DR比PEFAC低1.34%,VDE比PEFAC高2.3%,但是本文方法對(duì)訓(xùn)練本文模型所使用的說話人的語音的VDE和DR兩個(gè)指標(biāo)都優(yōu)于PEFAC, DR比PEFAC高0.8%,VDE比PEAFC低9.2%。
【關(guān)鍵詞】:卷積神經(jīng)網(wǎng)絡(luò) 基音檢測(cè) 語音信號(hào)處理 錯(cuò)誤反向傳播算法
【學(xué)位授予單位】:內(nèi)蒙古大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TN912.3;TP183
【目錄】:
  • 摘要4-6
  • ABSTRACT6-13
  • 第一章 引言13-16
  • 1.1 研究?jī)?nèi)容和主要工作14-15
  • 1.2 論文組織結(jié)構(gòu)15-16
  • 第二章 基音檢測(cè)的基本理論16-22
  • 2.1 語音基礎(chǔ)16-17
  • 2.1.1 發(fā)聲系統(tǒng)16-17
  • 2.1.2 基音(pitch)17
  • 2.2 語音基音檢測(cè)17-18
  • 2.3 常見的基音檢測(cè)方法18-21
  • 2.3.1 自相關(guān)函數(shù)法18-19
  • 2.3.2 平均幅度差法19-20
  • 2.3.3 倒譜法20
  • 2.3.4 Jin方法20
  • 2.3.5 PEFAC方法20-21
  • 2.4 本章小結(jié)21-22
  • 第三章 神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)22-41
  • 3.1 神經(jīng)網(wǎng)絡(luò)22-31
  • 3.1.1 單層感知機(jī)24-28
  • 3.1.2 單輸出多層感知機(jī)28-29
  • 3.1.3 多輸出多層感知機(jī)29-31
  • 3.2 卷積神經(jīng)網(wǎng)絡(luò)31-39
  • 3.2.1 卷積神經(jīng)網(wǎng)絡(luò)的常用結(jié)構(gòu)32-33
  • 3.2.2 卷積與子采樣33-34
  • 3.2.3 卷積與權(quán)值共享34-35
  • 3.2.4 CNN訓(xùn)練過程中的三次卷積過程35-38
  • 3.2.5 卷積的作用38-39
  • 3.3 卷積神經(jīng)網(wǎng)絡(luò)實(shí)踐39-40
  • 3.4 本章小結(jié)40-41
  • 第四章 基于CNN的基音檢測(cè)系統(tǒng)描述41-50
  • 4.1 特征選擇41-42
  • 4.2 CNN的輸出定義42-43
  • 4.3 CNN結(jié)構(gòu)描述及訓(xùn)練控制43-45
  • 4.4 CNN與ACF融合45-47
  • 4.5 動(dòng)態(tài)規(guī)劃后處理47-49
  • 4.6 本章小結(jié)49-50
  • 第五章 實(shí)驗(yàn)及其結(jié)論50-56
  • 5.1 數(shù)據(jù)描述50
  • 5.2 實(shí)驗(yàn)評(píng)估50-51
  • 5.3 對(duì)比實(shí)驗(yàn)51-55
  • 5.4 后續(xù)工作55
  • 5.5 本章小結(jié)55-56
  • 第六章 總結(jié)與展望56-57
  • 參考文獻(xiàn)57-59
  • 致謝59

【共引文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 相征;朗朗;王靜;;基于基音頻能值的端點(diǎn)檢測(cè)算法[J];安徽工程科技學(xué)院學(xué)報(bào)(自然科學(xué)版);2008年03期

2 呂軍;馬曉娜;;漢語孤立詞聲韻分割算法的研究[J];安徽師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年03期

3 王暉;顏靖華;李傳珍;蔡娟娟;;音頻貝葉斯諧波模型中參數(shù)的提取[J];中國(guó)傳媒大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年04期

4 周長(zhǎng)鋒;韓力群;;概率神經(jīng)網(wǎng)絡(luò)在文本無關(guān)說話人識(shí)別中的應(yīng)用[J];北京工商大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年01期

5 魏麗英;;簡(jiǎn)析語音編碼[J];才智;2010年31期

6 由守杰;柏森;曹巍巍;;魯棒的DCT域音頻盲水印算法[J];重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年02期

7 肖菲;陳賀新;許萬里;趙巖;;模式匹配和過零率檢測(cè)的音頻差錯(cuò)掩蓋[J];吉林大學(xué)學(xué)報(bào)(信息科學(xué)版);2011年01期

8 李雨昕;;基于余弦過完備原子庫(kù)的語音信號(hào)MP稀疏分解[J];成都電子機(jī)械高等?茖W(xué)校學(xué)報(bào);2011年02期

9 劉瀟營(yíng);鄭郁正;李國(guó)良;;多類支持向量機(jī)在語音識(shí)別中的應(yīng)用[J];成都信息工程學(xué)院學(xué)報(bào);2010年01期

10 王昌喜;楊先軍;徐強(qiáng);馬祖長(zhǎng);孫怡寧;;基于三維加速度傳感器的上肢動(dòng)作識(shí)別系統(tǒng)[J];傳感技術(shù)學(xué)報(bào);2010年06期

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 黃麗霞;非特定人魯棒性語音識(shí)別中前端濾波器的研究[D];太原理工大學(xué);2011年

2 謝春輝;音頻隱藏分析方法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2011年

3 包桂蘭;基于EPG的蒙古語標(biāo)準(zhǔn)音協(xié)同發(fā)音研究[D];內(nèi)蒙古大學(xué);2011年

4 呂釗;噪聲環(huán)境下的語音識(shí)別算法研究[D];安徽大學(xué);2011年

5 姜濤;網(wǎng)絡(luò)環(huán)境下說話人識(shí)別關(guān)鍵技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2011年

6 肖文斌;基于耦合隱馬爾可夫模型的滾動(dòng)軸承故障診斷與性能退化評(píng)估研究[D];上海交通大學(xué);2011年

7 韓志艷;語音信號(hào)魯棒特征提取及可視化技術(shù)研究[D];東北大學(xué);2009年

8 高林;育苗生產(chǎn)線氣吸式播種系統(tǒng)智能控制的研究[D];北京林業(yè)大學(xué);2008年

9 汪云路;語音隱藏分析方法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2008年

10 錢博;基于漢語元音映射的說話人識(shí)別技術(shù)研究[D];南京理工大學(xué);2007年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 劉繼芳;基于計(jì)算聽覺場(chǎng)景分析的混合語音分離研究[D];哈爾濱工程大學(xué);2009年

2 王文姝;基于模糊理論的關(guān)鍵詞識(shí)別算法研究[D];哈爾濱工程大學(xué);2010年

3 劉維巍;語音信號(hào)基音周期檢測(cè)算法研究[D];哈爾濱工程大學(xué);2010年

4 樓佳;基于網(wǎng)絡(luò)QoS的AMR語音編碼算法研究[D];哈爾濱工程大學(xué);2010年

5 陳晶;基于詞片網(wǎng)格的語音文檔主題分類[D];哈爾濱工程大學(xué);2010年

6 朱妹麗;三種篡改情況下的音頻鑒定方法研究[D];大連理工大學(xué);2010年

7 周翠梅;說話人識(shí)別技術(shù)的研究與實(shí)現(xiàn)[D];大連理工大學(xué);2010年

8 甄會(huì);欠定盲分離混合矩陣估計(jì)方法的研究[D];大連理工大學(xué);2010年

9 張宇;基于倒譜特征的說話人識(shí)別方法研究[D];大連海事大學(xué);2010年

10 劉亞玉;限定性文本的語料庫(kù)自動(dòng)構(gòu)建[D];中國(guó)海洋大學(xué);2010年



本文編號(hào):1007432

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/wltx/1007432.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶a71da***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com