基于深度學(xué)習(xí)的語(yǔ)音質(zhì)量評(píng)價(jià)方法研究
發(fā)布時(shí)間:2017-10-23 04:11
本文關(guān)鍵詞:基于深度學(xué)習(xí)的語(yǔ)音質(zhì)量評(píng)價(jià)方法研究
更多相關(guān)文章: 語(yǔ)音質(zhì)量評(píng)價(jià) Gammatone頻率倒譜系數(shù) 感知線性預(yù)測(cè)倒譜系數(shù) 深度學(xué)習(xí) 模糊支持向量機(jī)
【摘要】:多種多樣的語(yǔ)音傳輸和通信系統(tǒng)在人們?nèi)粘5男畔⒔涣髦邪缪萘藰O其重要的角色,而語(yǔ)音系統(tǒng)的輸出語(yǔ)音質(zhì)量?jī)?yōu)劣是評(píng)估其性能的決定性因素。主觀語(yǔ)音質(zhì)量評(píng)價(jià)方法雖然可靠,但實(shí)施過(guò)程耗時(shí)耗力,靈活性差;谳斎-輸出方式的客觀評(píng)價(jià)方法和主觀評(píng)價(jià)相關(guān)度可達(dá)到很高,但其需要實(shí)際中較難獲得的原始輸入信號(hào)作參考,所以尋求高性能的基于輸出方式的客觀語(yǔ)音質(zhì)量評(píng)價(jià)方法是十分迫切的。本文通過(guò)研究基于輸出方式的客觀評(píng)價(jià)方法,提出一種基于深度學(xué)習(xí)的新方法,即首先對(duì)預(yù)處理后的語(yǔ)音提取特征,然后利用已訓(xùn)練好模型參數(shù)的深度信念網(wǎng)絡(luò)將特征映射到對(duì)應(yīng)的語(yǔ)音質(zhì)量等級(jí)區(qū)間,以獲得客觀預(yù)測(cè)的語(yǔ)音質(zhì)量結(jié)果。本文的主要內(nèi)容如下:(1)對(duì)語(yǔ)音預(yù)處理后,進(jìn)行語(yǔ)音活動(dòng)檢測(cè),對(duì)檢測(cè)得到的語(yǔ)音幀特征提取,排除靜音幀,有助于提高語(yǔ)音質(zhì)量評(píng)價(jià)的準(zhǔn)確性;(2)將改進(jìn)的Gammatone頻率倒譜系數(shù)與感知線性預(yù)測(cè)倒譜系數(shù)作為語(yǔ)音的特征,對(duì)人耳聽(tīng)覺(jué)感知的模擬效果更佳,改善了客觀評(píng)價(jià)結(jié)果與主觀評(píng)價(jià)的相關(guān)性;(3)引入深度學(xué)習(xí)來(lái)進(jìn)行語(yǔ)音特征的學(xué)習(xí),并將特征映射到非均勻粒度法劃分的質(zhì)量等級(jí)區(qū)間,以得到預(yù)測(cè)結(jié)果,同時(shí)與淺層學(xué)習(xí)模糊支持向量機(jī)作對(duì)比,實(shí)驗(yàn)結(jié)果分析表明將深度學(xué)習(xí)應(yīng)用于語(yǔ)音質(zhì)量評(píng)價(jià)系統(tǒng)要優(yōu)越于淺層學(xué)習(xí)。通過(guò)對(duì)多個(gè)語(yǔ)音樣本進(jìn)行測(cè)試,可證明所提出的基于輸出方式的語(yǔ)音質(zhì)量評(píng)價(jià)方法是有效的,并且具有很好的靈活性和魯棒性,預(yù)測(cè)所得結(jié)果和主觀評(píng)價(jià)有較高的相關(guān)性,最高可至0.91。
【關(guān)鍵詞】:語(yǔ)音質(zhì)量評(píng)價(jià) Gammatone頻率倒譜系數(shù) 感知線性預(yù)測(cè)倒譜系數(shù) 深度學(xué)習(xí) 模糊支持向量機(jī)
【學(xué)位授予單位】:大連理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TN912.3
【目錄】:
- 摘要4-5
- Abstract5-8
- 1 緒論8-14
- 1.1 研究背景與意義8
- 1.2 語(yǔ)音質(zhì)量評(píng)價(jià)研究現(xiàn)狀8-13
- 1.2.1 主觀評(píng)價(jià)方法8-10
- 1.2.2 客觀評(píng)價(jià)方法10-13
- 1.3 本文的主要工作與內(nèi)容安排13-14
- 2 語(yǔ)音質(zhì)量評(píng)價(jià)基本知識(shí)14-24
- 2.1 語(yǔ)音信號(hào)產(chǎn)生的數(shù)學(xué)模型14-18
- 2.2 語(yǔ)音質(zhì)量映射方法18-23
- 2.2.1 貝葉斯分類器18-19
- 2.2.2 高斯混合模型19-20
- 2.2.3 隱馬爾科夫模型20
- 2.2.4 支持向量機(jī)20-21
- 2.2.5 神經(jīng)網(wǎng)絡(luò)21-23
- 2.3 語(yǔ)音質(zhì)量評(píng)價(jià)系統(tǒng)性能指標(biāo)23-24
- 3 語(yǔ)音質(zhì)量評(píng)價(jià)系統(tǒng)特征提取24-36
- 3.1 預(yù)處理與語(yǔ)音活動(dòng)檢測(cè)24-26
- 3.2 改進(jìn)的Gammatone頻率倒譜系數(shù)特征26-31
- 3.3 感知線性預(yù)測(cè)倒譜系數(shù)特征31-36
- 4 基于深度學(xué)習(xí)的語(yǔ)音質(zhì)量評(píng)價(jià)36-48
- 4.1 深度學(xué)習(xí)概述36-40
- 4.1.1 深度學(xué)習(xí)的提出與發(fā)展36-37
- 4.1.2 選擇深度學(xué)習(xí)的必要性37-38
- 4.1.3 深度學(xué)習(xí)的數(shù)據(jù)表示與典型結(jié)構(gòu)38-40
- 4.2 深度信念網(wǎng)絡(luò)DBN40-48
- 4.2.1 受限玻爾茲曼機(jī)RBM模型40-42
- 4.2.2 對(duì)比散度學(xué)習(xí)法42-45
- 4.2.3 基于DBN的語(yǔ)音質(zhì)量評(píng)價(jià)45-48
- 5 系統(tǒng)實(shí)現(xiàn)與分析48-57
- 5.1 系統(tǒng)組成框架48-49
- 5.2 語(yǔ)音庫(kù)與實(shí)驗(yàn)環(huán)境49
- 5.3 系統(tǒng)評(píng)價(jià)結(jié)果49-57
- 5.3.1 深度信念網(wǎng)絡(luò)DBN參數(shù)設(shè)置50-52
- 5.3.2 基于深度信念網(wǎng)的系統(tǒng)性能52-53
- 5.3.3 模糊支持向量機(jī)53-55
- 5.3.4 基于模糊支持向量機(jī)的系統(tǒng)性能55-56
- 5.3.5 兩種系統(tǒng)性能對(duì)比56-57
- 結(jié)論57-58
- 參考文獻(xiàn)58-62
- 攻讀碩士學(xué)位期間發(fā)表學(xué)術(shù)論文情況62-63
- 致謝63-64
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前1條
1 陳明義;孫冬梅;何孝月;;基于改進(jìn)MFCC語(yǔ)音特征參數(shù)的語(yǔ)音質(zhì)量評(píng)估的研究[J];電路與系統(tǒng)學(xué)報(bào);2009年03期
,本文編號(hào):1081524
本文鏈接:http://sikaile.net/kejilunwen/wltx/1081524.html
最近更新
教材專著