天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 碩博論文 > 信息類博士論文 >

基于小波分析的聲紋識(shí)別關(guān)鍵技術(shù)研究

發(fā)布時(shí)間:2021-08-02 23:24
  聲紋是指帶有語音信息的聲波頻譜,是一種生物特征,具有唯一性和穩(wěn)定性的特點(diǎn)。利用聲紋識(shí)別說話人身份的技術(shù)被稱為聲紋識(shí)別技術(shù)。該技術(shù)是目前流行的身份認(rèn)證技術(shù)之一,已經(jīng)廣泛地用于訪問控制、刑偵、司法和信息服務(wù)等領(lǐng)域。目前,大多數(shù)聲紋識(shí)別模型在無噪音環(huán)境中的識(shí)別準(zhǔn)確率較高。然而,在噪音環(huán)境中,聲紋識(shí)別模型的識(shí)別準(zhǔn)確率通常會(huì)迅速下降。聲紋識(shí)別的研究主要分為兩個(gè)部分:語音特征提取研究和說話人建模研究。為了增強(qiáng)聲紋識(shí)別模型的抗噪能力,本論文對(duì)語音特征提取和說話人建模技術(shù)進(jìn)行了系統(tǒng)地研究,同時(shí)結(jié)合小波分析和深度學(xué)習(xí)理論,提出了新的語音特征提取算法和說話人模型。主要研究成果歸納如下:(1)針對(duì)倒譜系數(shù)對(duì)噪音敏感的問題,提出了小波子帶倒譜系數(shù)(Wavelet Sub-band Cepstral Coefficient,WSCC)特征提取算法。該算法首先對(duì)語音樣本進(jìn)行離散小波變換,得到小波系數(shù),然后采用閾值降噪技術(shù)抑制小波系數(shù)中的噪音,最后根據(jù)小波系數(shù)計(jì)算倒譜特征。幅值較大的小波系數(shù)表示語音中有價(jià)值的信息,而幅值較小的小波系數(shù)表示語音中的噪音信息。因此,通過閾值降噪過程,WSCC提取算法能夠大幅度減少噪音對(duì)... 

【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校

【文章頁數(shù)】:115 頁

【學(xué)位級(jí)別】:博士

【部分圖文】:

基于小波分析的聲紋識(shí)別關(guān)鍵技術(shù)研究


WSCC-PNN模型的識(shí)別流程

過程圖,過程,識(shí)別過程,模型


第四章基于小波語音特征的I-vector模型59(a)(b)圖4-2聲紋識(shí)別過程。(a)WIv-CDS模型的識(shí)別過程;(b)PIv-CDS模型的識(shí)別過程這兩個(gè)識(shí)別模型非常相似。它們的區(qū)別是:WIv-CDS使用WIv描述說話人信息,而PIv-CDS使用PIv描述說話人信息。PIv和WIv生成模塊已經(jīng)詳細(xì)介紹過,這里不再重復(fù)。下面主要介紹CDS模塊。CDS是用于I-vector分類的常用工具,

流程圖,流程,語音,模型


電子科技大學(xué)博士學(xué)位論文76圖5-5聲紋識(shí)別模型的識(shí)別流程該聲紋識(shí)別模型分為兩個(gè)階段:注冊(cè)階段和識(shí)別階段。在注冊(cè)階段,已知說話人將訓(xùn)練語音樣本注冊(cè)到聲紋識(shí)別模型,該模型通過I-vector建模過程從訓(xùn)練語音中生成CNN/I-vecor并存放在數(shù)據(jù)庫中;在識(shí)別階段,未知說話人將測(cè)試語音樣本提交到聲紋識(shí)別模型,該模型也通過I-vector建模過程從測(cè)試語音中生成未知I-vector,最終使用CDS算法計(jì)算已知I-vector和未知I-vector的相似度,并給出識(shí)別結(jié)果。5.5實(shí)驗(yàn)與結(jié)論5.5.1實(shí)驗(yàn)數(shù)據(jù)集和平臺(tái)本章實(shí)驗(yàn)使用5個(gè)數(shù)據(jù)集,分別為TIMIT,NTIMIT,CSLU,Vexceleb(VC)和AiShell(AS)數(shù)據(jù)庫。TIMIT為標(biāo)準(zhǔn)的語音數(shù)據(jù)集,包含了630個(gè)說話人的語音樣本。每個(gè)說話人提供10個(gè)5秒英文語音樣本,采用16KHz的麥克風(fēng)在無噪音環(huán)境下錄制。NTIMIT為TIMIT的低采樣版本,所有語音樣本的采樣率均為8KHz。CSLU為手機(jī)語音數(shù)據(jù)集,包含了500個(gè)說話人語音樣本。每個(gè)說話人提供10個(gè)5秒英文語音樣本,采用16KHz的手機(jī)麥克風(fēng)在無噪音環(huán)境下錄制。VC為噪音語音數(shù)據(jù)集,包含了400個(gè)說話人的語音樣本。每個(gè)說話人提供8個(gè)5秒英文語音樣本,采用16KHz的麥克風(fēng)在噪音環(huán)境下錄制。AS為中文語音數(shù)據(jù)集,包含了400個(gè)說話人的語音樣本。每個(gè)說話人提供8個(gè)5秒語音樣本,采用44.1KHz的高保真麥克風(fēng)在無噪音環(huán)境下錄制。所有實(shí)驗(yàn)都在一臺(tái)搭載i5處理器和8G內(nèi)存的PC機(jī)上完成。


本文編號(hào):3318470

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/3318470.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶bb2a8***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com