當(dāng)前位置：主頁 > 科技論文 > 網(wǎng)絡(luò)通信論文 >

不同語音特征對聲音分類的有效性研究

發(fā)布時間：2024-11-02 08:26

　　聲音信號分類是準(zhǔn)確進(jìn)行語音預(yù)測、解碼和識別的基礎(chǔ)工作。深度神經(jīng)網(wǎng)絡(luò)是目前音頻分類的主流方法。選用19種不同語音特征,以3種噪聲作為分類對象,采用深度長短時記憶神經(jīng)網(wǎng)絡(luò)作為分類算法,比較了不同語音特征及特征融合對噪聲信號分類準(zhǔn)確度的影響,總結(jié)了不同特征對信號分類的有效程度,并對實(shí)驗(yàn)結(jié)果進(jìn)行了說話人識別驗(yàn)證。該研究對公安領(lǐng)域說話人身份識別具有一定的參考價值。

【文章頁數(shù)】：7 頁

【部分圖文】：

不同語音特征對聲音分類的有效性研究

通過構(gòu)建上述LSTM神經(jīng)網(wǎng)絡(luò)模型,提取多個特征對40個說話人進(jìn)行識別,從表5的實(shí)驗(yàn)結(jié)果可知:特征融合的維度越高對說話人識別的效果越好(準(zhǔn)確度>90%);若是簡單的將1維的聲譜圖特征進(jìn)行融合,其對說話人識別的表現(xiàn)差(準(zhǔn)確度<50%),尤其是將spectralFlatness特征進(jìn)行....

不同語音特征對聲音分類的有效性研究

LSTM神經(jīng)網(wǎng)絡(luò)包含輸入層、輸出層和若干遞歸隱層,遞歸隱層是由記憶單元組成,每個記憶單元含有一個或多個自連接記憶細(xì)胞來進(jìn)行線性的反饋傳遞,從而加強(qiáng)神經(jīng)元內(nèi)部之間的聯(lián)系[13]。圖1表示LSTM記憶單元的結(jié)構(gòu)圖。LSTM神經(jīng)網(wǎng)絡(luò)引入門的機(jī)制控制信息的累積速度,提供對記憶單元的寫、讀....

不同語音特征對聲音分類的有效性研究

倒譜系數(shù)特征在音頻信號處理和分類中時常用到,提取該種特征的一般流程為:先對語音信號進(jìn)行分幀、加窗等預(yù)處理,接著對每一幀信號進(jìn)行快速傅里葉變換,計(jì)算譜線能量,然后通過濾波器濾波后得到一組系數(shù),最后再進(jìn)行離散余弦變換和倒譜變換得到倒譜系數(shù)特征。提取的流程圖見圖2。本文采用Mel頻率倒....

不同語音特征對聲音分類的有效性研究

通過構(gòu)建上述LSTM神經(jīng)網(wǎng)絡(luò)模型,提取單個特征對40個說話人進(jìn)行識別,從表4的實(shí)驗(yàn)結(jié)果可知:13維的mfcc、gtcc特征及其一階、二階特征對說話人識別表現(xiàn)好(準(zhǔn)確度達(dá)80%～100%),而剩下僅有1維的聲譜圖特征對說話人識別表現(xiàn)差(準(zhǔn)確度<30%),其中單一的spectralF....

本文編號：4009304

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/wltx/4009304.html

上一篇：同址干擾抵消技術(shù)的研究
下一篇：5G分場景TDD與FDD參數(shù)優(yōu)化策略研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

不同語音特征對聲音分類的有效性研究