不同語音特征對聲音分類的有效性研究
【文章頁數(shù)】:7 頁
【部分圖文】:
通過構(gòu)建上述LSTM神經(jīng)網(wǎng)絡(luò)模型,提取多個特征對40個說話人進行識別,從表5的實驗結(jié)果可知:特征融合的維度越高對說話人識別的效果越好(準確度>90%);若是簡單的將1維的聲譜圖特征進行融合,其對說話人識別的表現(xiàn)差(準確度<50%),尤其是將spectralFlatness特征進行....
LSTM神經(jīng)網(wǎng)絡(luò)包含輸入層、輸出層和若干遞歸隱層,遞歸隱層是由記憶單元組成,每個記憶單元含有一個或多個自連接記憶細胞來進行線性的反饋傳遞,從而加強神經(jīng)元內(nèi)部之間的聯(lián)系[13]。圖1表示LSTM記憶單元的結(jié)構(gòu)圖。LSTM神經(jīng)網(wǎng)絡(luò)引入門的機制控制信息的累積速度,提供對記憶單元的寫、讀....
倒譜系數(shù)特征在音頻信號處理和分類中時常用到,提取該種特征的一般流程為:先對語音信號進行分幀、加窗等預(yù)處理,接著對每一幀信號進行快速傅里葉變換,計算譜線能量,然后通過濾波器濾波后得到一組系數(shù),最后再進行離散余弦變換和倒譜變換得到倒譜系數(shù)特征。提取的流程圖見圖2。本文采用Mel頻率倒....
通過構(gòu)建上述LSTM神經(jīng)網(wǎng)絡(luò)模型,提取單個特征對40個說話人進行識別,從表4的實驗結(jié)果可知:13維的mfcc、gtcc特征及其一階、二階特征對說話人識別表現(xiàn)好(準確度達80%~100%),而剩下僅有1維的聲譜圖特征對說話人識別表現(xiàn)差(準確度<30%),其中單一的spectralF....
本文編號:4009304
本文鏈接:http://sikaile.net/kejilunwen/wltx/4009304.html