基于CGRU多輸入特征的地空通話自動切分
發(fā)布時間:2021-11-04 02:21
自動語音切分是語音識別、聲紋識別、語音降噪等語音應用中非常重要的預處理環(huán)節(jié),切分算法的優(yōu)劣直接影響了系統輸出結果的精度.在空管地空通話中,傳輸信道噪聲、天氣因素以及說話人工作狀態(tài)均會對語音信號產生影響,進而在一定程度上影響語音切分性能.在分析空管地空通話語音特性基礎上,提出了一種基于CGRU網絡多輸入特征的自動語音切分方法.該方法結合地空通話的特點,采用深度學習的方法進一步提取語音信號的時域和頻域非線性特征,將語音信號幀分類為語音幀、結束幀以及其他幀三類.實驗對比了多種語音特征作為輸入對切分效果的影響,同時驗證了GMM、CNN、CLDNN、CGRU等切分算法在真實地空通話測試集上的表現,并提出了一種簡單預測結果平滑算法.實驗結果表明,文中提出的自動切分方法在地空通話中具有明顯優(yōu)勢,分類模型的AUC值達到了0.98.
【文章來源】:四川大學學報(自然科學版). 2020,57(05)北大核心CSCD
【文章頁數】:7 頁
【部分圖文】:
地空通話的特點
本文提出的CGRU網絡結構如圖2(a)所示,網絡參數細節(jié)如表1所示.CGRU網絡改進了前期研究[6]CNN網絡結構(圖2(c))中的卷積模塊,采用3×3的小卷積核,在保證足夠感受野的前提下,減少了網絡參數,并且在卷積過程中加入batch normalization層,以提升訓練速度和模型精度.并且在卷積模塊之后加入GRU網絡層捕獲音頻信號的時序變化,使得網絡的特征提取能力顯著提升.在實驗階段,本文也實現了文獻[9]中的RAW CLDNN(圖2(b))方法,與之相比本文提出的MFE輸入特征經過音頻信號預處理更加適用于復雜環(huán)境,而原始波形作為輸入易受環(huán)境影響,泛華能力相對較弱.并且,使用GRU網絡層代替LSTM,可以縮減訓練時間,降低訓練難度,更適用于工程應用.實驗結果表明,CGRU網絡結構中的CNN卷積模塊可以抽取地空通話語音中的語音幀、結束幀以及不穩(wěn)定的噪聲幀的局部特征,GRU門控循環(huán)單元能捕捉幀內信息短時變化的依賴關系,能較好的完成幀分類任務.并且該網絡結構簡單,模型總參數不足40K,能夠滿足實時切分的需要.
從實驗結果來看,基于GMM無監(jiān)督學習的webrtcvad并不適用于復雜環(huán)境的地空通話語音切分,在仿真測試集上準確率僅有83.2%,加入平滑算法后準確率約提升了5%,在不穩(wěn)定噪聲環(huán)境下預測結果抖動較大.在基于深度學習的方法中,基于LPS特征的CNN、CGRU網絡以及基于MF-CC的CGRU網絡準確率在90%左右,經平滑后效果提升約3%,幀之間預測結果也存在抖動.基于Fbank特征的CGRU網絡模型準確率表現良好,AUC值達到了0.95,平滑后切分準確率達到98%.基于原始波形輸入的Raw CLDNN網絡在地空通話中準確率僅有82.3%,經平滑后準確率提升了約9%,幅度較大,ROC曲線對比圖如圖3所示.經分析,該方法使用原始采樣數據作為輸入,原始采樣數據在地空通話中受不穩(wěn)定噪聲、采樣設備、說話人等因素的影響較大,導致測試集輸出結果與訓練集差別較大,同時,該網絡參數較多,時間代價約是其他網絡的一倍,并不適用于地空通話的切分.基于MFE聯合特征的CGRU網絡在仿真測試集上表現最好,分類器準確率達到98.5%,AUC值為0.98,經平滑后切分準確率約99.3%,預測輸出較穩(wěn)定.由圖3可知,本文提出的MEF聯合特征在音頻信息有限的單幀預測策略上具有明顯優(yōu)勢,并且CGRU網絡結構在進一步深入挖掘音頻信號隱藏信息的同時,優(yōu)化了模型參數,縮短了模型預測的時間代價,是一種穩(wěn)定、高效的地空通話實時切分方法.
本文編號:3474801
【文章來源】:四川大學學報(自然科學版). 2020,57(05)北大核心CSCD
【文章頁數】:7 頁
【部分圖文】:
地空通話的特點
本文提出的CGRU網絡結構如圖2(a)所示,網絡參數細節(jié)如表1所示.CGRU網絡改進了前期研究[6]CNN網絡結構(圖2(c))中的卷積模塊,采用3×3的小卷積核,在保證足夠感受野的前提下,減少了網絡參數,并且在卷積過程中加入batch normalization層,以提升訓練速度和模型精度.并且在卷積模塊之后加入GRU網絡層捕獲音頻信號的時序變化,使得網絡的特征提取能力顯著提升.在實驗階段,本文也實現了文獻[9]中的RAW CLDNN(圖2(b))方法,與之相比本文提出的MFE輸入特征經過音頻信號預處理更加適用于復雜環(huán)境,而原始波形作為輸入易受環(huán)境影響,泛華能力相對較弱.并且,使用GRU網絡層代替LSTM,可以縮減訓練時間,降低訓練難度,更適用于工程應用.實驗結果表明,CGRU網絡結構中的CNN卷積模塊可以抽取地空通話語音中的語音幀、結束幀以及不穩(wěn)定的噪聲幀的局部特征,GRU門控循環(huán)單元能捕捉幀內信息短時變化的依賴關系,能較好的完成幀分類任務.并且該網絡結構簡單,模型總參數不足40K,能夠滿足實時切分的需要.
從實驗結果來看,基于GMM無監(jiān)督學習的webrtcvad并不適用于復雜環(huán)境的地空通話語音切分,在仿真測試集上準確率僅有83.2%,加入平滑算法后準確率約提升了5%,在不穩(wěn)定噪聲環(huán)境下預測結果抖動較大.在基于深度學習的方法中,基于LPS特征的CNN、CGRU網絡以及基于MF-CC的CGRU網絡準確率在90%左右,經平滑后效果提升約3%,幀之間預測結果也存在抖動.基于Fbank特征的CGRU網絡模型準確率表現良好,AUC值達到了0.95,平滑后切分準確率達到98%.基于原始波形輸入的Raw CLDNN網絡在地空通話中準確率僅有82.3%,經平滑后準確率提升了約9%,幅度較大,ROC曲線對比圖如圖3所示.經分析,該方法使用原始采樣數據作為輸入,原始采樣數據在地空通話中受不穩(wěn)定噪聲、采樣設備、說話人等因素的影響較大,導致測試集輸出結果與訓練集差別較大,同時,該網絡參數較多,時間代價約是其他網絡的一倍,并不適用于地空通話的切分.基于MFE聯合特征的CGRU網絡在仿真測試集上表現最好,分類器準確率達到98.5%,AUC值為0.98,經平滑后切分準確率約99.3%,預測輸出較穩(wěn)定.由圖3可知,本文提出的MEF聯合特征在音頻信息有限的單幀預測策略上具有明顯優(yōu)勢,并且CGRU網絡結構在進一步深入挖掘音頻信號隱藏信息的同時,優(yōu)化了模型參數,縮短了模型預測的時間代價,是一種穩(wěn)定、高效的地空通話實時切分方法.
本文編號:3474801
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/3474801.html