基于CGRU多輸入特征的地空通話自動(dòng)切分
發(fā)布時(shí)間:2021-11-04 02:21
自動(dòng)語音切分是語音識(shí)別、聲紋識(shí)別、語音降噪等語音應(yīng)用中非常重要的預(yù)處理環(huán)節(jié),切分算法的優(yōu)劣直接影響了系統(tǒng)輸出結(jié)果的精度.在空管地空通話中,傳輸信道噪聲、天氣因素以及說話人工作狀態(tài)均會(huì)對(duì)語音信號(hào)產(chǎn)生影響,進(jìn)而在一定程度上影響語音切分性能.在分析空管地空通話語音特性基礎(chǔ)上,提出了一種基于CGRU網(wǎng)絡(luò)多輸入特征的自動(dòng)語音切分方法.該方法結(jié)合地空通話的特點(diǎn),采用深度學(xué)習(xí)的方法進(jìn)一步提取語音信號(hào)的時(shí)域和頻域非線性特征,將語音信號(hào)幀分類為語音幀、結(jié)束幀以及其他幀三類.實(shí)驗(yàn)對(duì)比了多種語音特征作為輸入對(duì)切分效果的影響,同時(shí)驗(yàn)證了GMM、CNN、CLDNN、CGRU等切分算法在真實(shí)地空通話測試集上的表現(xiàn),并提出了一種簡單預(yù)測結(jié)果平滑算法.實(shí)驗(yàn)結(jié)果表明,文中提出的自動(dòng)切分方法在地空通話中具有明顯優(yōu)勢,分類模型的AUC值達(dá)到了0.98.
【文章來源】:四川大學(xué)學(xué)報(bào)(自然科學(xué)版). 2020,57(05)北大核心CSCD
【文章頁數(shù)】:7 頁
【部分圖文】:
地空通話的特點(diǎn)
本文提出的CGRU網(wǎng)絡(luò)結(jié)構(gòu)如圖2(a)所示,網(wǎng)絡(luò)參數(shù)細(xì)節(jié)如表1所示.CGRU網(wǎng)絡(luò)改進(jìn)了前期研究[6]CNN網(wǎng)絡(luò)結(jié)構(gòu)(圖2(c))中的卷積模塊,采用3×3的小卷積核,在保證足夠感受野的前提下,減少了網(wǎng)絡(luò)參數(shù),并且在卷積過程中加入batch normalization層,以提升訓(xùn)練速度和模型精度.并且在卷積模塊之后加入GRU網(wǎng)絡(luò)層捕獲音頻信號(hào)的時(shí)序變化,使得網(wǎng)絡(luò)的特征提取能力顯著提升.在實(shí)驗(yàn)階段,本文也實(shí)現(xiàn)了文獻(xiàn)[9]中的RAW CLDNN(圖2(b))方法,與之相比本文提出的MFE輸入特征經(jīng)過音頻信號(hào)預(yù)處理更加適用于復(fù)雜環(huán)境,而原始波形作為輸入易受環(huán)境影響,泛華能力相對(duì)較弱.并且,使用GRU網(wǎng)絡(luò)層代替LSTM,可以縮減訓(xùn)練時(shí)間,降低訓(xùn)練難度,更適用于工程應(yīng)用.實(shí)驗(yàn)結(jié)果表明,CGRU網(wǎng)絡(luò)結(jié)構(gòu)中的CNN卷積模塊可以抽取地空通話語音中的語音幀、結(jié)束幀以及不穩(wěn)定的噪聲幀的局部特征,GRU門控循環(huán)單元能捕捉幀內(nèi)信息短時(shí)變化的依賴關(guān)系,能較好的完成幀分類任務(wù).并且該網(wǎng)絡(luò)結(jié)構(gòu)簡單,模型總參數(shù)不足40K,能夠滿足實(shí)時(shí)切分的需要.
從實(shí)驗(yàn)結(jié)果來看,基于GMM無監(jiān)督學(xué)習(xí)的webrtcvad并不適用于復(fù)雜環(huán)境的地空通話語音切分,在仿真測試集上準(zhǔn)確率僅有83.2%,加入平滑算法后準(zhǔn)確率約提升了5%,在不穩(wěn)定噪聲環(huán)境下預(yù)測結(jié)果抖動(dòng)較大.在基于深度學(xué)習(xí)的方法中,基于LPS特征的CNN、CGRU網(wǎng)絡(luò)以及基于MF-CC的CGRU網(wǎng)絡(luò)準(zhǔn)確率在90%左右,經(jīng)平滑后效果提升約3%,幀之間預(yù)測結(jié)果也存在抖動(dòng).基于Fbank特征的CGRU網(wǎng)絡(luò)模型準(zhǔn)確率表現(xiàn)良好,AUC值達(dá)到了0.95,平滑后切分準(zhǔn)確率達(dá)到98%.基于原始波形輸入的Raw CLDNN網(wǎng)絡(luò)在地空通話中準(zhǔn)確率僅有82.3%,經(jīng)平滑后準(zhǔn)確率提升了約9%,幅度較大,ROC曲線對(duì)比圖如圖3所示.經(jīng)分析,該方法使用原始采樣數(shù)據(jù)作為輸入,原始采樣數(shù)據(jù)在地空通話中受不穩(wěn)定噪聲、采樣設(shè)備、說話人等因素的影響較大,導(dǎo)致測試集輸出結(jié)果與訓(xùn)練集差別較大,同時(shí),該網(wǎng)絡(luò)參數(shù)較多,時(shí)間代價(jià)約是其他網(wǎng)絡(luò)的一倍,并不適用于地空通話的切分.基于MFE聯(lián)合特征的CGRU網(wǎng)絡(luò)在仿真測試集上表現(xiàn)最好,分類器準(zhǔn)確率達(dá)到98.5%,AUC值為0.98,經(jīng)平滑后切分準(zhǔn)確率約99.3%,預(yù)測輸出較穩(wěn)定.由圖3可知,本文提出的MEF聯(lián)合特征在音頻信息有限的單幀預(yù)測策略上具有明顯優(yōu)勢,并且CGRU網(wǎng)絡(luò)結(jié)構(gòu)在進(jìn)一步深入挖掘音頻信號(hào)隱藏信息的同時(shí),優(yōu)化了模型參數(shù),縮短了模型預(yù)測的時(shí)間代價(jià),是一種穩(wěn)定、高效的地空通話實(shí)時(shí)切分方法.
本文編號(hào):3474801
【文章來源】:四川大學(xué)學(xué)報(bào)(自然科學(xué)版). 2020,57(05)北大核心CSCD
【文章頁數(shù)】:7 頁
【部分圖文】:
地空通話的特點(diǎn)
本文提出的CGRU網(wǎng)絡(luò)結(jié)構(gòu)如圖2(a)所示,網(wǎng)絡(luò)參數(shù)細(xì)節(jié)如表1所示.CGRU網(wǎng)絡(luò)改進(jìn)了前期研究[6]CNN網(wǎng)絡(luò)結(jié)構(gòu)(圖2(c))中的卷積模塊,采用3×3的小卷積核,在保證足夠感受野的前提下,減少了網(wǎng)絡(luò)參數(shù),并且在卷積過程中加入batch normalization層,以提升訓(xùn)練速度和模型精度.并且在卷積模塊之后加入GRU網(wǎng)絡(luò)層捕獲音頻信號(hào)的時(shí)序變化,使得網(wǎng)絡(luò)的特征提取能力顯著提升.在實(shí)驗(yàn)階段,本文也實(shí)現(xiàn)了文獻(xiàn)[9]中的RAW CLDNN(圖2(b))方法,與之相比本文提出的MFE輸入特征經(jīng)過音頻信號(hào)預(yù)處理更加適用于復(fù)雜環(huán)境,而原始波形作為輸入易受環(huán)境影響,泛華能力相對(duì)較弱.并且,使用GRU網(wǎng)絡(luò)層代替LSTM,可以縮減訓(xùn)練時(shí)間,降低訓(xùn)練難度,更適用于工程應(yīng)用.實(shí)驗(yàn)結(jié)果表明,CGRU網(wǎng)絡(luò)結(jié)構(gòu)中的CNN卷積模塊可以抽取地空通話語音中的語音幀、結(jié)束幀以及不穩(wěn)定的噪聲幀的局部特征,GRU門控循環(huán)單元能捕捉幀內(nèi)信息短時(shí)變化的依賴關(guān)系,能較好的完成幀分類任務(wù).并且該網(wǎng)絡(luò)結(jié)構(gòu)簡單,模型總參數(shù)不足40K,能夠滿足實(shí)時(shí)切分的需要.
從實(shí)驗(yàn)結(jié)果來看,基于GMM無監(jiān)督學(xué)習(xí)的webrtcvad并不適用于復(fù)雜環(huán)境的地空通話語音切分,在仿真測試集上準(zhǔn)確率僅有83.2%,加入平滑算法后準(zhǔn)確率約提升了5%,在不穩(wěn)定噪聲環(huán)境下預(yù)測結(jié)果抖動(dòng)較大.在基于深度學(xué)習(xí)的方法中,基于LPS特征的CNN、CGRU網(wǎng)絡(luò)以及基于MF-CC的CGRU網(wǎng)絡(luò)準(zhǔn)確率在90%左右,經(jīng)平滑后效果提升約3%,幀之間預(yù)測結(jié)果也存在抖動(dòng).基于Fbank特征的CGRU網(wǎng)絡(luò)模型準(zhǔn)確率表現(xiàn)良好,AUC值達(dá)到了0.95,平滑后切分準(zhǔn)確率達(dá)到98%.基于原始波形輸入的Raw CLDNN網(wǎng)絡(luò)在地空通話中準(zhǔn)確率僅有82.3%,經(jīng)平滑后準(zhǔn)確率提升了約9%,幅度較大,ROC曲線對(duì)比圖如圖3所示.經(jīng)分析,該方法使用原始采樣數(shù)據(jù)作為輸入,原始采樣數(shù)據(jù)在地空通話中受不穩(wěn)定噪聲、采樣設(shè)備、說話人等因素的影響較大,導(dǎo)致測試集輸出結(jié)果與訓(xùn)練集差別較大,同時(shí),該網(wǎng)絡(luò)參數(shù)較多,時(shí)間代價(jià)約是其他網(wǎng)絡(luò)的一倍,并不適用于地空通話的切分.基于MFE聯(lián)合特征的CGRU網(wǎng)絡(luò)在仿真測試集上表現(xiàn)最好,分類器準(zhǔn)確率達(dá)到98.5%,AUC值為0.98,經(jīng)平滑后切分準(zhǔn)確率約99.3%,預(yù)測輸出較穩(wěn)定.由圖3可知,本文提出的MEF聯(lián)合特征在音頻信息有限的單幀預(yù)測策略上具有明顯優(yōu)勢,并且CGRU網(wǎng)絡(luò)結(jié)構(gòu)在進(jìn)一步深入挖掘音頻信號(hào)隱藏信息的同時(shí),優(yōu)化了模型參數(shù),縮短了模型預(yù)測的時(shí)間代價(jià),是一種穩(wěn)定、高效的地空通話實(shí)時(shí)切分方法.
本文編號(hào):3474801
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/3474801.html
最近更新
教材專著