基于多普勒雷達(dá)的發(fā)音動(dòng)作檢測與命令詞識別
發(fā)布時(shí)間:2021-10-26 20:11
本文提出了一種基于多普勒微波雷達(dá)的發(fā)音動(dòng)作檢測與命令詞識別方法.該方法利用微波雷達(dá)的多普勒特性檢測發(fā)音過程中面部肌肉的微小變化,實(shí)現(xiàn)不依賴語音聲學(xué)信號的命令詞識別.本文首先設(shè)計(jì)實(shí)現(xiàn)了一個(gè)基于多普勒微波雷達(dá)的發(fā)音動(dòng)作檢測系統(tǒng),并基于此系統(tǒng)構(gòu)建了一個(gè)包含2個(gè)說話人的命令詞識別數(shù)據(jù)庫.然后,本文研究了基于支持向量機(jī)和卷積神經(jīng)網(wǎng)絡(luò)模型的雷達(dá)數(shù)據(jù)分類方法,并對比了不同模型和特征組合在單話者建模和多話者建模情況下的命令詞識別性能.實(shí)驗(yàn)結(jié)果表明,本文設(shè)計(jì)的數(shù)據(jù)采集系統(tǒng)可以有效檢測發(fā)音動(dòng)作,所構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)分類器可以取得90%以上的命令詞識別準(zhǔn)確率.
【文章來源】:小型微型計(jì)算機(jī)系統(tǒng). 2020,41(02)北大核心CSCD
【文章頁數(shù)】:5 頁
【部分圖文】:
各模型測試結(jié)果混淆矩陣圖
多話者建模實(shí)驗(yàn)的結(jié)果如圖4所示.對比表3和圖4可見在多話者建模實(shí)驗(yàn)中,SVM的性能有較明顯地下降,而使用CNN的模型仍保持和單話者建模實(shí)驗(yàn)中相近的水平,從而再次證明CNN模型可以較好勝任本文的命令詞識別任務(wù).SVM性能下降的一個(gè)可能原因是兩個(gè)說人在命令詞數(shù)據(jù)模式上具有較大的差別,SVM并沒有足夠的能力同時(shí)學(xué)習(xí)到兩個(gè)說話人的發(fā)音動(dòng)作特征.為驗(yàn)證這個(gè)猜想,本文設(shè)計(jì)了一個(gè)話者交叉的多人建模補(bǔ)充實(shí)驗(yàn),該實(shí)驗(yàn)使用一個(gè)說話人的全部數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),另一個(gè)說話人的全部數(shù)據(jù)作為測試數(shù)據(jù),仍使用前述的CNN_frm模型,結(jié)果顯示測試集分類正確率僅為20%左右,此實(shí)驗(yàn)證明兩個(gè)說話人的模式差異性較大.在多人建模實(shí)驗(yàn)中,雖然測試集和訓(xùn)練集都包含了相同的2個(gè)說話人,但是SVM模型的性能卻由于兩個(gè)說話人模式的差異性出現(xiàn)一定的下降;而CNN模型卻幾乎沒有性能損失,可見CNN模型可以同時(shí)學(xué)習(xí)兩個(gè)說話人各自的特征模式.
本文設(shè)計(jì)實(shí)現(xiàn)的數(shù)據(jù)采集系統(tǒng)框圖如圖1所示.該系統(tǒng)平行采集兩路信號:一路是語音信號,語音通過一個(gè)USB接口的電容麥克風(fēng)錄制;另一路包括三個(gè)雷達(dá)的輸出數(shù)據(jù),共6個(gè)通道,雷達(dá)輸出數(shù)據(jù)經(jīng)處理后由單片機(jī)通過串口發(fā)送至PC上.2.3 硬件實(shí)現(xiàn)
【參考文獻(xiàn)】:
期刊論文
[1]基于隱馬爾科夫模型的中文發(fā)音動(dòng)作參數(shù)預(yù)測方法[J]. 蔡明琦,凌震華,戴禮榮. 數(shù)據(jù)采集與處理. 2014(02)
本文編號:3460130
【文章來源】:小型微型計(jì)算機(jī)系統(tǒng). 2020,41(02)北大核心CSCD
【文章頁數(shù)】:5 頁
【部分圖文】:
各模型測試結(jié)果混淆矩陣圖
多話者建模實(shí)驗(yàn)的結(jié)果如圖4所示.對比表3和圖4可見在多話者建模實(shí)驗(yàn)中,SVM的性能有較明顯地下降,而使用CNN的模型仍保持和單話者建模實(shí)驗(yàn)中相近的水平,從而再次證明CNN模型可以較好勝任本文的命令詞識別任務(wù).SVM性能下降的一個(gè)可能原因是兩個(gè)說人在命令詞數(shù)據(jù)模式上具有較大的差別,SVM并沒有足夠的能力同時(shí)學(xué)習(xí)到兩個(gè)說話人的發(fā)音動(dòng)作特征.為驗(yàn)證這個(gè)猜想,本文設(shè)計(jì)了一個(gè)話者交叉的多人建模補(bǔ)充實(shí)驗(yàn),該實(shí)驗(yàn)使用一個(gè)說話人的全部數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),另一個(gè)說話人的全部數(shù)據(jù)作為測試數(shù)據(jù),仍使用前述的CNN_frm模型,結(jié)果顯示測試集分類正確率僅為20%左右,此實(shí)驗(yàn)證明兩個(gè)說話人的模式差異性較大.在多人建模實(shí)驗(yàn)中,雖然測試集和訓(xùn)練集都包含了相同的2個(gè)說話人,但是SVM模型的性能卻由于兩個(gè)說話人模式的差異性出現(xiàn)一定的下降;而CNN模型卻幾乎沒有性能損失,可見CNN模型可以同時(shí)學(xué)習(xí)兩個(gè)說話人各自的特征模式.
本文設(shè)計(jì)實(shí)現(xiàn)的數(shù)據(jù)采集系統(tǒng)框圖如圖1所示.該系統(tǒng)平行采集兩路信號:一路是語音信號,語音通過一個(gè)USB接口的電容麥克風(fēng)錄制;另一路包括三個(gè)雷達(dá)的輸出數(shù)據(jù),共6個(gè)通道,雷達(dá)輸出數(shù)據(jù)經(jīng)處理后由單片機(jī)通過串口發(fā)送至PC上.2.3 硬件實(shí)現(xiàn)
【參考文獻(xiàn)】:
期刊論文
[1]基于隱馬爾科夫模型的中文發(fā)音動(dòng)作參數(shù)預(yù)測方法[J]. 蔡明琦,凌震華,戴禮榮. 數(shù)據(jù)采集與處理. 2014(02)
本文編號:3460130
本文鏈接:http://sikaile.net/kejilunwen/wltx/3460130.html
最近更新
教材專著