基于LPC倒譜特征融合的法庭說話人識別方法
發(fā)布時間:2021-04-17 01:59
為了探究輔音與元音LPC倒譜特征融合后對法庭說話人識別性能的影響,對漢語普通話中輔音/s/與元音/i/的LPC倒譜特征進行了特征融合,并使用邏輯回歸方法對特征融合后的系統(tǒng)輸出得分進行校正,同時在似然比框架內基于該融合特征進行了說話人識別的性能測試。結果表明,相對輔音/s/而言,元音/i/的LPC倒譜特征的識別性能更優(yōu),特征融合后的系統(tǒng)識別性能比單一使用/s/和/i/的LPC倒譜特征識別時有較大提升。LPC倒譜特征融合在提升說話人識別性能方面具備應用潛力。
【文章來源】:中國刑警學院學報. 2020,(05)
【文章頁數】:5 頁
【部分圖文】:
0~4k Hz頻帶范圍內利用/s/LPC倒譜特征進行說話人識別的Tippett圖
圖1 0~4k Hz頻帶范圍內利用/s/LPC倒譜特征進行說話人識別的Tippett圖表2的結果表明,元音/i/的LPC倒譜特征說話人識別性能明顯優(yōu)于擦音/s/,尤其是在0~4k Hz的信號頻帶范圍內,系統(tǒng)的Cllr值為0.61,相比于擦音/s/識別性能高出29%,提升了近三分之一,EER值降低了38%。在0~8k Hz的頻帶范圍內,系統(tǒng)的識別性能更好,Cllr值為0.48,比擦音/s/提升了28%,EER值降低了42%。整體上,元音/i/在高頻范圍內的識別效果更佳,這一點與擦音/s/一致。這充分說明高頻帶語音信號內的話者信息更為豐富。然而,司法實踐中16k Hz的高采樣率錄音并不多見,實際案件中語音檢材的采樣率往往是8k Hz。因此,0~4k Hz頻帶范圍內的性能更能代表案件現實條件。
為進一步探究特征融合對系統(tǒng)識別性能的影響,我們采用邏輯回歸模型對/s/和/i/的LPC倒譜特征進行了特征融合。利用融合特征進行說話人識別的結果見表3。圖4 0~8k Hz頻帶范圍內利用/i/LPC倒譜特征進行說話人識別的Tippett圖
【參考文獻】:
期刊論文
[1]法庭語音證據評價的新范式[J]. 張翠玲. 中國人民公安大學學報(自然科學版). 2018(01)
[2]法庭說話人識別語音數據庫的構建[J]. 張翠玲,Geoffrey Stewart Morrison. 中國刑警學院學報. 2016(04)
[3]似然比在法庭說話人確認中的應用[J]. 王華朋,楊軍,許勇. 證據科學. 2012(01)
本文編號:3142590
【文章來源】:中國刑警學院學報. 2020,(05)
【文章頁數】:5 頁
【部分圖文】:
0~4k Hz頻帶范圍內利用/s/LPC倒譜特征進行說話人識別的Tippett圖
圖1 0~4k Hz頻帶范圍內利用/s/LPC倒譜特征進行說話人識別的Tippett圖表2的結果表明,元音/i/的LPC倒譜特征說話人識別性能明顯優(yōu)于擦音/s/,尤其是在0~4k Hz的信號頻帶范圍內,系統(tǒng)的Cllr值為0.61,相比于擦音/s/識別性能高出29%,提升了近三分之一,EER值降低了38%。在0~8k Hz的頻帶范圍內,系統(tǒng)的識別性能更好,Cllr值為0.48,比擦音/s/提升了28%,EER值降低了42%。整體上,元音/i/在高頻范圍內的識別效果更佳,這一點與擦音/s/一致。這充分說明高頻帶語音信號內的話者信息更為豐富。然而,司法實踐中16k Hz的高采樣率錄音并不多見,實際案件中語音檢材的采樣率往往是8k Hz。因此,0~4k Hz頻帶范圍內的性能更能代表案件現實條件。
為進一步探究特征融合對系統(tǒng)識別性能的影響,我們采用邏輯回歸模型對/s/和/i/的LPC倒譜特征進行了特征融合。利用融合特征進行說話人識別的結果見表3。圖4 0~8k Hz頻帶范圍內利用/i/LPC倒譜特征進行說話人識別的Tippett圖
【參考文獻】:
期刊論文
[1]法庭語音證據評價的新范式[J]. 張翠玲. 中國人民公安大學學報(自然科學版). 2018(01)
[2]法庭說話人識別語音數據庫的構建[J]. 張翠玲,Geoffrey Stewart Morrison. 中國刑警學院學報. 2016(04)
[3]似然比在法庭說話人確認中的應用[J]. 王華朋,楊軍,許勇. 證據科學. 2012(01)
本文編號:3142590
本文鏈接:http://sikaile.net/kejilunwen/wltx/3142590.html
教材專著