說話人識別中區(qū)分性問題的研究
發(fā)布時間:2020-12-28 03:28
本文從時域高區(qū)分性語音段和特征域高區(qū)分性特征兩個方面,對說話人識別中的區(qū)分性問題進行了深入研究。論文主要工作包括:1.提出說話人識別中區(qū)分性問題研究框架。從時域和特征域分別對區(qū)分性問題進行研究:從時域,分析不同干擾因素下具有不同區(qū)分性的語音段對說話人識別的影響,總結(jié)了有利于提高整個說話人識別性能的高區(qū)分性語音段的挑選準(zhǔn)則;從特征域,研究通過對特征分別進行增強、恢復(fù)或者投影等處理手段,提高特征對說話人區(qū)分的能力。2.針對環(huán)境噪音問題,提出以語音音素概率作為衡量說話人區(qū)分性的準(zhǔn)則,并以此對高區(qū)分性的語音段進行選擇。噪音對說話人識別性能的影響很大。本文采用深度學(xué)習(xí)的方法,學(xué)習(xí)噪音與語音音素的區(qū)分性信息,計算語音段中非噪音段的概率,作為衡量區(qū)分性能力的量,以此對不同的特征進行挑選。結(jié)果表明,在信噪比為18的環(huán)境中,EER可相對降低21.0%。3.對截頂現(xiàn)象進行研究,提出使用非線型模型對被截頂破壞了的特征進行恢復(fù)的方法。從單一頻率的正弦信號出發(fā),系統(tǒng)地研究了語音截頂現(xiàn)象對說話人識別性能的影響。以區(qū)分性衡量為準(zhǔn)則,總結(jié)了截頂率和區(qū)分性信息之間的關(guān)系:截頂率越大,區(qū)分性信息受損越嚴(yán)重;識別時去掉截頂...
【文章來源】:清華大學(xué)北京市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:109 頁
【學(xué)位級別】:博士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 說話人識別應(yīng)用背景
1.1.1 說話人識別技術(shù)概述
1.1.2 說話人識別技術(shù)應(yīng)用
1.2 說話人識別中存在的區(qū)分性問題
1.3 說話人區(qū)分性的研究現(xiàn)狀
1.3.1 高區(qū)分性段挑選的研究現(xiàn)狀
1.3.2 區(qū)分性信息干擾因素
1.3.3 區(qū)分性問題研究難點
1.4 研究工作概述
1.4.1 研究思路
1.4.2 研究框架
1.4.3 研究內(nèi)容
1.5 論文組織結(jié)構(gòu)
第2章 含噪語音高區(qū)分性特征的選擇
2.1 引論
2.2 說話人區(qū)分性挑選
2.2.1 VAD介紹
2.2.2 VAD存在的不足
2.2.3 高區(qū)分性語音段的篩選
2.3 基于SPbVAD的說話人區(qū)分性信息篩選
2.3.1 語音中的區(qū)分性信息
2.3.2 SPbVAD
2.3.3 實驗
2.4 基于貝葉斯方法的特征增強
2.4.1 基于貝葉斯加權(quán)的打分方法
2.4.2 貝葉斯加權(quán)方法的性能
2.4.3 說話人區(qū)分性和語音區(qū)分性
2.5 小結(jié)
第3章 截頂語音受損區(qū)分性信息的非線性重建
3.1 引論
3.1.1 語音截頂?shù)母拍?br> 3.1.2 語音截頂現(xiàn)象的分析
3.2 截頂語音對說話人區(qū)分性的影響
3.2.1 人類感知評價
3.2.2 對語音識別的影響
3.2.3 對說話人識別的影響
3.2.4 對說話人模型的影響
3.3 截頂下高區(qū)分性語音段的篩選
3.3.1 截頂檢測方法
3.3.2 截頂篩選下說話人區(qū)分性信息的變化
3.4 截頂語音特征信息的恢復(fù)
3.4.1 DNN介紹
3.4.2 基于DNN的截頂語音特征重建
3.4.3 特征區(qū)分性恢復(fù)
3.5 小結(jié)
第4章 情感區(qū)分性信息的削弱
4.1 引言
4.2 情感說話人數(shù)據(jù)庫CSLT-ESDB
4.2.1 現(xiàn)有的情感數(shù)據(jù)庫
4.2.2 情感數(shù)據(jù)庫的設(shè)計與錄制
4.3 情感特征空間投影
4.3.1 情感對語音信號的影響
4.3.2 情感的區(qū)分性信息
4.3.3 實驗
4.4 特征和模型對情感投影的聯(lián)合優(yōu)化
4.4.1 情感適應(yīng)性訓(xùn)練
4.4.2 實驗
4.5 小結(jié)
第5章 總結(jié)和展望
5.1 論文工作總結(jié)
5.2 下一步研究展望
參考文獻
致謝
個人簡歷、在學(xué)期間發(fā)表的學(xué)術(shù)論文與研究成果
【參考文獻】:
期刊論文
[1]說話人識別技術(shù)在社保系統(tǒng)中的遠程身份認(rèn)證應(yīng)用研究[J]. 黃奮,馬皓,鄧菁. 電子技術(shù)與軟件工程. 2014(02)
[2]GMM-UBM和SVM說話人辨認(rèn)系統(tǒng)及融合的分析[J]. 鮑煥軍,鄭方. 清華大學(xué)學(xué)報(自然科學(xué)版). 2008(S1)
本文編號:2943045
【文章來源】:清華大學(xué)北京市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:109 頁
【學(xué)位級別】:博士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 說話人識別應(yīng)用背景
1.1.1 說話人識別技術(shù)概述
1.1.2 說話人識別技術(shù)應(yīng)用
1.2 說話人識別中存在的區(qū)分性問題
1.3 說話人區(qū)分性的研究現(xiàn)狀
1.3.1 高區(qū)分性段挑選的研究現(xiàn)狀
1.3.2 區(qū)分性信息干擾因素
1.3.3 區(qū)分性問題研究難點
1.4 研究工作概述
1.4.1 研究思路
1.4.2 研究框架
1.4.3 研究內(nèi)容
1.5 論文組織結(jié)構(gòu)
第2章 含噪語音高區(qū)分性特征的選擇
2.1 引論
2.2 說話人區(qū)分性挑選
2.2.1 VAD介紹
2.2.2 VAD存在的不足
2.2.3 高區(qū)分性語音段的篩選
2.3 基于SPbVAD的說話人區(qū)分性信息篩選
2.3.1 語音中的區(qū)分性信息
2.3.2 SPbVAD
2.3.3 實驗
2.4 基于貝葉斯方法的特征增強
2.4.1 基于貝葉斯加權(quán)的打分方法
2.4.2 貝葉斯加權(quán)方法的性能
2.4.3 說話人區(qū)分性和語音區(qū)分性
2.5 小結(jié)
第3章 截頂語音受損區(qū)分性信息的非線性重建
3.1 引論
3.1.1 語音截頂?shù)母拍?br> 3.1.2 語音截頂現(xiàn)象的分析
3.2 截頂語音對說話人區(qū)分性的影響
3.2.1 人類感知評價
3.2.2 對語音識別的影響
3.2.3 對說話人識別的影響
3.2.4 對說話人模型的影響
3.3 截頂下高區(qū)分性語音段的篩選
3.3.1 截頂檢測方法
3.3.2 截頂篩選下說話人區(qū)分性信息的變化
3.4 截頂語音特征信息的恢復(fù)
3.4.1 DNN介紹
3.4.2 基于DNN的截頂語音特征重建
3.4.3 特征區(qū)分性恢復(fù)
3.5 小結(jié)
第4章 情感區(qū)分性信息的削弱
4.1 引言
4.2 情感說話人數(shù)據(jù)庫CSLT-ESDB
4.2.1 現(xiàn)有的情感數(shù)據(jù)庫
4.2.2 情感數(shù)據(jù)庫的設(shè)計與錄制
4.3 情感特征空間投影
4.3.1 情感對語音信號的影響
4.3.2 情感的區(qū)分性信息
4.3.3 實驗
4.4 特征和模型對情感投影的聯(lián)合優(yōu)化
4.4.1 情感適應(yīng)性訓(xùn)練
4.4.2 實驗
4.5 小結(jié)
第5章 總結(jié)和展望
5.1 論文工作總結(jié)
5.2 下一步研究展望
參考文獻
致謝
個人簡歷、在學(xué)期間發(fā)表的學(xué)術(shù)論文與研究成果
【參考文獻】:
期刊論文
[1]說話人識別技術(shù)在社保系統(tǒng)中的遠程身份認(rèn)證應(yīng)用研究[J]. 黃奮,馬皓,鄧菁. 電子技術(shù)與軟件工程. 2014(02)
[2]GMM-UBM和SVM說話人辨認(rèn)系統(tǒng)及融合的分析[J]. 鮑煥軍,鄭方. 清華大學(xué)學(xué)報(自然科學(xué)版). 2008(S1)
本文編號:2943045
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/2943045.html
最近更新
教材專著