基于語種對抗訓(xùn)練的跨語種說話人識別研究
發(fā)布時間:2020-11-04 07:38
近年來,隨著科技的高速發(fā)展,人們越來越多的關(guān)注到生活中的信息安全和身份認證,個人信息、保密信息的泄漏不但對個人的人身、財產(chǎn)安全造成嚴重威脅,也會對社會的發(fā)展帶來不利的影響。目前,身份證件、口令密碼等傳統(tǒng)的身份認證和鑒別的方法已經(jīng)不能完全滿足人們的需求,而基于生物特征的身份鑒別技術(shù)以其方便、可靠等特性,越來越多的得到了人們的關(guān)注。語音作為人們?nèi)粘I钪薪涣鳒贤ㄗ钪苯、最便捷的方?其中衍生出的說話人識別技術(shù)也成為研究的熱點和重點隨著國際化浪潮的推進,單一的語言已經(jīng)完全不能滿足人們的日常生活、工作和學(xué)習(xí)的需要。我國幅員遼闊,是一個多民族融合的國家,有著豐富的少數(shù)民族語言和地區(qū)方言,這種情況在我國南部和西部的粵語、藏語、維語等與中文普通話差異較大的方言和民族語言流行的地區(qū)尤為明顯,跨語種的說話人識別問題在身份認證、公安刑偵、國防安全等領(lǐng)域尤顯突出。本文針對跨語種的說話人識別這一問題提出基于語種對抗訓(xùn)練的跨語種說話人識別算法。利用遷移學(xué)習(xí)中對抗訓(xùn)練的方式提高從語音中提取說話人信息的能力,進而提高對跨語種任務(wù)中說話人識別的精度。本文的主要工作和貢獻包括以下幾點:(1)將卷積神經(jīng)網(wǎng)絡(luò)和時延神經(jīng)網(wǎng)絡(luò)相結(jié)合,應(yīng)用于說話人識別的任務(wù)上,利用深度神經(jīng)網(wǎng)絡(luò)強大的表達能力,構(gòu)建了一個可以實現(xiàn)端到端識別說話人的網(wǎng)絡(luò)模型,并在跨語種的說話人識別數(shù)據(jù)上驗證了其有效性。實驗證明卷積-時延神經(jīng)網(wǎng)絡(luò)可以有效提取語音中的說話人信息,在同語種和跨語種的說話人識別任務(wù)中均能有效使用。(2)提出了基于語種對抗訓(xùn)練的說話人識別算法。利用遷移學(xué)習(xí)中對抗訓(xùn)練的思想,在基于深度神經(jīng)網(wǎng)絡(luò)的端到端的說話人識別網(wǎng)絡(luò)中使用語種對抗訓(xùn)練的方法訓(xùn)練網(wǎng)絡(luò),在訓(xùn)練中加入語種監(jiān)督信息。實驗證明,該算法繼承了深度神經(jīng)網(wǎng)絡(luò)能有效提取說話人信息的特點,同時能將網(wǎng)絡(luò)中隱藏層提取的特征信息排除語種信息干擾,有效提高了跨語種說話人識別的精度。(3)利用三元損失函數(shù)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)。使用三元損失函數(shù)替代常規(guī)網(wǎng)絡(luò)訓(xùn)練中的交叉熵函數(shù),將不同說話人信息和不同語種之間的信息同時引入到網(wǎng)絡(luò)訓(xùn)練中,進一步提高跨語種說話人識別的精度。
【學(xué)位單位】:華中科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2018
【中圖分類】:TN912.34;TP183
【文章目錄】:
摘要
Abstract
中英文對照表
1 緒論
1.1 研究背景和意義
1.2 國內(nèi)外研究概況
1.3 論文的主要研究內(nèi)容和章節(jié)安排
2 說話人識別的相關(guān)技術(shù)基礎(chǔ)
2.1 說話人識別的基本原理
2.2 語音數(shù)據(jù)的預(yù)處理與特征提取
2.3 基于i-vector的說話人識別
2.4 說話人識別數(shù)據(jù)集與評價指標
2.5 實驗及結(jié)果分析
2.6 本章小結(jié)
3 基于卷積-時延神經(jīng)網(wǎng)絡(luò)的端到端說話人識別算法
3.1 引言
3.2 卷積-時延深度神經(jīng)網(wǎng)絡(luò)
3.3 實驗及結(jié)果分析
3.4 本章小結(jié)
4 基于語種對抗訓(xùn)練的說話人識別算法算法
4.1 引言
4.2 語種對抗訓(xùn)練
4.3 三元損失函數(shù)
4.4 實驗及結(jié)果分析
4.5 本章小結(jié)
5 總結(jié)與展望
致謝
參考文獻
【參考文獻】
本文編號:2869826
【學(xué)位單位】:華中科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2018
【中圖分類】:TN912.34;TP183
【文章目錄】:
摘要
Abstract
中英文對照表
1 緒論
1.1 研究背景和意義
1.2 國內(nèi)外研究概況
1.3 論文的主要研究內(nèi)容和章節(jié)安排
2 說話人識別的相關(guān)技術(shù)基礎(chǔ)
2.1 說話人識別的基本原理
2.2 語音數(shù)據(jù)的預(yù)處理與特征提取
2.3 基于i-vector的說話人識別
2.4 說話人識別數(shù)據(jù)集與評價指標
2.5 實驗及結(jié)果分析
2.6 本章小結(jié)
3 基于卷積-時延神經(jīng)網(wǎng)絡(luò)的端到端說話人識別算法
3.1 引言
3.2 卷積-時延深度神經(jīng)網(wǎng)絡(luò)
3.3 實驗及結(jié)果分析
3.4 本章小結(jié)
4 基于語種對抗訓(xùn)練的說話人識別算法算法
4.1 引言
4.2 語種對抗訓(xùn)練
4.3 三元損失函數(shù)
4.4 實驗及結(jié)果分析
4.5 本章小結(jié)
5 總結(jié)與展望
致謝
參考文獻
【參考文獻】
相關(guān)期刊論文 前2條
1 蔡娟;蔡堅勇;廖曉東;黃海濤;丁僑俊;;基于卷積神經(jīng)網(wǎng)絡(luò)的手勢識別初探[J];計算機系統(tǒng)應(yīng)用;2015年04期
2 莊福振;羅平;何清;史忠植;;遷移學(xué)習(xí)研究進展[J];軟件學(xué)報;2015年01期
相關(guān)碩士學(xué)位論文 前1條
1 蔣偉;基于高斯混合模型的說話人識別研究[D];電子科技大學(xué);2008年
本文編號:2869826
本文鏈接:http://sikaile.net/kejilunwen/wltx/2869826.html
最近更新
教材專著