基于三元組損失與流形降維的文本無關(guān)說話人識別方法研究
【學位單位】:哈爾濱工業(yè)大學
【學位級別】:碩士
【學位年份】:2019
【中圖分類】:TP309;TN912.34
【部分圖文】:
2.1 引言本章主要介紹所采用的聲學特征提取方法,基于因子分析的 I-VECTOR基線系統(tǒng)[34],以及基于深度學習的采用 VGG-M(Visual Geometry Group-Middle)CNN[35]架構(gòu)的基線系統(tǒng)[34],并以此作為基準,與本文所提方法進行對比,最后介紹所采用的實驗平臺、數(shù)據(jù)集以及涉及的說話人識別系統(tǒng)評價指標;谝蜃臃治龅 I-VECTOR 說話人識別方法仍依賴于 GMM-UBM 模型,在訓練過程中通過學習總變化空間矩陣用以將 GMM 均值超矢量進行變換,最終得到 I-VECTOR 超矢量作為說話人的特征表示。另外,基于深度學習的VGG-M CNN 基線系統(tǒng)采用對比損失(Contrastive Loss)[36]對網(wǎng)絡進行端到端的訓練。在訓練階段,對網(wǎng)絡進行復制,將網(wǎng)絡組織為孿生網(wǎng)[36]的形式,使用對比損失作為網(wǎng)絡訓練準則計算損失,而后進行誤差反向傳播更新網(wǎng)絡參數(shù)。說話人識別技術(shù)的通用框架包括四部分:語音預處理、語音聲學特征提取、模型訓練、相似度計算,其基本流程如圖 2-1 所示。
1kHz 的區(qū)間中,赫茲頻率與梅爾頻率并不具備線性關(guān)系,而是遵循對數(shù)關(guān)系聽覺系統(tǒng)感知的梅爾刻度與赫茲頻率的關(guān)系如下式所示:102595log (1 )700Hzmelff + (2-1)式中 ——代表物理頻率,單位是 Hz; ——代表聲音頻率,單位是 Mel。在 1980 年,Davis 和 Mermelstin 基于梅爾刻度與赫茲頻率的映射關(guān)系提出了 MFCC 聲學特征。MFCC 結(jié)合了人耳的聽覺感知機理與人類發(fā)聲原理經(jīng)聽覺實驗證明,MFCC 是最接近人耳對于聽覺感知的聲學特征。隨著聲音頻率的增高,人耳對聲音的感知能力急劇下降[38],鑒于人耳對聲音頻率的選擇性,往往實際使用 MFCC 時只保留低頻維度的特征而丟棄高頻部分。提取 MFCC 特征需依次通過如下六個步驟:語音預處理,快速傅里葉變換(Fast Fourier Transform,F(xiàn)FT),能量譜計算,通過梅爾濾波器組,對數(shù)能量計算,離散余弦變換(Discrete Consine Transform,DCT)[8]。如下圖所示。
哈爾濱工業(yè)大學工學碩士學位論文ased End-to-End,TE2E)損失函數(shù),以及基于 TE2neralized End-to-End Loss,GE2E)損失函數(shù),在 A得了較好的效果[5]。說話人確認的流程為:基于已有是否屬于某個目標說話人。該方法從說話人確認的流2E 與 GE2E 損失函數(shù)更加符合說話人確認的思想,。網(wǎng)絡的輸入為元組形式T={e ,(ek1, …, ekN)},其中語音,下標 j~表示第 j 個說話人的任意一句語音;而k 個說話人的注冊語音,共計 N 句注冊語音。若其一說話人(此時 ej~不能包含在注冊語音中),模型反之為拒絕(Reject)。盡管該方法更符合說話人大小的批次數(shù)據(jù)中,其產(chǎn)生的可有效計算損失的元組,導致 TE2E 與 GE2E 訓練速度要慢很多。然而,該離進行了顯式的約束,使得其在文本相關(guān)的說話人確效果。
【相似文獻】
相關(guān)期刊論文 前10條
1 劉倩;李時;;細菌趨藥性算法在說話人識別中的應用[J];宿州學院學報;2017年11期
2 趙艷;呂亮;趙力;;基于修正Fukunaga-Koontz變換的說話人識別方法[J];電子器件;2018年04期
3 李為州;楊印根;;說話人識別中基于深度信念網(wǎng)絡的超向量降維的研究[J];電腦知識與技術(shù);2017年22期
4 雷震春;萬艷紅;羅劍;朱明華;;基于Mahalanobis距離的說話人識別模型研究[J];中國語音學報;2016年00期
5 王華朋;李寧;許鋒;蔡能斌;;基于元音共振峰特征的法庭說話人識別[J];中國刑警學院學報;2014年02期
6 王華朋;楊軍;許勇;;應用似然比框架的法庭說話人識別[J];數(shù)據(jù)采集與處理;2013年02期
7 檀蕊蓮;劉建平;;說話人識別技術(shù)的研究進展[J];科技資訊;2007年33期
8 寧飛,陳頻;說話人識別的幾種方法[J];電聲技術(shù);2001年12期
9 曹業(yè)敏,侯風雷,王炳錫;說話人識別技術(shù)現(xiàn)狀與進展[J];河南科技;1998年09期
10 王華朋;楊軍;吳鳴;許勇;;基于自適應同源方差控制的法庭自動說話人識別[J];應用科學學報;2014年06期
相關(guān)博士學位論文 前10條
1 徐瓏婷;基于稀疏分解的說話人識別技術(shù)研究[D];南京郵電大學;2017年
2 陸偉;基于缺失特征的文本無關(guān)說話人識別魯棒性研究[D];中國科學技術(shù)大學;2008年
3 俞一彪;基于互信息理論的說話人識別研究[D];上海大學;2004年
4 付中華;說話人識別系統(tǒng)魯棒性研究[D];西北工業(yè)大學;2004年
5 侯麗敏;基于非線性理論和信息融合的說話人識別[D];上海大學;2005年
6 雷震春;支持向量機在說話人識別中的應用研究[D];浙江大學;2006年
7 姚志強;說話人識別中提高GMM性能方法的研究[D];中國科學技術(shù)大學;2006年
8 包永強;噪聲環(huán)境下說話人識別的研究[D];東南大學;2006年
9 林琳;基于模糊聚類與遺傳算法的說話人識別理論研究及應用[D];吉林大學;2007年
10 解焱陸;基于特征變換和分類的文本無關(guān)電話語音說話人識別研究[D];中國科學技術(shù)大學;2007年
相關(guān)碩士學位論文 前10條
1 姜孝偉;說話人識別系統(tǒng)的設計與研究[D];上海交通大學;2018年
2 陳松;基于VQ的室內(nèi)說話人識別及FPGA實現(xiàn)研究[D];安徽理工大學;2019年
3 蔡國都;基于x-vector的說話人識別研究[D];北京交通大學;2019年
4 孫念;基于多特征I-Vector的短語音說話人識別方法研究[D];重慶郵電大學;2019年
5 巴莉芳;基于含噪語音的說話人識別研究[D];重慶郵電大學;2019年
6 劉崇鳴;基于三元組損失與流形降維的文本無關(guān)說話人識別方法研究[D];哈爾濱工業(yè)大學;2019年
7 林婷;基于ICA和ASR語音特征選取的說話人識別算法[D];南昌大學;2019年
8 陳園允;變形欺騙性語音的檢測算法研究及對其魯棒的說話人識別系統(tǒng)實現(xiàn)[D];廣東技術(shù)師范大學;2019年
9 徐鈺婷;跨語言背景下基于單元音的說話人識別研究[D];深圳大學;2018年
10 陳莉芬;基于英語爆破音和摩擦音的跨語言說話人識別研究[D];深圳大學;2018年
本文編號:2888364
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/2888364.html