天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 信息工程論文 >

基于三元組損失與流形降維的文本無關(guān)說話人識別方法研究

發(fā)布時間:2020-11-18 05:23
   隨著互聯(lián)網(wǎng)的迅猛發(fā)展,個人信息隱私安全受到了越來越多的關(guān)注,基于生物信息身份驗證技術(shù)的應用越來越普遍。說話人識別作為一項核心的身份驗證技術(shù),被廣泛應用于司法、門禁訪問控制、智能移動終端喚醒等領(lǐng)域。與指紋識別、人臉識別、虹膜識別相比,說話人識別對輸入設備要求更低,基于嵌入式的麥克風即可實現(xiàn),因而應用到實際生活場景中的成本更低。同時說話人識別技術(shù)在國家安全防控領(lǐng)域也發(fā)揮著重要的作用,如基于電話語音的疑犯識別。基于I-VECTOR(Identification Vector)的說話人識別技術(shù)是目前說話人識別領(lǐng)域的主流方法之一。然而其模型訓練步驟繁瑣,且各階段使用不同的目標函數(shù)來優(yōu)化求解,使得各階段產(chǎn)生的誤差無法在下一階段得到修正,同時I-VECTOR方法得到的超矢量維度較高,帶來了較高的計算量。近年來,出現(xiàn)了基于三元組損失(Triplet Loss)的端到端神經(jīng)網(wǎng)絡方法,它使用唯一的目標函數(shù)來對說話人進行建模,避免了I-VECTOR各階段獨立優(yōu)化的問題,得到的超矢量維度較低,能夠顯著降低計算量。此外,三元組損失的思想與說話人識別目標相契合,即拉近同類距離,推遠異類距離。泛化端到端損失(Generalized End to End Loss,GE2E)為Google于2018年提出的用于文本相關(guān)說話人確認任務的方法,盡管它對類內(nèi)距離進行了很好的約束,然而卻無法有效利用訓練數(shù)據(jù),導致其訓練效率要遠遠低于三元組損失的方法。為此,本文借鑒GE2E對類內(nèi)距離約束的思想,研究基于引入類內(nèi)距離約束的改進三元組損失的端到端說話人識別方法。由于真實條件下語音間差異較大,為降低說話人類內(nèi)散度,本文采用基于流形學習的t分布的隨機近鄰嵌入(t-distributed Stochastic Neighbor Embedding,t-SNE)算法對神經(jīng)網(wǎng)絡得到的說話人特征嵌入進行信道補償。考慮到真實條件下語音中的某些幀較為純凈,對說話人識別更有幫助,因而本文采用注意力加權(quán)池化(Attention Weighted Pooling)方法有效提升模型對于噪聲的魯棒性。本文所提出的基于三元組損失端到端特征嵌入與t-SNE信道補償?shù)恼f話人識別方法,在VoxCeleb1數(shù)據(jù)集上的識別性能與基線系統(tǒng)相比均有顯著提升。
【學位單位】:哈爾濱工業(yè)大學
【學位級別】:碩士
【學位年份】:2019
【中圖分類】:TP309;TN912.34
【部分圖文】:

工作流程圖,工作流程圖,說話人識別,基線


2.1 引言本章主要介紹所采用的聲學特征提取方法,基于因子分析的 I-VECTOR基線系統(tǒng)[34],以及基于深度學習的采用 VGG-M(Visual Geometry Group-Middle)CNN[35]架構(gòu)的基線系統(tǒng)[34],并以此作為基準,與本文所提方法進行對比,最后介紹所采用的實驗平臺、數(shù)據(jù)集以及涉及的說話人識別系統(tǒng)評價指標;谝蜃臃治龅 I-VECTOR 說話人識別方法仍依賴于 GMM-UBM 模型,在訓練過程中通過學習總變化空間矩陣用以將 GMM 均值超矢量進行變換,最終得到 I-VECTOR 超矢量作為說話人的特征表示。另外,基于深度學習的VGG-M CNN 基線系統(tǒng)采用對比損失(Contrastive Loss)[36]對網(wǎng)絡進行端到端的訓練。在訓練階段,對網(wǎng)絡進行復制,將網(wǎng)絡組織為孿生網(wǎng)[36]的形式,使用對比損失作為網(wǎng)絡訓練準則計算損失,而后進行誤差反向傳播更新網(wǎng)絡參數(shù)。說話人識別技術(shù)的通用框架包括四部分:語音預處理、語音聲學特征提取、模型訓練、相似度計算,其基本流程如圖 2-1 所示。

示意圖,特征提取,示意圖,聲音頻率


1kHz 的區(qū)間中,赫茲頻率與梅爾頻率并不具備線性關(guān)系,而是遵循對數(shù)關(guān)系聽覺系統(tǒng)感知的梅爾刻度與赫茲頻率的關(guān)系如下式所示:102595log (1 )700Hzmelff + (2-1)式中 ——代表物理頻率,單位是 Hz; ——代表聲音頻率,單位是 Mel。在 1980 年,Davis 和 Mermelstin 基于梅爾刻度與赫茲頻率的映射關(guān)系提出了 MFCC 聲學特征。MFCC 結(jié)合了人耳的聽覺感知機理與人類發(fā)聲原理經(jīng)聽覺實驗證明,MFCC 是最接近人耳對于聽覺感知的聲學特征。隨著聲音頻率的增高,人耳對聲音的感知能力急劇下降[38],鑒于人耳對聲音頻率的選擇性,往往實際使用 MFCC 時只保留低頻維度的特征而丟棄高頻部分。提取 MFCC 特征需依次通過如下六個步驟:語音預處理,快速傅里葉變換(Fast Fourier Transform,F(xiàn)FT),能量譜計算,通過梅爾濾波器組,對數(shù)能量計算,離散余弦變換(Discrete Consine Transform,DCT)[8]。如下圖所示。

架構(gòu)圖,說話人確認,架構(gòu),說話人


哈爾濱工業(yè)大學工學碩士學位論文ased End-to-End,TE2E)損失函數(shù),以及基于 TE2neralized End-to-End Loss,GE2E)損失函數(shù),在 A得了較好的效果[5]。說話人確認的流程為:基于已有是否屬于某個目標說話人。該方法從說話人確認的流2E 與 GE2E 損失函數(shù)更加符合說話人確認的思想,。網(wǎng)絡的輸入為元組形式T={e ,(ek1, …, ekN)},其中語音,下標 j~表示第 j 個說話人的任意一句語音;而k 個說話人的注冊語音,共計 N 句注冊語音。若其一說話人(此時 ej~不能包含在注冊語音中),模型反之為拒絕(Reject)。盡管該方法更符合說話人大小的批次數(shù)據(jù)中,其產(chǎn)生的可有效計算損失的元組,導致 TE2E 與 GE2E 訓練速度要慢很多。然而,該離進行了顯式的約束,使得其在文本相關(guān)的說話人確效果。
【相似文獻】

相關(guān)期刊論文 前10條

1 劉倩;李時;;細菌趨藥性算法在說話人識別中的應用[J];宿州學院學報;2017年11期

2 趙艷;呂亮;趙力;;基于修正Fukunaga-Koontz變換的說話人識別方法[J];電子器件;2018年04期

3 李為州;楊印根;;說話人識別中基于深度信念網(wǎng)絡的超向量降維的研究[J];電腦知識與技術(shù);2017年22期

4 雷震春;萬艷紅;羅劍;朱明華;;基于Mahalanobis距離的說話人識別模型研究[J];中國語音學報;2016年00期

5 王華朋;李寧;許鋒;蔡能斌;;基于元音共振峰特征的法庭說話人識別[J];中國刑警學院學報;2014年02期

6 王華朋;楊軍;許勇;;應用似然比框架的法庭說話人識別[J];數(shù)據(jù)采集與處理;2013年02期

7 檀蕊蓮;劉建平;;說話人識別技術(shù)的研究進展[J];科技資訊;2007年33期

8 寧飛,陳頻;說話人識別的幾種方法[J];電聲技術(shù);2001年12期

9 曹業(yè)敏,侯風雷,王炳錫;說話人識別技術(shù)現(xiàn)狀與進展[J];河南科技;1998年09期

10 王華朋;楊軍;吳鳴;許勇;;基于自適應同源方差控制的法庭自動說話人識別[J];應用科學學報;2014年06期


相關(guān)博士學位論文 前10條

1 徐瓏婷;基于稀疏分解的說話人識別技術(shù)研究[D];南京郵電大學;2017年

2 陸偉;基于缺失特征的文本無關(guān)說話人識別魯棒性研究[D];中國科學技術(shù)大學;2008年

3 俞一彪;基于互信息理論的說話人識別研究[D];上海大學;2004年

4 付中華;說話人識別系統(tǒng)魯棒性研究[D];西北工業(yè)大學;2004年

5 侯麗敏;基于非線性理論和信息融合的說話人識別[D];上海大學;2005年

6 雷震春;支持向量機在說話人識別中的應用研究[D];浙江大學;2006年

7 姚志強;說話人識別中提高GMM性能方法的研究[D];中國科學技術(shù)大學;2006年

8 包永強;噪聲環(huán)境下說話人識別的研究[D];東南大學;2006年

9 林琳;基于模糊聚類與遺傳算法的說話人識別理論研究及應用[D];吉林大學;2007年

10 解焱陸;基于特征變換和分類的文本無關(guān)電話語音說話人識別研究[D];中國科學技術(shù)大學;2007年


相關(guān)碩士學位論文 前10條

1 姜孝偉;說話人識別系統(tǒng)的設計與研究[D];上海交通大學;2018年

2 陳松;基于VQ的室內(nèi)說話人識別及FPGA實現(xiàn)研究[D];安徽理工大學;2019年

3 蔡國都;基于x-vector的說話人識別研究[D];北京交通大學;2019年

4 孫念;基于多特征I-Vector的短語音說話人識別方法研究[D];重慶郵電大學;2019年

5 巴莉芳;基于含噪語音的說話人識別研究[D];重慶郵電大學;2019年

6 劉崇鳴;基于三元組損失與流形降維的文本無關(guān)說話人識別方法研究[D];哈爾濱工業(yè)大學;2019年

7 林婷;基于ICA和ASR語音特征選取的說話人識別算法[D];南昌大學;2019年

8 陳園允;變形欺騙性語音的檢測算法研究及對其魯棒的說話人識別系統(tǒng)實現(xiàn)[D];廣東技術(shù)師范大學;2019年

9 徐鈺婷;跨語言背景下基于單元音的說話人識別研究[D];深圳大學;2018年

10 陳莉芬;基于英語爆破音和摩擦音的跨語言說話人識別研究[D];深圳大學;2018年



本文編號:2888364

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/2888364.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶b9b81***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com