說話人識別系統(tǒng)的設(shè)計與研究

發(fā)布時間：2020-04-25 22:50

【摘要】：近些年來,機器學習的快速發(fā)展正在深度影響著人們的日常生活,其中人機交互是機器學習中的重點。在人機交互中,需要確定使用者身份并據(jù)此提供相應服務,而使用語音信息來達成這一效果是一個用戶友好的選擇,這便是說話人識別任務。本文圍繞著構(gòu)造魯棒性強,識別效果好的說話人識別系統(tǒng)這一主題,提出了兩種說話人識別系統(tǒng)。第一種是基于在線i-vector構(gòu)造的說話人識別系統(tǒng),該系統(tǒng)結(jié)合了i-vector模型和GMM-UBM系統(tǒng)的優(yōu)點,在文本相關(guān)說話人識別任務上取得了優(yōu)于ivector-PLDA基線系統(tǒng)的識別效果。第二種系統(tǒng)則是采用現(xiàn)在流行的深度學習技術(shù),構(gòu)造了兩種基于神經(jīng)網(wǎng)絡的端到端說話人識別系統(tǒng),在訓練過程中達到了整體優(yōu)化模型的效果,其中,基于Triplet代價函數(shù)的端到端說話人識別系統(tǒng)在短時的文本無關(guān)說話人測試集上取得了優(yōu)于i-vector-PLDA基線系統(tǒng)的識別效果。
【圖文】：

說話人識別,聲紋,標量,信息

被稱為一個負例 (Non-target Trial)，因此說話人識別本質(zhì)上可以被視為一個二分類問題。說話人識別技術(shù)所要解決的問題就是如何構(gòu)造一個系統(tǒng)，準確有效地完成一系列的二分類任務。目前為止，通用的說話人識別的框架如圖2 1所示：圖 2 1 說話人識別系統(tǒng)基本框架對于使用一系列時域上的數(shù)字信號表達的語音片段，說話人識別系統(tǒng)首先要對其進行一系列預處理，將其轉(zhuǎn)變?yōu)轭l域上的特征，再經(jīng)由一些處理模塊提取出聲紋信息，最終將這些聲紋信息作為打分模塊的輸入，計算出一個標量數(shù)值，即當前試驗的分數(shù)— 7 —

示意圖,提取過程,神經(jīng)網(wǎng)絡,說話人

深度神經(jīng)網(wǎng)絡的輸入，神經(jīng)網(wǎng)絡輸出層之前一層的激活向量作為作為代表這個說話人信息的向量，并對該說話人所有輸入數(shù)據(jù)取這一層激活向量的平均值，即為這個說話人對應的 d-vector。如圖2 3所示，為 d-vector 對應的深度神經(jīng)網(wǎng)絡結(jié)構(gòu)的示意圖。與 i-vector 模型類似，，d-vector 是對應于一個語音片段的說話人模型的向量表達，且其維度固定，可以直接通過計算余弦距離計算分數(shù)。另外在訓練好網(wǎng)絡模型之后，d-vector 的提取只需要將語音片段對應的聲學特征輸入神經(jīng)網(wǎng)絡進行前傳，就可以直接從輸出層得到對應的 d-vector，相比于 i-vector 的提取需要耗費大量的計算資源，d-vector的提取耗費的計算資源相對較少
【學位授予單位】：上海交通大學
【學位級別】：碩士
【學位授予年份】：2018
【分類號】：TN912.34;TP183

【相似文獻】

相關(guān)期刊論文前10條

1 劉倩;李時;;細菌趨藥性算法在說話人識別中的應用[J];宿州學院學報;2017年11期

2 趙艷;呂亮;趙力;;基于修正Fukunaga-Koontz變換的說話人識別方法[J];電子器件;2018年04期

3 李為州;楊印根;;說話人識別中基于深度信念網(wǎng)絡的超向量降維的研究[J];電腦知識與技術(shù);2017年22期

4 雷震春;萬艷紅;羅劍;朱明華;;基于Mahalanobis距離的說話人識別模型研究[J];中國語音學報;2016年00期

5 王華朋;李寧;許鋒;蔡能斌;;基于元音共振峰特征的法庭說話人識別[J];中國刑警學院學報;2014年02期

6 王華朋;楊軍;許勇;;應用似然比框架的法庭說話人識別[J];數(shù)據(jù)采集與處理;2013年02期

7 檀蕊蓮;劉建平;;說話人識別技術(shù)的研究進展[J];科技資訊;2007年33期

8 寧飛,陳頻;說話人識別的幾種方法[J];電聲技術(shù);2001年12期

9 曹業(yè)敏,侯風雷,王炳錫;說話人識別技術(shù)現(xiàn)狀與進展[J];河南科技;1998年09期

10 王華朋;楊軍;吳鳴;許勇;;基于自適應同源方差控制的法庭自動說話人識別[J];應用科學學報;2014年06期

相關(guān)會議論文前10條

1 黃猛;唐琳;王雅芬;;說話人識別技術(shù)綜述[A];第十三屆全國信號和智能信息處理與應用學術(shù)會議論文集[C];2019年

2 孫帆;遲惠生;;循環(huán)網(wǎng)絡說話人識別[A];第二屆全國人機語音通訊學術(shù)會議（NCMMSC1992）論文集[C];1992年

3 肖劍;歐貴文;;多層前饋神經(jīng)網(wǎng)絡組的文本無關(guān)說話人識別[A];第七屆全國人機語音通訊學術(shù)會議（NCMMSC7）論文集[C];2003年

4 吳璽宏;劉文舉;;聽神經(jīng)計算模型及其在抗噪說話人識別中的應用[A];第六屆全國人機語音通訊學術(shù)會議論文集[C];2001年

5 任舒彬;楊瑩春;吳朝暉;;面向多通道說話人識別的預處理方法實驗研究(類別:聲紋鑒定)[A];第六屆全國現(xiàn)代語音學學術(shù)會議論文集（下）[C];2003年

6 劉大力;趙力;;與文本無關(guān)說話人識別系統(tǒng)的性能比較[A];2004年全國物理聲學會議論文集[C];2004年

7 張陳昊;鄭方;王琳琳;;基于多音素類模型的文本無關(guān)短語音說話人識別[A];需將論文集名稱修改為“第十二屆全國人機語音通訊學術(shù)會議（NCMMSC2013）論文集[C];2013年

8 周昊朗;王嵐;陳珂;;一個面向說話人識別的漢語語音數(shù)據(jù)庫[A];第六屆全國人機語音通訊學術(shù)會議論文集[C];2001年

9 龍川;景新幸;楊海燕;;矢量量化與協(xié)方差矩陣結(jié)合的說話人識別方法[A];泛在信息社會中的聲學——中國聲學學會2010年全國會員代表大會暨學術(shù)會議論文集[C];2010年

10 周昊朗;王嵐;吳璽宏;遲惠生;;一個面向說話人識別的漢語語音數(shù)據(jù)庫[A];信號與信息處理技術(shù)——第一屆信號與信息處理聯(lián)合學術(shù)會議論文集[C];2002年

相關(guān)重要報紙文章前2條

1 汪永安;科大訊飛說話人識別技術(shù)世界領(lǐng)先[N];安徽日報;2008年

2 吳長鋒;科大訊飛勇奪說話人識別國際大賽第一[N];科技日報;2008年

相關(guān)博士學位論文前10條

1 徐瓏婷;基于稀疏分解的說話人識別技術(shù)研究[D];南京郵電大學;2017年

2 陸偉;基于缺失特征的文本無關(guān)說話人識別魯棒性研究[D];中國科學技術(shù)大學;2008年

3 俞一彪;基于互信息理論的說話人識別研究[D];上海大學;2004年

4 付中華;說話人識別系統(tǒng)魯棒性研究[D];西北工業(yè)大學;2004年

5 侯麗敏;基于非線性理論和信息融合的說話人識別[D];上海大學;2005年

6 雷震春;支持向量機在說話人識別中的應用研究[D];浙江大學;2006年

7 姚志強;說話人識別中提高GMM性能方法的研究[D];中國科學技術(shù)大學;2006年

8 包永強;噪聲環(huán)境下說話人識別的研究[D];東南大學;2006年

9 林琳;基于模糊聚類與遺傳算法的說話人識別理論研究及應用[D];吉林大學;2007年

10 解焱陸;基于特征變換和分類的文本無關(guān)電話語音說話人識別研究[D];中國科學技術(shù)大學;2007年

相關(guān)碩士學位論文前10條

1 陳松;基于VQ的室內(nèi)說話人識別及FPGA實現(xiàn)研究[D];安徽理工大學;2019年

2 蔡國都;基于x-vector的說話人識別研究[D];北京交通大學;2019年

3 姜孝偉;說話人識別系統(tǒng)的設(shè)計與研究[D];上海交通大學;2018年

4 徐鈺婷;跨語言背景下基于單元音的說話人識別研究[D];深圳大學;2018年

5 陳莉芬;基于英語爆破音和摩擦音的跨語言說話人識別研究[D];深圳大學;2018年

6 易中曼;關(guān)于法庭說話人識別的評估[D];西南政法大學;2018年

7 郭慧陽;基于深度學習的說話人識別技術(shù)研究[D];廈門大學;2018年

8 楊楠;基于深度學習的說話人識別研究與實現(xiàn)[D];鄭州大學;2019年

9 梅文星;說話人識別中通用背景模型研究及深度學習初探[D];浙江大學;2019年

10 韓旭;噪聲環(huán)境下基于RNN的說話人識別方法研究[D];哈爾濱理工大學;2019年

本文編號：2640776

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/wltx/2640776.html

上一篇：基于WDM的芯片上光Fat-Tree互連網(wǎng)絡的性能研究
下一篇：無線指紋定位系統(tǒng)中的數(shù)據(jù)采集與重構(gòu)方法

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

說話人識別系統(tǒng)的設(shè)計與研究