天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

說話人識別系統(tǒng)的設(shè)計與研究

發(fā)布時間:2020-04-25 22:50
【摘要】:近些年來,機(jī)器學(xué)習(xí)的快速發(fā)展正在深度影響著人們的日常生活,其中人機(jī)交互是機(jī)器學(xué)習(xí)中的重點(diǎn)。在人機(jī)交互中,需要確定使用者身份并據(jù)此提供相應(yīng)服務(wù),而使用語音信息來達(dá)成這一效果是一個用戶友好的選擇,這便是說話人識別任務(wù)。本文圍繞著構(gòu)造魯棒性強(qiáng),識別效果好的說話人識別系統(tǒng)這一主題,提出了兩種說話人識別系統(tǒng)。第一種是基于在線i-vector構(gòu)造的說話人識別系統(tǒng),該系統(tǒng)結(jié)合了i-vector模型和GMM-UBM系統(tǒng)的優(yōu)點(diǎn),在文本相關(guān)說話人識別任務(wù)上取得了優(yōu)于ivector-PLDA基線系統(tǒng)的識別效果。第二種系統(tǒng)則是采用現(xiàn)在流行的深度學(xué)習(xí)技術(shù),構(gòu)造了兩種基于神經(jīng)網(wǎng)絡(luò)的端到端說話人識別系統(tǒng),在訓(xùn)練過程中達(dá)到了整體優(yōu)化模型的效果,其中,基于Triplet代價函數(shù)的端到端說話人識別系統(tǒng)在短時的文本無關(guān)說話人測試集上取得了優(yōu)于i-vector-PLDA基線系統(tǒng)的識別效果。
【圖文】:

說話人識別,聲紋,標(biāo)量,信息


被稱為一個負(fù)例 (Non-target Trial),因此說話人識別本質(zhì)上可以被視為一個二分類問題。說話人識別技術(shù)所要解決的問題就是如何構(gòu)造一個系統(tǒng),準(zhǔn)確有效地完成一系列的二分類任務(wù)。目前為止,通用的說話人識別的框架如圖2 1所示:圖 2 1 說話人識別系統(tǒng)基本框架對于使用一系列時域上的數(shù)字信號表達(dá)的語音片段,說話人識別系統(tǒng)首先要對其進(jìn)行一系列預(yù)處理,將其轉(zhuǎn)變?yōu)轭l域上的特征,再經(jīng)由一些處理模塊提取出聲紋信息,最終將這些聲紋信息作為打分模塊的輸入,計算出一個標(biāo)量數(shù)值,即當(dāng)前試驗的分?jǐn)?shù)— 7 —

示意圖,提取過程,神經(jīng)網(wǎng)絡(luò),說話人


深度神經(jīng)網(wǎng)絡(luò)的輸入,神經(jīng)網(wǎng)絡(luò)輸出層之前一層的激活向量作為作為代表這個說話人信息的向量,并對該說話人所有輸入數(shù)據(jù)取這一層激活向量的平均值,即為這個說話人對應(yīng)的 d-vector。如圖2 3所示,為 d-vector 對應(yīng)的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的示意圖。與 i-vector 模型類似,,d-vector 是對應(yīng)于一個語音片段的說話人模型的向量表達(dá),且其維度固定,可以直接通過計算余弦距離計算分?jǐn)?shù)。另外在訓(xùn)練好網(wǎng)絡(luò)模型之后,d-vector 的提取只需要將語音片段對應(yīng)的聲學(xué)特征輸入神經(jīng)網(wǎng)絡(luò)進(jìn)行前傳,就可以直接從輸出層得到對應(yīng)的 d-vector,相比于 i-vector 的提取需要耗費(fèi)大量的計算資源,d-vector的提取耗費(fèi)的計算資源相對較少
【學(xué)位授予單位】:上海交通大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:TN912.34;TP183

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 劉倩;李時;;細(xì)菌趨藥性算法在說話人識別中的應(yīng)用[J];宿州學(xué)院學(xué)報;2017年11期

2 趙艷;呂亮;趙力;;基于修正Fukunaga-Koontz變換的說話人識別方法[J];電子器件;2018年04期

3 李為州;楊印根;;說話人識別中基于深度信念網(wǎng)絡(luò)的超向量降維的研究[J];電腦知識與技術(shù);2017年22期

4 雷震春;萬艷紅;羅劍;朱明華;;基于Mahalanobis距離的說話人識別模型研究[J];中國語音學(xué)報;2016年00期

5 王華朋;李寧;許鋒;蔡能斌;;基于元音共振峰特征的法庭說話人識別[J];中國刑警學(xué)院學(xué)報;2014年02期

6 王華朋;楊軍;許勇;;應(yīng)用似然比框架的法庭說話人識別[J];數(shù)據(jù)采集與處理;2013年02期

7 檀蕊蓮;劉建平;;說話人識別技術(shù)的研究進(jìn)展[J];科技資訊;2007年33期

8 寧飛,陳頻;說話人識別的幾種方法[J];電聲技術(shù);2001年12期

9 曹業(yè)敏,侯風(fēng)雷,王炳錫;說話人識別技術(shù)現(xiàn)狀與進(jìn)展[J];河南科技;1998年09期

10 王華朋;楊軍;吳鳴;許勇;;基于自適應(yīng)同源方差控制的法庭自動說話人識別[J];應(yīng)用科學(xué)學(xué)報;2014年06期

相關(guān)會議論文 前10條

1 黃猛;唐琳;王雅芬;;說話人識別技術(shù)綜述[A];第十三屆全國信號和智能信息處理與應(yīng)用學(xué)術(shù)會議論文集[C];2019年

2 孫帆;遲惠生;;循環(huán)網(wǎng)絡(luò)說話人識別[A];第二屆全國人機(jī)語音通訊學(xué)術(shù)會議(NCMMSC1992)論文集[C];1992年

3 肖劍;歐貴文;;多層前饋神經(jīng)網(wǎng)絡(luò)組的文本無關(guān)說話人識別[A];第七屆全國人機(jī)語音通訊學(xué)術(shù)會議(NCMMSC7)論文集[C];2003年

4 吳璽宏;劉文舉;;聽神經(jīng)計算模型及其在抗噪說話人識別中的應(yīng)用[A];第六屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集[C];2001年

5 任舒彬;楊瑩春;吳朝暉;;面向多通道說話人識別的預(yù)處理方法實驗研究(類別:聲紋鑒定)[A];第六屆全國現(xiàn)代語音學(xué)學(xué)術(shù)會議論文集(下)[C];2003年

6 劉大力;趙力;;與文本無關(guān)說話人識別系統(tǒng)的性能比較[A];2004年全國物理聲學(xué)會議論文集[C];2004年

7 張陳昊;鄭方;王琳琳;;基于多音素類模型的文本無關(guān)短語音說話人識別[A];需將論文集名稱修改為“第十二屆全國人機(jī)語音通訊學(xué)術(shù)會議(NCMMSC2013)論文集[C];2013年

8 周昊朗;王嵐;陳珂;;一個面向說話人識別的漢語語音數(shù)據(jù)庫[A];第六屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集[C];2001年

9 龍川;景新幸;楊海燕;;矢量量化與協(xié)方差矩陣結(jié)合的說話人識別方法[A];泛在信息社會中的聲學(xué)——中國聲學(xué)學(xué)會2010年全國會員代表大會暨學(xué)術(shù)會議論文集[C];2010年

10 周昊朗;王嵐;吳璽宏;遲惠生;;一個面向說話人識別的漢語語音數(shù)據(jù)庫[A];信號與信息處理技術(shù)——第一屆信號與信息處理聯(lián)合學(xué)術(shù)會議論文集[C];2002年

相關(guān)重要報紙文章 前2條

1 汪永安;科大訊飛說話人識別技術(shù)世界領(lǐng)先[N];安徽日報;2008年

2 吳長鋒;科大訊飛勇奪說話人識別國際大賽第一[N];科技日報;2008年

相關(guān)博士學(xué)位論文 前10條

1 徐瓏婷;基于稀疏分解的說話人識別技術(shù)研究[D];南京郵電大學(xué);2017年

2 陸偉;基于缺失特征的文本無關(guān)說話人識別魯棒性研究[D];中國科學(xué)技術(shù)大學(xué);2008年

3 俞一彪;基于互信息理論的說話人識別研究[D];上海大學(xué);2004年

4 付中華;說話人識別系統(tǒng)魯棒性研究[D];西北工業(yè)大學(xué);2004年

5 侯麗敏;基于非線性理論和信息融合的說話人識別[D];上海大學(xué);2005年

6 雷震春;支持向量機(jī)在說話人識別中的應(yīng)用研究[D];浙江大學(xué);2006年

7 姚志強(qiáng);說話人識別中提高GMM性能方法的研究[D];中國科學(xué)技術(shù)大學(xué);2006年

8 包永強(qiáng);噪聲環(huán)境下說話人識別的研究[D];東南大學(xué);2006年

9 林琳;基于模糊聚類與遺傳算法的說話人識別理論研究及應(yīng)用[D];吉林大學(xué);2007年

10 解焱陸;基于特征變換和分類的文本無關(guān)電話語音說話人識別研究[D];中國科學(xué)技術(shù)大學(xué);2007年

相關(guān)碩士學(xué)位論文 前10條

1 陳松;基于VQ的室內(nèi)說話人識別及FPGA實現(xiàn)研究[D];安徽理工大學(xué);2019年

2 蔡國都;基于x-vector的說話人識別研究[D];北京交通大學(xué);2019年

3 姜孝偉;說話人識別系統(tǒng)的設(shè)計與研究[D];上海交通大學(xué);2018年

4 徐鈺婷;跨語言背景下基于單元音的說話人識別研究[D];深圳大學(xué);2018年

5 陳莉芬;基于英語爆破音和摩擦音的跨語言說話人識別研究[D];深圳大學(xué);2018年

6 易中曼;關(guān)于法庭說話人識別的評估[D];西南政法大學(xué);2018年

7 郭慧陽;基于深度學(xué)習(xí)的說話人識別技術(shù)研究[D];廈門大學(xué);2018年

8 楊楠;基于深度學(xué)習(xí)的說話人識別研究與實現(xiàn)[D];鄭州大學(xué);2019年

9 梅文星;說話人識別中通用背景模型研究及深度學(xué)習(xí)初探[D];浙江大學(xué);2019年

10 韓旭;噪聲環(huán)境下基于RNN的說話人識別方法研究[D];哈爾濱理工大學(xué);2019年



本文編號:2640776

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/wltx/2640776.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶c0d12***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
99久久无色码中文字幕免费| 精品日韩av一区二区三区| 粉嫩国产一区二区三区在线| 精品亚洲一区二区三区w竹菊| 日韩亚洲精品国产第二页| 亚洲一区二区三区四区性色av| 日韩av欧美中文字幕| 色丁香一区二区黑人巨大| 99久久国产亚洲综合精品| 日韩一区二区三区有码| 欧美一区日韩二区亚洲三区| 国产精品免费无遮挡不卡视频| 中文字幕欧美视频二区| 夫妻性生活动态图视频| 欧美日韩国产二三四区| 欧美激情床戏一区二区三| 久久老熟女一区二区三区福利| 五月天丁香婷婷狠狠爱| 色哟哟精品一区二区三区| 这里只有九九热精品视频| 欧美日韩一级aa大片| 在线精品首页中文字幕亚洲| 欧美胖熟妇一区二区三区| 欧美黑人在线一区二区| 99久久国产精品亚洲| 一区二区三区在线不卡免费 | 在线欧洲免费无线码二区免费 | 国产一区二区三区免费福利| 欧美一二三区高清不卡| 国产av一区二区三区久久不卡| 国产又大又硬又粗又黄| 黄片在线观看一区二区三区| 国产又色又爽又黄又免费| 91亚洲人人在字幕国产| 亚洲精品一区二区三区日韩| 一区二区免费视频中文乱码国产| 老司机精品线观看86| 欧美国产在线观看精品| 日本加勒比在线播放一区| 国产在线成人免费高清观看av| 麻豆一区二区三区在线免费|