說話人識別系統(tǒng)的設(shè)計與研究
【圖文】:
被稱為一個負(fù)例 (Non-target Trial),因此說話人識別本質(zhì)上可以被視為一個二分類問題。說話人識別技術(shù)所要解決的問題就是如何構(gòu)造一個系統(tǒng),準(zhǔn)確有效地完成一系列的二分類任務(wù)。目前為止,通用的說話人識別的框架如圖2 1所示:圖 2 1 說話人識別系統(tǒng)基本框架對于使用一系列時域上的數(shù)字信號表達(dá)的語音片段,說話人識別系統(tǒng)首先要對其進(jìn)行一系列預(yù)處理,將其轉(zhuǎn)變?yōu)轭l域上的特征,再經(jīng)由一些處理模塊提取出聲紋信息,最終將這些聲紋信息作為打分模塊的輸入,計算出一個標(biāo)量數(shù)值,即當(dāng)前試驗的分?jǐn)?shù)— 7 —
深度神經(jīng)網(wǎng)絡(luò)的輸入,神經(jīng)網(wǎng)絡(luò)輸出層之前一層的激活向量作為作為代表這個說話人信息的向量,并對該說話人所有輸入數(shù)據(jù)取這一層激活向量的平均值,即為這個說話人對應(yīng)的 d-vector。如圖2 3所示,為 d-vector 對應(yīng)的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的示意圖。與 i-vector 模型類似,,d-vector 是對應(yīng)于一個語音片段的說話人模型的向量表達(dá),且其維度固定,可以直接通過計算余弦距離計算分?jǐn)?shù)。另外在訓(xùn)練好網(wǎng)絡(luò)模型之后,d-vector 的提取只需要將語音片段對應(yīng)的聲學(xué)特征輸入神經(jīng)網(wǎng)絡(luò)進(jìn)行前傳,就可以直接從輸出層得到對應(yīng)的 d-vector,相比于 i-vector 的提取需要耗費(fèi)大量的計算資源,d-vector的提取耗費(fèi)的計算資源相對較少
【學(xué)位授予單位】:上海交通大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:TN912.34;TP183
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 劉倩;李時;;細(xì)菌趨藥性算法在說話人識別中的應(yīng)用[J];宿州學(xué)院學(xué)報;2017年11期
2 趙艷;呂亮;趙力;;基于修正Fukunaga-Koontz變換的說話人識別方法[J];電子器件;2018年04期
3 李為州;楊印根;;說話人識別中基于深度信念網(wǎng)絡(luò)的超向量降維的研究[J];電腦知識與技術(shù);2017年22期
4 雷震春;萬艷紅;羅劍;朱明華;;基于Mahalanobis距離的說話人識別模型研究[J];中國語音學(xué)報;2016年00期
5 王華朋;李寧;許鋒;蔡能斌;;基于元音共振峰特征的法庭說話人識別[J];中國刑警學(xué)院學(xué)報;2014年02期
6 王華朋;楊軍;許勇;;應(yīng)用似然比框架的法庭說話人識別[J];數(shù)據(jù)采集與處理;2013年02期
7 檀蕊蓮;劉建平;;說話人識別技術(shù)的研究進(jìn)展[J];科技資訊;2007年33期
8 寧飛,陳頻;說話人識別的幾種方法[J];電聲技術(shù);2001年12期
9 曹業(yè)敏,侯風(fēng)雷,王炳錫;說話人識別技術(shù)現(xiàn)狀與進(jìn)展[J];河南科技;1998年09期
10 王華朋;楊軍;吳鳴;許勇;;基于自適應(yīng)同源方差控制的法庭自動說話人識別[J];應(yīng)用科學(xué)學(xué)報;2014年06期
相關(guān)會議論文 前10條
1 黃猛;唐琳;王雅芬;;說話人識別技術(shù)綜述[A];第十三屆全國信號和智能信息處理與應(yīng)用學(xué)術(shù)會議論文集[C];2019年
2 孫帆;遲惠生;;循環(huán)網(wǎng)絡(luò)說話人識別[A];第二屆全國人機(jī)語音通訊學(xué)術(shù)會議(NCMMSC1992)論文集[C];1992年
3 肖劍;歐貴文;;多層前饋神經(jīng)網(wǎng)絡(luò)組的文本無關(guān)說話人識別[A];第七屆全國人機(jī)語音通訊學(xué)術(shù)會議(NCMMSC7)論文集[C];2003年
4 吳璽宏;劉文舉;;聽神經(jīng)計算模型及其在抗噪說話人識別中的應(yīng)用[A];第六屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集[C];2001年
5 任舒彬;楊瑩春;吳朝暉;;面向多通道說話人識別的預(yù)處理方法實驗研究(類別:聲紋鑒定)[A];第六屆全國現(xiàn)代語音學(xué)學(xué)術(shù)會議論文集(下)[C];2003年
6 劉大力;趙力;;與文本無關(guān)說話人識別系統(tǒng)的性能比較[A];2004年全國物理聲學(xué)會議論文集[C];2004年
7 張陳昊;鄭方;王琳琳;;基于多音素類模型的文本無關(guān)短語音說話人識別[A];需將論文集名稱修改為“第十二屆全國人機(jī)語音通訊學(xué)術(shù)會議(NCMMSC2013)論文集[C];2013年
8 周昊朗;王嵐;陳珂;;一個面向說話人識別的漢語語音數(shù)據(jù)庫[A];第六屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集[C];2001年
9 龍川;景新幸;楊海燕;;矢量量化與協(xié)方差矩陣結(jié)合的說話人識別方法[A];泛在信息社會中的聲學(xué)——中國聲學(xué)學(xué)會2010年全國會員代表大會暨學(xué)術(shù)會議論文集[C];2010年
10 周昊朗;王嵐;吳璽宏;遲惠生;;一個面向說話人識別的漢語語音數(shù)據(jù)庫[A];信號與信息處理技術(shù)——第一屆信號與信息處理聯(lián)合學(xué)術(shù)會議論文集[C];2002年
相關(guān)重要報紙文章 前2條
1 汪永安;科大訊飛說話人識別技術(shù)世界領(lǐng)先[N];安徽日報;2008年
2 吳長鋒;科大訊飛勇奪說話人識別國際大賽第一[N];科技日報;2008年
相關(guān)博士學(xué)位論文 前10條
1 徐瓏婷;基于稀疏分解的說話人識別技術(shù)研究[D];南京郵電大學(xué);2017年
2 陸偉;基于缺失特征的文本無關(guān)說話人識別魯棒性研究[D];中國科學(xué)技術(shù)大學(xué);2008年
3 俞一彪;基于互信息理論的說話人識別研究[D];上海大學(xué);2004年
4 付中華;說話人識別系統(tǒng)魯棒性研究[D];西北工業(yè)大學(xué);2004年
5 侯麗敏;基于非線性理論和信息融合的說話人識別[D];上海大學(xué);2005年
6 雷震春;支持向量機(jī)在說話人識別中的應(yīng)用研究[D];浙江大學(xué);2006年
7 姚志強(qiáng);說話人識別中提高GMM性能方法的研究[D];中國科學(xué)技術(shù)大學(xué);2006年
8 包永強(qiáng);噪聲環(huán)境下說話人識別的研究[D];東南大學(xué);2006年
9 林琳;基于模糊聚類與遺傳算法的說話人識別理論研究及應(yīng)用[D];吉林大學(xué);2007年
10 解焱陸;基于特征變換和分類的文本無關(guān)電話語音說話人識別研究[D];中國科學(xué)技術(shù)大學(xué);2007年
相關(guān)碩士學(xué)位論文 前10條
1 陳松;基于VQ的室內(nèi)說話人識別及FPGA實現(xiàn)研究[D];安徽理工大學(xué);2019年
2 蔡國都;基于x-vector的說話人識別研究[D];北京交通大學(xué);2019年
3 姜孝偉;說話人識別系統(tǒng)的設(shè)計與研究[D];上海交通大學(xué);2018年
4 徐鈺婷;跨語言背景下基于單元音的說話人識別研究[D];深圳大學(xué);2018年
5 陳莉芬;基于英語爆破音和摩擦音的跨語言說話人識別研究[D];深圳大學(xué);2018年
6 易中曼;關(guān)于法庭說話人識別的評估[D];西南政法大學(xué);2018年
7 郭慧陽;基于深度學(xué)習(xí)的說話人識別技術(shù)研究[D];廈門大學(xué);2018年
8 楊楠;基于深度學(xué)習(xí)的說話人識別研究與實現(xiàn)[D];鄭州大學(xué);2019年
9 梅文星;說話人識別中通用背景模型研究及深度學(xué)習(xí)初探[D];浙江大學(xué);2019年
10 韓旭;噪聲環(huán)境下基于RNN的說話人識別方法研究[D];哈爾濱理工大學(xué);2019年
本文編號:2640776
本文鏈接:http://sikaile.net/kejilunwen/wltx/2640776.html