加權(quán)成對(duì)約束度量學(xué)習(xí)算法在說(shuō)話人識(shí)別中的應(yīng)用
本文關(guān)鍵詞:加權(quán)成對(duì)約束度量學(xué)習(xí)算法在說(shuō)話人識(shí)別中的應(yīng)用,由筆耕文化傳播整理發(fā)布。
【摘要】:說(shuō)話人識(shí)別技術(shù)是一種通過(guò)對(duì)目標(biāo)說(shuō)話人的語(yǔ)音進(jìn)行處理與分析,從而判斷出該說(shuō)話人身份的技術(shù)。目前,說(shuō)話人識(shí)別作為人與計(jì)算機(jī)進(jìn)行交互的一種智能接口有著非常廣泛的用途,它具有方便快捷、經(jīng)濟(jì)可靠和擴(kuò)展性好等許多優(yōu)點(diǎn),已經(jīng)被廣泛用于遠(yuǎn)程身份驗(yàn)證,同時(shí)在軍事和醫(yī)學(xué)領(lǐng)域,尤其是基于電信網(wǎng)絡(luò)的身份識(shí)別應(yīng)用,說(shuō)話人識(shí)別技術(shù)的前景同樣非常廣闊。如何有效地對(duì)說(shuō)話人語(yǔ)音進(jìn)行相似度判別,是目前說(shuō)話人識(shí)別研究領(lǐng)域非常重要的關(guān)鍵問(wèn)題之一。模式識(shí)別領(lǐng)域中,樣本間相似度的衡量方法有很多,其中常用的方法有距離打分法,如余弦距離打分(cosine distance scoring)和馬氏距離打分(Mahalanobis distance scoring)等。目前最流行的基于i-vector模型的說(shuō)話人識(shí)別系統(tǒng)常用余弦距離來(lái)衡量說(shuō)話人語(yǔ)音間的相似度,余弦距離打分法根據(jù)樣本向量間的夾角來(lái)判斷樣本間的相似度,難以衡量樣本在量上的區(qū)別。馬氏距離打分法根據(jù)投影在能真實(shí)反映樣本相似性的樣本空間中的新樣本向量間的歐氏距離,來(lái)衡量樣本間的相似度。用于投影到樣本空間的映射矩陣稱為度量矩陣,它可用于描述樣本空間的相似性。不同的度量矩陣描述的樣本空間也不同,只有得到正確的度量矩陣,通過(guò)其計(jì)算出來(lái)的馬氏距離才能真實(shí)的反映樣本間的相似性。度量學(xué)習(xí)根據(jù)訓(xùn)練樣本含有的信息,通過(guò)自動(dòng)學(xué)習(xí)得到一個(gè)距離度量矩陣,常用于計(jì)算目標(biāo)樣本間的馬氏距離,從而對(duì)未知數(shù)據(jù)的相似度進(jìn)行預(yù)測(cè)。本文主要工作和創(chuàng)新如下:(1)本文對(duì)Cao等提出的子空間相似性度量學(xué)習(xí)(Subspace Similarity Metric Learning,SUB-SML)算法中的子算法(Subspace Metric Learning,SUB-ML)進(jìn)行改進(jìn),根據(jù)相似訓(xùn)練樣本對(duì)與非相似訓(xùn)練樣本對(duì)在度量學(xué)習(xí)訓(xùn)練過(guò)程的影響程度進(jìn)行加權(quán)約束,提出加權(quán)成對(duì)約束度量學(xué)習(xí)(Weighted Pairwise constraint Metric Learning,WPCML)算法。該算法利用成對(duì)訓(xùn)練樣本的約束信息訓(xùn)練一個(gè)用于描述樣本空間相似度的度量矩陣,用來(lái)計(jì)算i-vector語(yǔ)音樣本間的馬氏距離。該算法的原理非常直觀,而且簡(jiǎn)單有效,目標(biāo)函數(shù)的最優(yōu)化求解能得到全局最優(yōu)解,并能迅速求得滿足設(shè)定條件的度量矩陣,而用于訓(xùn)練的樣本對(duì)只需知道其是否屬于同類。美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)局(NIST)說(shuō)話人評(píng)測(cè)(SRE)2008年數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,WPCML算法訓(xùn)練度量矩陣用于馬氏距離相似度打分的分類性能優(yōu)于余弦距離相似度打分。(2)訓(xùn)練樣本對(duì)集的構(gòu)造是度量學(xué)習(xí)研究中的一個(gè)重要問(wèn)題。合適的訓(xùn)練樣本對(duì)含有的有效信息更能正確指導(dǎo)訓(xùn)練過(guò)程。大部分度量學(xué)習(xí)算法采用隨機(jī)構(gòu)造的方法來(lái)構(gòu)造度量學(xué)習(xí)訓(xùn)練樣本對(duì)集。本文對(duì)訓(xùn)練樣本對(duì)集的構(gòu)造方法進(jìn)行研究,提出選擇訓(xùn)練樣本對(duì)法構(gòu)建度量矩陣訓(xùn)練樣本對(duì)集。選擇訓(xùn)練樣本對(duì)方法用于度量學(xué)習(xí)訓(xùn)練樣本集的構(gòu)造能進(jìn)一步提高系統(tǒng)實(shí)驗(yàn)性能,并優(yōu)于目前最流行的PLDA分類器。
【關(guān)鍵詞】:說(shuō)話人識(shí)別 馬氏距離 度量學(xué)習(xí) 機(jī)器學(xué)習(xí) 模式識(shí)別
【學(xué)位授予單位】:江西師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP181;TN912.34
【目錄】:
- 中文摘要3-5
- Abstract5-9
- 1 緒論9-15
- 1.1 說(shuō)話人識(shí)別概述9-11
- 1.1.1 說(shuō)話人識(shí)別的概念9-10
- 1.1.2 說(shuō)話人識(shí)別研究現(xiàn)狀分析10-11
- 1.2 度量學(xué)習(xí)概述11-13
- 1.2.1 度量學(xué)習(xí)的概念11-12
- 1.2.2 度量學(xué)習(xí)的研究現(xiàn)狀分析12-13
- 1.3 研究?jī)?nèi)容與創(chuàng)新點(diǎn):13-14
- 1.3.1 研究?jī)?nèi)容13
- 1.3.2 創(chuàng)新點(diǎn)13-14
- 1.4 本文內(nèi)容組織14-15
- 2 基于I-VECTOR模型的說(shuō)話人識(shí)別系統(tǒng)15-25
- 2.1 語(yǔ)音預(yù)處理15-16
- 2.2 基于MFCC的特征提取16
- 2.3 說(shuō)話人模型的建立16-20
- 2.3.1 GMM-UBM說(shuō)話人識(shí)別模型16-18
- 2.3.2 說(shuō)話人i-vector模型18-20
- 2.4 信道補(bǔ)償技術(shù)20-22
- 2.4.1 線性判別性分析21
- 2.4.2 類內(nèi)協(xié)方差規(guī)整21-22
- 2.4.3 長(zhǎng)度規(guī)整22
- 2.5 打分判別22-23
- 2.5.1 余弦相似度打分22
- 2.5.2 PLDA模型打分22-23
- 2.5.3 馬氏距離打分23
- 2.6 性能評(píng)估23-24
- 2.6.1 識(shí)別率23
- 2.6.2 等錯(cuò)誤率EER23-24
- 2.6.3 檢測(cè)代價(jià)函數(shù)DCF24
- 2.7 本章小結(jié)24-25
- 3 加權(quán)成對(duì)約束度量學(xué)習(xí)算法25-33
- 3.1 子空間度量學(xué)習(xí)算法SUB-ML26-29
- 3.1.1 映射類內(nèi)子空間26
- 3.1.2 度量學(xué)習(xí)目標(biāo)函數(shù)26-27
- 3.1.3 目標(biāo)函數(shù)的求解27-29
- 3.2 加權(quán)成對(duì)約束度量學(xué)習(xí)算法WPCML29-32
- 3.2.1 映射類內(nèi)子空間29
- 3.2.2 度量學(xué)習(xí)目標(biāo)函數(shù)29
- 3.2.3 加權(quán)約束對(duì)損失函數(shù)29-30
- 3.2.4 目標(biāo)函數(shù)的求解30-32
- 3.3 本章小結(jié)32-33
- 4 度量矩陣訓(xùn)練樣本對(duì)集的構(gòu)造33-38
- 4.1 成對(duì)約束訓(xùn)練樣本對(duì)集的構(gòu)造33-34
- 4.2 傳統(tǒng)度量矩陣訓(xùn)練樣本對(duì)集的構(gòu)造方法34-35
- 4.2.1 隨機(jī)選擇法34
- 4.2.2 交叉驗(yàn)證法34-35
- 4.3 選擇訓(xùn)練樣本對(duì)集構(gòu)造方法35-37
- 4.4 本章小結(jié)37-38
- 5 實(shí)驗(yàn)及結(jié)果分析38-45
- 5.1 實(shí)驗(yàn)設(shè)置38-39
- 5.2 基線對(duì)比實(shí)驗(yàn)39
- 5.2.1 實(shí)驗(yàn) 1(Cosine+ZTNORM):39
- 5.2.2 實(shí)驗(yàn) 2(PLDA):39
- 5.3 度量學(xué)習(xí)實(shí)驗(yàn)39-40
- 5.3.1 實(shí)驗(yàn) 3(SUB-ML):40
- 5.3.2 實(shí)驗(yàn) 4(SUB-ML-s):40
- 5.3.3 實(shí)驗(yàn) 5(SUB-WPCML-s):40
- 5.4 實(shí)驗(yàn)結(jié)果與分析40-44
- 5.5 本章小結(jié)44-45
- 6 總結(jié)與展望45-47
- 6.1 總結(jié)45
- 6.2 展望45-47
- 參考文獻(xiàn)47-51
- 致謝51-52
- 在讀期間公開(kāi)發(fā)表論文(著)及科研情況52
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 石艷;王曉曄;;新穎檢測(cè)法在說(shuō)話人識(shí)別技術(shù)中的應(yīng)用[J];現(xiàn)代計(jì)算機(jī)(專業(yè)版);2008年07期
2 劉雪燕;張娜;袁寶玲;;說(shuō)話人識(shí)別綜述[J];電腦知識(shí)與技術(shù);2009年01期
3 邱政權(quán);范小春;王俊年;;基于動(dòng)態(tài)環(huán)境下的說(shuō)話人識(shí)別[J];科學(xué)技術(shù)與工程;2010年02期
4 單進(jìn);;說(shuō)話人識(shí)別技術(shù)研究[J];科技資訊;2010年21期
5 申志生;于明;;說(shuō)話人識(shí)別算法的定點(diǎn)DSP實(shí)現(xiàn)[J];單片機(jī)與嵌入式系統(tǒng)應(yīng)用;2011年03期
6 謝建勛;;淺談?wù)f話人識(shí)別技術(shù)[J];電腦知識(shí)與技術(shù);2011年11期
7 安茂波;劉建;;一個(gè)快速說(shuō)話人識(shí)別系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)[J];網(wǎng)絡(luò)新媒體技術(shù);2012年03期
8 楊迪;戚銀城;劉明軍;張華芳子;武軍娜;;說(shuō)話人識(shí)別綜述[J];電子科技;2012年06期
9 武光利;;說(shuō)話人識(shí)別方法概述[J];硅谷;2012年19期
10 曹業(yè)敏,侯風(fēng)雷,王炳錫;說(shuō)話人識(shí)別技術(shù)現(xiàn)狀與進(jìn)展[J];河南科技;1998年09期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 鮑福良;方志剛;徐潔;;說(shuō)話人識(shí)別綜述[A];第六屆全國(guó)信息獲取與處理學(xué)術(shù)會(huì)議論文集(2)[C];2008年
2 孫帆;遲惠生;;循環(huán)網(wǎng)絡(luò)說(shuō)話人識(shí)別[A];第二屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];1992年
3 肖劍;歐貴文;;多層前饋神經(jīng)網(wǎng)絡(luò)組的文本無(wú)關(guān)說(shuō)話人識(shí)別[A];第七屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議(NCMMSC7)論文集[C];2003年
4 張玲華;鄭寶玉;楊震;;模糊超橢球聚類算法及其在說(shuō)話人識(shí)別中的應(yīng)用研究[A];第八屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];2005年
5 王宏;潘金貴;;基于矩陣正態(tài)分布的文本有關(guān)說(shuō)話人識(shí)別[A];2007通信理論與技術(shù)新發(fā)展——第十二屆全國(guó)青年通信學(xué)術(shù)會(huì)議論文集(上冊(cè))[C];2007年
6 戴紅霞;趙力;;文本無(wú)關(guān)說(shuō)話人識(shí)別系統(tǒng)的研究[A];2007’促進(jìn)西部發(fā)展聲學(xué)學(xué)術(shù)交流會(huì)論文集[C];2007年
7 陳聯(lián)武;郭武;戴禮榮;;說(shuō)話人識(shí)別系統(tǒng)中多樣訓(xùn)練的應(yīng)用[A];第十一屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集(一)[C];2011年
8 崔玉紅;胡光銳;;基于神經(jīng)網(wǎng)絡(luò)特征維數(shù)壓縮方法及其在說(shuō)話人識(shí)別中的應(yīng)用[A];第十屆全國(guó)信號(hào)處理學(xué)術(shù)年會(huì)(CCSP-2001)論文集[C];2001年
9 吳麗麗;;基于仿生模式識(shí)別的說(shuō)話人識(shí)別學(xué)習(xí)模型研究[A];第二屆中國(guó)科學(xué)院博士后學(xué)術(shù)年會(huì)暨高新技術(shù)前沿與發(fā)展學(xué)術(shù)會(huì)議程序冊(cè)[C];2010年
10 張晶;董金明;馮文全;;說(shuō)話人識(shí)別系統(tǒng)研究與實(shí)現(xiàn)[A];全國(guó)第二屆信號(hào)處理與應(yīng)用學(xué)術(shù)會(huì)議專刊[C];2008年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前2條
1 汪永安;科大訊飛說(shuō)話人識(shí)別技術(shù)世界領(lǐng)先[N];安徽日?qǐng)?bào);2008年
2 吳長(zhǎng)鋒;科大訊飛勇奪說(shuō)話人識(shí)別國(guó)際大賽第一[N];科技日?qǐng)?bào);2008年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 單振宇;情感說(shuō)話人識(shí)別及其解決方法的研究[D];浙江大學(xué);2010年
2 別凡虎;說(shuō)話人識(shí)別中區(qū)分性問(wèn)題的研究[D];清華大學(xué);2015年
3 謝怡寧;基于稀疏編碼的魯棒說(shuō)話人識(shí)別方法研究[D];哈爾濱理工大學(xué);2016年
4 陸偉;基于缺失特征的文本無(wú)關(guān)說(shuō)話人識(shí)別魯棒性研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2008年
5 劉鏑;說(shuō)話人識(shí)別中信息融合算法的研究[D];北京交通大學(xué);2011年
6 付中華;說(shuō)話人識(shí)別系統(tǒng)魯棒性研究[D];西北工業(yè)大學(xué);2004年
7 林琳;基于模糊聚類與遺傳算法的說(shuō)話人識(shí)別理論研究及應(yīng)用[D];吉林大學(xué);2007年
8 邱政權(quán);在噪聲環(huán)境下的說(shuō)話人識(shí)別[D];華南理工大學(xué);2007年
9 郭武;復(fù)雜信道下的說(shuō)話人識(shí)別[D];中國(guó)科學(xué)技術(shù)大學(xué);2007年
10 錢博;基于漢語(yǔ)元音映射的說(shuō)話人識(shí)別技術(shù)研究[D];南京理工大學(xué);2007年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 叢菡菡;基于支持相量機(jī)的穩(wěn)鍵說(shuō)話人識(shí)別[D];電子科技大學(xué);2008年
2 任舒彬;面向手持應(yīng)用的說(shuō)話人識(shí)別算法研究[D];浙江大學(xué);2006年
3 申志生;文本相關(guān)說(shuō)話人識(shí)別嵌入式系統(tǒng)及其關(guān)鍵技術(shù)研究[D];河北工業(yè)大學(xué);2011年
4 汪q,
本文編號(hào):270520
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/270520.html