基于因子分析的說(shuō)話人分離技術(shù)研究
本文關(guān)鍵詞:基于因子分析的說(shuō)話人分離技術(shù)研究,由筆耕文化傳播整理發(fā)布。
【摘要】:高速發(fā)展的計(jì)算機(jī)水平和音頻處理技術(shù),使得人們對(duì)于從海量數(shù)據(jù)中獲取到感興趣的人聲,越來(lái)越有需求。另一方面,如何對(duì)獲取到的各類音頻進(jìn)行合理有效的管理,也是目前存在的一大挑戰(zhàn)。在此背景下,為了滿足上述需要,說(shuō)話人分離這一關(guān)鍵技術(shù)應(yīng)運(yùn)而生,其主要涉及兩個(gè)過(guò)程:說(shuō)話人分割和說(shuō)話人聚類。說(shuō)話人分離系統(tǒng)幾乎無(wú)任何可供參考的先驗(yàn)信息使用,容易受環(huán)境或者建模方法的影響,使得分割和聚類時(shí)說(shuō)話人片段的類純度得不到保證。另外,基于距離準(zhǔn)則的層次聚類方式一旦出現(xiàn)聚類誤差,會(huì)一直的向上傳遞。因此本文主要在說(shuō)話人分割和聚類的建模方法以及類別提純上展開(kāi)了探索和研究,主要工作和創(chuàng)新點(diǎn)如下:第一,說(shuō)話人分離前端語(yǔ)音端點(diǎn)檢測(cè)(Voice Activity Detection, VAD)和類別提純方面的研究。針對(duì)基線系統(tǒng)中存在的低能量語(yǔ)音難以召回以及噪聲難以去除的情形,引入了深度學(xué)習(xí)的方法,在分離前端進(jìn)行改進(jìn)。針對(duì)層次聚類時(shí)出現(xiàn)聚類誤差向上傳遞的情況,提出了基于貝葉斯信息準(zhǔn)則(Bayesian Information Criterion, BIC)的短時(shí)類別提純方法,削弱由層次聚類帶來(lái)的誤差向上傳遞的影響。實(shí)驗(yàn)結(jié)果表明,基于深度學(xué)習(xí)的語(yǔ)音端點(diǎn)檢測(cè),能有效的降低說(shuō)話人分離時(shí)的虛警和漏警,并且降低說(shuō)話人分離錯(cuò)誤率,且基于短時(shí)BIC類別提純的方法,能更新部分聚類錯(cuò)誤的說(shuō)話人片段,提高后續(xù)說(shuō)話人聚類的類純度。第二,說(shuō)話人轉(zhuǎn)折點(diǎn)檢測(cè)建模方法的研宄。探索了基于深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)的建模方法在說(shuō)話人轉(zhuǎn)折點(diǎn)檢測(cè)中的應(yīng)用,利用其強(qiáng)大的模型表達(dá)能力,提高說(shuō)話人分割的準(zhǔn)確性。實(shí)驗(yàn)結(jié)果表明,這種基于深度學(xué)習(xí)的轉(zhuǎn)折點(diǎn)檢測(cè)建模方法相比于傳統(tǒng)的BIC建模方法,無(wú)論是在轉(zhuǎn)折點(diǎn)檢測(cè)的準(zhǔn)確率和召回率,還是對(duì)整個(gè)系統(tǒng)的分離錯(cuò)誤率(Diarization Error Rate, DER)來(lái)說(shuō),都獲得了一定的效果提升。第三,說(shuō)話人聚類時(shí)的因子分析建模方法研究。傳統(tǒng)的以貝葉斯信息準(zhǔn)則作為相似性度量的說(shuō)話人分離技術(shù),在短時(shí)對(duì)話的分離任務(wù)中能取得較好的效果,但是隨著對(duì)話時(shí)長(zhǎng)的增加,BIC的單高斯模型不足以描述不同說(shuō)話人數(shù)據(jù)的分布,且層次聚類時(shí)區(qū)分相同說(shuō)話人和不同說(shuō)話人的門(mén)限值難以劃定。針對(duì)此問(wèn)題,本文嘗試基于短時(shí)BIC和長(zhǎng)時(shí)概率線性判別分析(Probabilistic LinearDiscriminant Analysis, PLDA)融合的方法,充分利用BIC在短時(shí)聚類的可靠性和PLDA在長(zhǎng)時(shí)段上的優(yōu)異區(qū)分性,來(lái)實(shí)現(xiàn)說(shuō)話人聚類過(guò)程。實(shí)驗(yàn)表明,因子分析框架下的說(shuō)話人信息建模方法能有效的降低說(shuō)話人分離錯(cuò)誤率,使得性能相對(duì)提升34.2%。第四,說(shuō)話人聚類過(guò)程中的變分貝葉斯(Variational Bayesian, VB)調(diào)優(yōu)方法研究。通過(guò)與因子分析框架下的全差異空間相結(jié)合,將傳統(tǒng)的層次聚類方式轉(zhuǎn)化為在保證最優(yōu)化目標(biāo)函數(shù)的前提下,對(duì)某個(gè)片段屬于某個(gè)說(shuō)話人的最大后驗(yàn)概率估計(jì)的一種軟聚類方式。依據(jù)此方法,將層次聚類時(shí)因誤差上傳而出現(xiàn)錯(cuò)誤的說(shuō)話人片段進(jìn)行重新調(diào)優(yōu),達(dá)到提高后續(xù)PLDA聚類的初始類純度,進(jìn)而降低說(shuō)話人分離錯(cuò)誤率。
【關(guān)鍵詞】:說(shuō)話人分離 貝葉斯信息準(zhǔn)則 深度學(xué)習(xí) 因子分析 概率線性判別分析 變分貝葉斯
【學(xué)位授予單位】:中國(guó)科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TN912.3
【目錄】:
- 摘要5-7
- Abstract7-12
- 第一章 緒論12-18
- 1.1 研究背景及意義12-13
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀13-15
- 1.2.1 說(shuō)話人分割研究現(xiàn)狀14-15
- 1.2.2 說(shuō)話人聚類研究現(xiàn)狀15
- 1.3 說(shuō)話人分離中存在的問(wèn)題15-16
- 1.4 說(shuō)話人分離系統(tǒng)性能評(píng)價(jià)指標(biāo)16-17
- 1.5 論文研究?jī)?nèi)容與安排17-18
- 第二章 基于貝葉斯信息準(zhǔn)則的說(shuō)話人分離系統(tǒng)及其改進(jìn)18-30
- 2.1 引言18
- 2.2 說(shuō)話人分離系統(tǒng)框架18-23
- 2.2.1 語(yǔ)音端點(diǎn)檢測(cè)19
- 2.2.2 說(shuō)話人轉(zhuǎn)折點(diǎn)檢測(cè)19-21
- 2.2.3 說(shuō)話人層次聚類21-22
- 2.2.4 說(shuō)話人重分割22-23
- 2.3 基線系統(tǒng)的實(shí)驗(yàn)結(jié)果與分析23-24
- 2.4 基于深度學(xué)習(xí)的說(shuō)話人分離前端語(yǔ)音端點(diǎn)檢測(cè)24-26
- 2.4.1 VAD實(shí)現(xiàn)流程24-25
- 2.4.2 VAD后處理25
- 2.4.3 實(shí)驗(yàn)結(jié)果與分析25-26
- 2.5 基于短時(shí)貝葉斯信息準(zhǔn)則的說(shuō)話人提純方法26-28
- 2.5.1 說(shuō)話人提純26-27
- 2.5.2 實(shí)驗(yàn)結(jié)果與分析27-28
- 2.6 本章小結(jié)28-30
- 第三章 基于深度學(xué)習(xí)的說(shuō)話人轉(zhuǎn)折點(diǎn)檢測(cè)研究30-40
- 3.1 引言30
- 3.2 基于深度學(xué)習(xí)的轉(zhuǎn)折點(diǎn)檢測(cè)方法30-38
- 3.2.1 深度學(xué)習(xí)簡(jiǎn)介30-31
- 3.2.2 轉(zhuǎn)折點(diǎn)檢測(cè)網(wǎng)絡(luò)訓(xùn)練過(guò)程31-36
- 3.2.3 轉(zhuǎn)折點(diǎn)檢測(cè)測(cè)試過(guò)程36-38
- 3.3 實(shí)驗(yàn)結(jié)果與分析38-39
- 3.4 本章小結(jié)39-40
- 第四章 因子分析框架下的說(shuō)話人聚類研究40-54
- 4.1 引言40
- 4.2 因子分析方法的基本概念40-41
- 4.3 說(shuō)話人識(shí)別中的全差異空間建模41-44
- 4.3.1 全差異空間訓(xùn)練43-44
- 4.3.2 全差異空間得分計(jì)算44
- 4.4 概率線性判別分析概述44-49
- 4.4.1 概率線性判別分析的參數(shù)訓(xùn)練45-46
- 4.4.2 概率線性判別分析得分計(jì)算46-49
- 4.5 BIC和PLDA聚類融合系統(tǒng)49-51
- 4.6 實(shí)驗(yàn)結(jié)果與分析51-53
- 4.7 本章小結(jié)53-54
- 第五章 基于變分貝葉斯調(diào)優(yōu)的說(shuō)話人聚類研究54-62
- 5.1 引言54
- 5.2 變分貝葉斯調(diào)優(yōu)54-59
- 5.2.1 變分貝葉斯簡(jiǎn)介55-57
- 5.2.2 問(wèn)題描述57-58
- 5.2.3 變分法58-59
- 5.2.4 算法具體流程59
- 5.3 實(shí)驗(yàn)結(jié)果及分析59-61
- 5.4 本章小結(jié)61-62
- 第六章 總結(jié)與展望62-64
- 6.1 論文工作總結(jié)62-63
- 6.2 進(jìn)一步研究工作63-64
- 參考文獻(xiàn)64-68
- 致謝68-70
- 攻讀碩士學(xué)位期間發(fā)表的論文和參與的研究工作70
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 丁輝;唐振民;錢博;李燕萍;;易擴(kuò)展小樣本環(huán)境說(shuō)話人辨認(rèn)系統(tǒng)的研究[J];系統(tǒng)仿真學(xué)報(bào);2008年10期
2 劉明輝;黃中偉;熊繼平;;用于說(shuō)話人辨識(shí)的評(píng)分規(guī)整[J];計(jì)算機(jī)工程與應(yīng)用;2010年12期
3 陳雪芳;楊繼臣;;一種三層判決的說(shuō)話人索引算法[J];計(jì)算機(jī)工程;2012年02期
4 楊繼臣;何俊;李艷雄;;一種基于性別的說(shuō)話人索引算法[J];計(jì)算機(jī)工程與科學(xué);2012年06期
5 何致遠(yuǎn),胡起秀,徐光yP;兩級(jí)決策的開(kāi)集說(shuō)話人辨認(rèn)方法[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2003年04期
6 殷啟新,韓春光,楊鑒;基于掌上電腦錄音的說(shuō)話人辨認(rèn)[J];云南民族學(xué)院學(xué)報(bào)(自然科學(xué)版);2003年04期
7 呂聲,尹俊勛;同語(yǔ)種說(shuō)話人轉(zhuǎn)換的實(shí)現(xiàn)[J];移動(dòng)通信;2004年S3期
8 董明,劉加,劉潤(rùn)生;快速口音自適應(yīng)的動(dòng)態(tài)說(shuō)話人選擇性訓(xùn)練[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年07期
9 曹敏;王浩川;;說(shuō)話人自動(dòng)識(shí)別技術(shù)研究[J];中州大學(xué)學(xué)報(bào);2007年02期
10 王堅(jiān);;基于支撐向量選擇的說(shuō)話人自適應(yīng)[J];中國(guó)新通信;2007年11期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 司羅;胡起秀;金琴;;完全無(wú)監(jiān)督的雙人對(duì)話中的說(shuō)話人分隔[A];第九屆全國(guó)信號(hào)處理學(xué)術(shù)年會(huì)(CCSP-99)論文集[C];1999年
2 金乃高;侯剛;王學(xué)輝;李非墨;;基于主動(dòng)感知的音視頻聯(lián)合說(shuō)話人跟蹤方法[A];2010年通信理論與信號(hào)處理學(xué)術(shù)年會(huì)論文集[C];2010年
3 馬勇;鮑長(zhǎng)春;夏丙寅;;基于辨別性深度信念網(wǎng)絡(luò)的說(shuō)話人分割[A];第十二屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議(NCMMSC'2013)論文集[C];2013年
4 白俊梅;張樹(shù)武;徐波;;廣播電視中的目標(biāo)說(shuō)話人跟蹤技術(shù)[A];第八屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];2005年
5 索宏彬;劉曉星;;基于高斯混合模型的說(shuō)話人跟蹤系統(tǒng)[A];第八屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];2005年
6 羅海風(fēng);龍長(zhǎng)才;;多話者環(huán)境下說(shuō)話人辨識(shí)聽(tīng)覺(jué)線索研究[A];中國(guó)聲學(xué)學(xué)會(huì)2009年青年學(xué)術(shù)會(huì)議[CYCA’09]論文集[C];2009年
7 王剛;鄔曉鈞;鄭方;王琳琳;張陳昊;;基于參考說(shuō)話人模型和雙層結(jié)構(gòu)的說(shuō)話人辨認(rèn)快速算法[A];第十一屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集(一)[C];2011年
8 李經(jīng)偉;;語(yǔ)體轉(zhuǎn)換與角色定位[A];全國(guó)語(yǔ)言與符號(hào)學(xué)研究會(huì)第五屆研討會(huì)論文摘要集[C];2002年
9 王剛;鄔曉鈞;鄭方;王琳琳;張陳昊;;基于參考說(shuō)話人模型和雙層結(jié)構(gòu)的說(shuō)話人辨認(rèn)[A];第十一屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集(二)[C];2011年
10 何磊;方棣棠;吳文虎;;說(shuō)話人聚類與模型自適應(yīng)結(jié)合的說(shuō)話人自適應(yīng)方法[A];第六屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];2001年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前3條
1 ;做一名積極的傾聽(tīng)者[N];中國(guó)紡織報(bào);2003年
2 唐志強(qiáng);不聽(tīng)別人說(shuō)話,也能模仿其口音[N];新華每日電訊;2010年
3 黃惠慧(南京師范大學(xué)附屬揚(yáng)子中學(xué));高考聽(tīng)力要求及對(duì)策[N];中國(guó)教育資訊報(bào);2002年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 李洪儒;語(yǔ)句中的說(shuō)話人形象[D];黑龍江大學(xué);2003年
2 李威;多人會(huì)話語(yǔ)音中的說(shuō)話人角色分析[D];華南理工大學(xué);2015年
3 楊繼臣;說(shuō)話人信息分析及其在多媒體檢索中的應(yīng)用研究[D];華南理工大學(xué);2010年
4 鄭建煒;基于核方法的說(shuō)話人辨認(rèn)模型研究[D];浙江工業(yè)大學(xué);2010年
5 呂聲;說(shuō)話人轉(zhuǎn)換方法的研究[D];華南理工大學(xué);2004年
6 陳凌輝;說(shuō)話人轉(zhuǎn)換建模方法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2013年
7 玄成君;基于語(yǔ)音頻率特性抑制音素影響的說(shuō)話人特征提取[D];天津大學(xué);2014年
8 李燕萍;說(shuō)話人辨認(rèn)中的特征參數(shù)提取和魯棒性技術(shù)研究[D];南京理工大學(xué);2009年
9 徐利敏;說(shuō)話人辨認(rèn)中的特征變換和魯棒性技術(shù)研究[D];南京理工大學(xué);2008年
10 王堅(jiān);語(yǔ)音識(shí)別中的說(shuō)話人自適應(yīng)研究[D];北京郵電大學(xué);2007年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 楊浩;基于廣義音素的文本無(wú)關(guān)說(shuō)話人認(rèn)證的研究[D];北京郵電大學(xué);2008年
2 史夢(mèng)潔;構(gòu)式“沒(méi)有比X更Y的(了)”研究[D];上海師范大學(xué);2015年
3 魏君;“說(shuō)你什么好”的多角度研究[D];河北大學(xué);2015年
4 解冬悅;互動(dòng)韻律:英語(yǔ)多人沖突性話語(yǔ)中說(shuō)話人的首音模式研究[D];大連外國(guó)語(yǔ)大學(xué);2015年
5 朱韋巍;揚(yáng)州街上話語(yǔ)氣詞研究[D];南京林業(yè)大學(xué);2015年
6 蔣博;特定目標(biāo)說(shuō)話人的語(yǔ)音轉(zhuǎn)換系統(tǒng)設(shè)計(jì)[D];電子科技大學(xué);2015年
7 王雅丹;漢語(yǔ)反語(yǔ)研究[D];南昌大學(xué);2015年
8 陳雨鶯;基于EMD的說(shuō)話人特征參數(shù)提取方法研究[D];湘潭大學(xué);2015年
9 單燕燕;變音環(huán)境下魯棒性說(shuō)話人辨認(rèn)關(guān)鍵技術(shù)研究[D];南京郵電大學(xué);2015年
10 陳sネ,
本文編號(hào):366560
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/366560.html