基于因子分析的說話人分離技術(shù)研究
本文關(guān)鍵詞:基于因子分析的說話人分離技術(shù)研究,由筆耕文化傳播整理發(fā)布。
【摘要】:高速發(fā)展的計(jì)算機(jī)水平和音頻處理技術(shù),使得人們對于從海量數(shù)據(jù)中獲取到感興趣的人聲,越來越有需求。另一方面,如何對獲取到的各類音頻進(jìn)行合理有效的管理,也是目前存在的一大挑戰(zhàn)。在此背景下,為了滿足上述需要,說話人分離這一關(guān)鍵技術(shù)應(yīng)運(yùn)而生,其主要涉及兩個過程:說話人分割和說話人聚類。說話人分離系統(tǒng)幾乎無任何可供參考的先驗(yàn)信息使用,容易受環(huán)境或者建模方法的影響,使得分割和聚類時說話人片段的類純度得不到保證。另外,基于距離準(zhǔn)則的層次聚類方式一旦出現(xiàn)聚類誤差,會一直的向上傳遞。因此本文主要在說話人分割和聚類的建模方法以及類別提純上展開了探索和研究,主要工作和創(chuàng)新點(diǎn)如下:第一,說話人分離前端語音端點(diǎn)檢測(Voice Activity Detection, VAD)和類別提純方面的研究。針對基線系統(tǒng)中存在的低能量語音難以召回以及噪聲難以去除的情形,引入了深度學(xué)習(xí)的方法,在分離前端進(jìn)行改進(jìn)。針對層次聚類時出現(xiàn)聚類誤差向上傳遞的情況,提出了基于貝葉斯信息準(zhǔn)則(Bayesian Information Criterion, BIC)的短時類別提純方法,削弱由層次聚類帶來的誤差向上傳遞的影響。實(shí)驗(yàn)結(jié)果表明,基于深度學(xué)習(xí)的語音端點(diǎn)檢測,能有效的降低說話人分離時的虛警和漏警,并且降低說話人分離錯誤率,且基于短時BIC類別提純的方法,能更新部分聚類錯誤的說話人片段,提高后續(xù)說話人聚類的類純度。第二,說話人轉(zhuǎn)折點(diǎn)檢測建模方法的研宄。探索了基于深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)的建模方法在說話人轉(zhuǎn)折點(diǎn)檢測中的應(yīng)用,利用其強(qiáng)大的模型表達(dá)能力,提高說話人分割的準(zhǔn)確性。實(shí)驗(yàn)結(jié)果表明,這種基于深度學(xué)習(xí)的轉(zhuǎn)折點(diǎn)檢測建模方法相比于傳統(tǒng)的BIC建模方法,無論是在轉(zhuǎn)折點(diǎn)檢測的準(zhǔn)確率和召回率,還是對整個系統(tǒng)的分離錯誤率(Diarization Error Rate, DER)來說,都獲得了一定的效果提升。第三,說話人聚類時的因子分析建模方法研究。傳統(tǒng)的以貝葉斯信息準(zhǔn)則作為相似性度量的說話人分離技術(shù),在短時對話的分離任務(wù)中能取得較好的效果,但是隨著對話時長的增加,BIC的單高斯模型不足以描述不同說話人數(shù)據(jù)的分布,且層次聚類時區(qū)分相同說話人和不同說話人的門限值難以劃定。針對此問題,本文嘗試基于短時BIC和長時概率線性判別分析(Probabilistic LinearDiscriminant Analysis, PLDA)融合的方法,充分利用BIC在短時聚類的可靠性和PLDA在長時段上的優(yōu)異區(qū)分性,來實(shí)現(xiàn)說話人聚類過程。實(shí)驗(yàn)表明,因子分析框架下的說話人信息建模方法能有效的降低說話人分離錯誤率,使得性能相對提升34.2%。第四,說話人聚類過程中的變分貝葉斯(Variational Bayesian, VB)調(diào)優(yōu)方法研究。通過與因子分析框架下的全差異空間相結(jié)合,將傳統(tǒng)的層次聚類方式轉(zhuǎn)化為在保證最優(yōu)化目標(biāo)函數(shù)的前提下,對某個片段屬于某個說話人的最大后驗(yàn)概率估計(jì)的一種軟聚類方式。依據(jù)此方法,將層次聚類時因誤差上傳而出現(xiàn)錯誤的說話人片段進(jìn)行重新調(diào)優(yōu),達(dá)到提高后續(xù)PLDA聚類的初始類純度,進(jìn)而降低說話人分離錯誤率。
【關(guān)鍵詞】:說話人分離 貝葉斯信息準(zhǔn)則 深度學(xué)習(xí) 因子分析 概率線性判別分析 變分貝葉斯
【學(xué)位授予單位】:中國科學(xué)技術(shù)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TN912.3
【目錄】:
- 摘要5-7
- Abstract7-12
- 第一章 緒論12-18
- 1.1 研究背景及意義12-13
- 1.2 國內(nèi)外研究現(xiàn)狀13-15
- 1.2.1 說話人分割研究現(xiàn)狀14-15
- 1.2.2 說話人聚類研究現(xiàn)狀15
- 1.3 說話人分離中存在的問題15-16
- 1.4 說話人分離系統(tǒng)性能評價指標(biāo)16-17
- 1.5 論文研究內(nèi)容與安排17-18
- 第二章 基于貝葉斯信息準(zhǔn)則的說話人分離系統(tǒng)及其改進(jìn)18-30
- 2.1 引言18
- 2.2 說話人分離系統(tǒng)框架18-23
- 2.2.1 語音端點(diǎn)檢測19
- 2.2.2 說話人轉(zhuǎn)折點(diǎn)檢測19-21
- 2.2.3 說話人層次聚類21-22
- 2.2.4 說話人重分割22-23
- 2.3 基線系統(tǒng)的實(shí)驗(yàn)結(jié)果與分析23-24
- 2.4 基于深度學(xué)習(xí)的說話人分離前端語音端點(diǎn)檢測24-26
- 2.4.1 VAD實(shí)現(xiàn)流程24-25
- 2.4.2 VAD后處理25
- 2.4.3 實(shí)驗(yàn)結(jié)果與分析25-26
- 2.5 基于短時貝葉斯信息準(zhǔn)則的說話人提純方法26-28
- 2.5.1 說話人提純26-27
- 2.5.2 實(shí)驗(yàn)結(jié)果與分析27-28
- 2.6 本章小結(jié)28-30
- 第三章 基于深度學(xué)習(xí)的說話人轉(zhuǎn)折點(diǎn)檢測研究30-40
- 3.1 引言30
- 3.2 基于深度學(xué)習(xí)的轉(zhuǎn)折點(diǎn)檢測方法30-38
- 3.2.1 深度學(xué)習(xí)簡介30-31
- 3.2.2 轉(zhuǎn)折點(diǎn)檢測網(wǎng)絡(luò)訓(xùn)練過程31-36
- 3.2.3 轉(zhuǎn)折點(diǎn)檢測測試過程36-38
- 3.3 實(shí)驗(yàn)結(jié)果與分析38-39
- 3.4 本章小結(jié)39-40
- 第四章 因子分析框架下的說話人聚類研究40-54
- 4.1 引言40
- 4.2 因子分析方法的基本概念40-41
- 4.3 說話人識別中的全差異空間建模41-44
- 4.3.1 全差異空間訓(xùn)練43-44
- 4.3.2 全差異空間得分計(jì)算44
- 4.4 概率線性判別分析概述44-49
- 4.4.1 概率線性判別分析的參數(shù)訓(xùn)練45-46
- 4.4.2 概率線性判別分析得分計(jì)算46-49
- 4.5 BIC和PLDA聚類融合系統(tǒng)49-51
- 4.6 實(shí)驗(yàn)結(jié)果與分析51-53
- 4.7 本章小結(jié)53-54
- 第五章 基于變分貝葉斯調(diào)優(yōu)的說話人聚類研究54-62
- 5.1 引言54
- 5.2 變分貝葉斯調(diào)優(yōu)54-59
- 5.2.1 變分貝葉斯簡介55-57
- 5.2.2 問題描述57-58
- 5.2.3 變分法58-59
- 5.2.4 算法具體流程59
- 5.3 實(shí)驗(yàn)結(jié)果及分析59-61
- 5.4 本章小結(jié)61-62
- 第六章 總結(jié)與展望62-64
- 6.1 論文工作總結(jié)62-63
- 6.2 進(jìn)一步研究工作63-64
- 參考文獻(xiàn)64-68
- 致謝68-70
- 攻讀碩士學(xué)位期間發(fā)表的論文和參與的研究工作70
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 丁輝;唐振民;錢博;李燕萍;;易擴(kuò)展小樣本環(huán)境說話人辨認(rèn)系統(tǒng)的研究[J];系統(tǒng)仿真學(xué)報(bào);2008年10期
2 劉明輝;黃中偉;熊繼平;;用于說話人辨識的評分規(guī)整[J];計(jì)算機(jī)工程與應(yīng)用;2010年12期
3 陳雪芳;楊繼臣;;一種三層判決的說話人索引算法[J];計(jì)算機(jī)工程;2012年02期
4 楊繼臣;何俊;李艷雄;;一種基于性別的說話人索引算法[J];計(jì)算機(jī)工程與科學(xué);2012年06期
5 何致遠(yuǎn),胡起秀,徐光yP;兩級決策的開集說話人辨認(rèn)方法[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2003年04期
6 殷啟新,韓春光,楊鑒;基于掌上電腦錄音的說話人辨認(rèn)[J];云南民族學(xué)院學(xué)報(bào)(自然科學(xué)版);2003年04期
7 呂聲,尹俊勛;同語種說話人轉(zhuǎn)換的實(shí)現(xiàn)[J];移動通信;2004年S3期
8 董明,劉加,劉潤生;快速口音自適應(yīng)的動態(tài)說話人選擇性訓(xùn)練[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年07期
9 曹敏;王浩川;;說話人自動識別技術(shù)研究[J];中州大學(xué)學(xué)報(bào);2007年02期
10 王堅(jiān);;基于支撐向量選擇的說話人自適應(yīng)[J];中國新通信;2007年11期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 司羅;胡起秀;金琴;;完全無監(jiān)督的雙人對話中的說話人分隔[A];第九屆全國信號處理學(xué)術(shù)年會(CCSP-99)論文集[C];1999年
2 金乃高;侯剛;王學(xué)輝;李非墨;;基于主動感知的音視頻聯(lián)合說話人跟蹤方法[A];2010年通信理論與信號處理學(xué)術(shù)年會論文集[C];2010年
3 馬勇;鮑長春;夏丙寅;;基于辨別性深度信念網(wǎng)絡(luò)的說話人分割[A];第十二屆全國人機(jī)語音通訊學(xué)術(shù)會議(NCMMSC'2013)論文集[C];2013年
4 白俊梅;張樹武;徐波;;廣播電視中的目標(biāo)說話人跟蹤技術(shù)[A];第八屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集[C];2005年
5 索宏彬;劉曉星;;基于高斯混合模型的說話人跟蹤系統(tǒng)[A];第八屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集[C];2005年
6 羅海風(fēng);龍長才;;多話者環(huán)境下說話人辨識聽覺線索研究[A];中國聲學(xué)學(xué)會2009年青年學(xué)術(shù)會議[CYCA’09]論文集[C];2009年
7 王剛;鄔曉鈞;鄭方;王琳琳;張陳昊;;基于參考說話人模型和雙層結(jié)構(gòu)的說話人辨認(rèn)快速算法[A];第十一屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集(一)[C];2011年
8 李經(jīng)偉;;語體轉(zhuǎn)換與角色定位[A];全國語言與符號學(xué)研究會第五屆研討會論文摘要集[C];2002年
9 王剛;鄔曉鈞;鄭方;王琳琳;張陳昊;;基于參考說話人模型和雙層結(jié)構(gòu)的說話人辨認(rèn)[A];第十一屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集(二)[C];2011年
10 何磊;方棣棠;吳文虎;;說話人聚類與模型自適應(yīng)結(jié)合的說話人自適應(yīng)方法[A];第六屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集[C];2001年
中國重要報(bào)紙全文數(shù)據(jù)庫 前3條
1 ;做一名積極的傾聽者[N];中國紡織報(bào);2003年
2 唐志強(qiáng);不聽別人說話,也能模仿其口音[N];新華每日電訊;2010年
3 黃惠慧(南京師范大學(xué)附屬揚(yáng)子中學(xué));高考聽力要求及對策[N];中國教育資訊報(bào);2002年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 李洪儒;語句中的說話人形象[D];黑龍江大學(xué);2003年
2 李威;多人會話語音中的說話人角色分析[D];華南理工大學(xué);2015年
3 楊繼臣;說話人信息分析及其在多媒體檢索中的應(yīng)用研究[D];華南理工大學(xué);2010年
4 鄭建煒;基于核方法的說話人辨認(rèn)模型研究[D];浙江工業(yè)大學(xué);2010年
5 呂聲;說話人轉(zhuǎn)換方法的研究[D];華南理工大學(xué);2004年
6 陳凌輝;說話人轉(zhuǎn)換建模方法研究[D];中國科學(xué)技術(shù)大學(xué);2013年
7 玄成君;基于語音頻率特性抑制音素影響的說話人特征提取[D];天津大學(xué);2014年
8 李燕萍;說話人辨認(rèn)中的特征參數(shù)提取和魯棒性技術(shù)研究[D];南京理工大學(xué);2009年
9 徐利敏;說話人辨認(rèn)中的特征變換和魯棒性技術(shù)研究[D];南京理工大學(xué);2008年
10 王堅(jiān);語音識別中的說話人自適應(yīng)研究[D];北京郵電大學(xué);2007年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 楊浩;基于廣義音素的文本無關(guān)說話人認(rèn)證的研究[D];北京郵電大學(xué);2008年
2 史夢潔;構(gòu)式“沒有比X更Y的(了)”研究[D];上海師范大學(xué);2015年
3 魏君;“說你什么好”的多角度研究[D];河北大學(xué);2015年
4 解冬悅;互動韻律:英語多人沖突性話語中說話人的首音模式研究[D];大連外國語大學(xué);2015年
5 朱韋巍;揚(yáng)州街上話語氣詞研究[D];南京林業(yè)大學(xué);2015年
6 蔣博;特定目標(biāo)說話人的語音轉(zhuǎn)換系統(tǒng)設(shè)計(jì)[D];電子科技大學(xué);2015年
7 王雅丹;漢語反語研究[D];南昌大學(xué);2015年
8 陳雨鶯;基于EMD的說話人特征參數(shù)提取方法研究[D];湘潭大學(xué);2015年
9 單燕燕;變音環(huán)境下魯棒性說話人辨認(rèn)關(guān)鍵技術(shù)研究[D];南京郵電大學(xué);2015年
10 陳sネ,
本文編號:366560
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/366560.html