說話人分割聚類中的建模方法研究
本文關(guān)鍵詞:說話人分割聚類中的建模方法研究
更多相關(guān)文章: 說話人分割聚類 深度神經(jīng)網(wǎng)絡(luò) 全差異空間建模 說話人類內(nèi)短時語音段差異建模 譜聚類
【摘要】:隨著互聯(lián)網(wǎng)時代的到來,以及大數(shù)據(jù)的發(fā)展,每天接受的信息大幅增長,這些信息中包含著電話通信、電視和網(wǎng)絡(luò)等語音信息,同時隨著科技的不斷發(fā)展和電子設(shè)備的大量普及,有聲郵件、語音搜索等在日常生活中扮演著越來越重要的角色。面對這些如雨后春筍般出現(xiàn)的信息,如何從中有效提取有用的信息,是目前研究的難點(diǎn)和熱點(diǎn)。說話人分割聚類融合了多種音頻處理技術(shù),并能夠?qū)崿F(xiàn)對說話人類別和說話內(nèi)容的精確管理,因此說話人分割聚類技術(shù)引起了眾多學(xué)者的興趣,比如麻省理工、法國LIMSI、劍橋、伯克利等已經(jīng)展開研究,且取得了一定成果,但是說話人分割聚類中仍有幾大難點(diǎn)難以解決,比如復(fù)雜場景下建模不準(zhǔn)確、短時語音段表示不準(zhǔn)確、聚類效率慢以及說話人數(shù)目確定困難等,本文針對這些問題展開研究,具體內(nèi)容為以下幾個方面:針對復(fù)雜場景下建模不準(zhǔn)確的問題,論文將有監(jiān)督的建模方法應(yīng)用到說話人分割聚類中,利用深度神經(jīng)網(wǎng)絡(luò)替代傳統(tǒng)建模方法提取語音信號中深層次的復(fù)雜信息,將輸出節(jié)點(diǎn)中的音素狀態(tài)作為建模初始類別數(shù),并和全差異建模相結(jié)合,從而使音素特征和說話人特征有效地解耦,最終得到對語音段更加魯棒性的表示,從而提高系統(tǒng)性能。對于短時語音段表示不準(zhǔn)確的問題,論文提出了構(gòu)造基于深度神經(jīng)網(wǎng)絡(luò)的說話人類內(nèi)短時語音段差異建模的方法,通過對存在差異的短時語音段進(jìn)行有效建模,補(bǔ)償語音段之間的差異,減少干擾信息的負(fù)面影響,從而使得低維因子向量準(zhǔn)確的包含語音段中的說話人信息,從而使得短時語音段能夠更加準(zhǔn)確地被表示。為了能夠?qū)崿F(xiàn)高效建模的目標(biāo),提高聚類效率,論文用譜聚類的方法代替原有的層次凝聚聚類,通過計算語音段間的距離,構(gòu)造基于距離的關(guān)聯(lián)矩陣,利用改進(jìn)的Eigen gap方法尋找最優(yōu)的聚類數(shù)目,確定語音段中的說話人數(shù)目,根據(jù)已經(jīng)確定的類別數(shù),通過對關(guān)聯(lián)矩陣特征結(jié)構(gòu)分布的分析,對分割后的語音段進(jìn)行聚類。譜聚類的方法不僅解決了說話人數(shù)目難以確定的問題,而且聚類速度高于傳統(tǒng)的層次凝聚聚類方法。利用本文提出的三種方法,能夠有效解決目前說話人分割聚類中存在的難點(diǎn),通過實(shí)驗(yàn)結(jié)果可以表明,系統(tǒng)性能有大幅提升。
【關(guān)鍵詞】:說話人分割聚類 深度神經(jīng)網(wǎng)絡(luò) 全差異空間建模 說話人類內(nèi)短時語音段差異建模 譜聚類
【學(xué)位授予單位】:中國科學(xué)技術(shù)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TN912.3
【目錄】:
- 摘要5-6
- ABSTRACT6-13
- 第一章 緒論13-21
- 1.1 說話人分割聚類簡介13-16
- 1.1.1 說話人分割聚類研究背景13-14
- 1.1.2 國內(nèi)外研究現(xiàn)狀14-16
- 1.2 NIST SRE數(shù)據(jù)庫16-17
- 1.3 評價指標(biāo)17-18
- 1.4 論文結(jié)構(gòu)18-21
- 第二章 基于全差異空間的說話人分割聚類系統(tǒng)21-37
- 2.1 系統(tǒng)簡介21
- 2.2 說話人分割與聚類21-26
- 2.2.1 貝葉斯信息準(zhǔn)則22-23
- 2.2.2 說話人分割23-24
- 2.2.3 說話人聚類24-25
- 2.2.4 重分割25-26
- 2.3 模型訓(xùn)練26-30
- 2.3.1 高斯混合模型26-28
- 2.3.2 說話人自適應(yīng)28-30
- 2.4 全差異空間30-33
- 2.5 iVector在說話人分割聚類中的應(yīng)用33-34
- 2.6 實(shí)驗(yàn)34-35
- 2.7 本章小結(jié)35-37
- 第三章 基于DNN的全差異空間建模37-51
- 3.1 引言37
- 3.2 DNN-HMM聲學(xué)建模37-44
- 3.2.1 受限玻爾茲曼機(jī)和深層置信網(wǎng)絡(luò)訓(xùn)練算法38-41
- 3.2.2 DNN訓(xùn)練算法41-43
- 3.2.3 深度神經(jīng)網(wǎng)絡(luò)在聲學(xué)模型中的應(yīng)用43-44
- 3.3 全差異空間建模44-47
- 3.3.1 基于UBM的全差異空間建模44
- 3.3.2 基于DNN的全差異空間建模44-47
- 3.4 實(shí)驗(yàn)47-48
- 3.5 本章總結(jié)48-51
- 第四章 基于DNN的說話人類內(nèi)短時語音段差異建模51-59
- 4.1 引言51
- 4.2 全差異空間建模存在的問題分析51-52
- 4.3 說話人類內(nèi)短時語音段差異補(bǔ)償和建模52-57
- 4.3.1 U矩陣估計53-54
- 4.3.2 說話人模型訓(xùn)練54-55
- 4.3.3 說話人模型補(bǔ)償55-56
- 4.3.4 說話人身份識別測試56-57
- 4.4 實(shí)驗(yàn)57-58
- 4.5 本章小結(jié)58-59
- 第五章 譜聚類59-73
- 5.1 引言59
- 5.2 傳統(tǒng)譜聚類簡介59-65
- 5.2.1 NJW算法流程60
- 5.2.2 相似圖介紹60-62
- 5.2.3 拉普拉斯圖及其性質(zhì)62-65
- 5.3 譜聚類在說話人分割聚類中的應(yīng)用65-69
- 5.3.1 已知說話人數(shù)目65-68
- 5.3.2 未知說話人數(shù)目68-69
- 5.4 實(shí)驗(yàn)69-71
- 5.5 本章小結(jié)71-73
- 第六章 總結(jié)與展望73-77
- 6.1 論文工作總結(jié)73-75
- 6.2 后續(xù)工作計劃75-77
- 參考文獻(xiàn)77-81
- 致謝81-83
- 在讀期間發(fā)表的學(xué)術(shù)論文與取得的研究成果83
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 丁輝;唐振民;錢博;李燕萍;;易擴(kuò)展小樣本環(huán)境說話人辨認(rèn)系統(tǒng)的研究[J];系統(tǒng)仿真學(xué)報;2008年10期
2 劉明輝;黃中偉;熊繼平;;用于說話人辨識的評分規(guī)整[J];計算機(jī)工程與應(yīng)用;2010年12期
3 陳雪芳;楊繼臣;;一種三層判決的說話人索引算法[J];計算機(jī)工程;2012年02期
4 楊繼臣;何俊;李艷雄;;一種基于性別的說話人索引算法[J];計算機(jī)工程與科學(xué);2012年06期
5 何致遠(yuǎn),胡起秀,徐光yP;兩級決策的開集說話人辨認(rèn)方法[J];清華大學(xué)學(xué)報(自然科學(xué)版);2003年04期
6 殷啟新,韓春光,楊鑒;基于掌上電腦錄音的說話人辨認(rèn)[J];云南民族學(xué)院學(xué)報(自然科學(xué)版);2003年04期
7 呂聲,尹俊勛;同語種說話人轉(zhuǎn)換的實(shí)現(xiàn)[J];移動通信;2004年S3期
8 董明,劉加,劉潤生;快速口音自適應(yīng)的動態(tài)說話人選擇性訓(xùn)練[J];清華大學(xué)學(xué)報(自然科學(xué)版);2005年07期
9 曹敏;王浩川;;說話人自動識別技術(shù)研究[J];中州大學(xué)學(xué)報;2007年02期
10 王堅;;基于支撐向量選擇的說話人自適應(yīng)[J];中國新通信;2007年11期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 司羅;胡起秀;金琴;;完全無監(jiān)督的雙人對話中的說話人分隔[A];第九屆全國信號處理學(xué)術(shù)年會(CCSP-99)論文集[C];1999年
2 金乃高;侯剛;王學(xué)輝;李非墨;;基于主動感知的音視頻聯(lián)合說話人跟蹤方法[A];2010年通信理論與信號處理學(xué)術(shù)年會論文集[C];2010年
3 馬勇;鮑長春;夏丙寅;;基于辨別性深度信念網(wǎng)絡(luò)的說話人分割[A];第十二屆全國人機(jī)語音通訊學(xué)術(shù)會議(NCMMSC'2013)論文集[C];2013年
4 白俊梅;張樹武;徐波;;廣播電視中的目標(biāo)說話人跟蹤技術(shù)[A];第八屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集[C];2005年
5 索宏彬;劉曉星;;基于高斯混合模型的說話人跟蹤系統(tǒng)[A];第八屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集[C];2005年
6 羅海風(fēng);龍長才;;多話者環(huán)境下說話人辨識聽覺線索研究[A];中國聲學(xué)學(xué)會2009年青年學(xué)術(shù)會議[CYCA’09]論文集[C];2009年
7 王剛;鄔曉鈞;鄭方;王琳琳;張陳昊;;基于參考說話人模型和雙層結(jié)構(gòu)的說話人辨認(rèn)快速算法[A];第十一屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集(一)[C];2011年
8 李經(jīng)偉;;語體轉(zhuǎn)換與角色定位[A];全國語言與符號學(xué)研究會第五屆研討會論文摘要集[C];2002年
9 王剛;鄔曉鈞;鄭方;王琳琳;張陳昊;;基于參考說話人模型和雙層結(jié)構(gòu)的說話人辨認(rèn)[A];第十一屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集(二)[C];2011年
10 何磊;方棣棠;吳文虎;;說話人聚類與模型自適應(yīng)結(jié)合的說話人自適應(yīng)方法[A];第六屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集[C];2001年
中國重要報紙全文數(shù)據(jù)庫 前3條
1 ;做一名積極的傾聽者[N];中國紡織報;2003年
2 唐志強(qiáng);不聽別人說話,也能模仿其口音[N];新華每日電訊;2010年
3 黃惠慧(南京師范大學(xué)附屬揚(yáng)子中學(xué));高考聽力要求及對策[N];中國教育資訊報;2002年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 李洪儒;語句中的說話人形象[D];黑龍江大學(xué);2003年
2 李威;多人會話語音中的說話人角色分析[D];華南理工大學(xué);2015年
3 楊繼臣;說話人信息分析及其在多媒體檢索中的應(yīng)用研究[D];華南理工大學(xué);2010年
4 鄭建煒;基于核方法的說話人辨認(rèn)模型研究[D];浙江工業(yè)大學(xué);2010年
5 呂聲;說話人轉(zhuǎn)換方法的研究[D];華南理工大學(xué);2004年
6 陳凌輝;說話人轉(zhuǎn)換建模方法研究[D];中國科學(xué)技術(shù)大學(xué);2013年
7 玄成君;基于語音頻率特性抑制音素影響的說話人特征提取[D];天津大學(xué);2014年
8 李燕萍;說話人辨認(rèn)中的特征參數(shù)提取和魯棒性技術(shù)研究[D];南京理工大學(xué);2009年
9 徐利敏;說話人辨認(rèn)中的特征變換和魯棒性技術(shù)研究[D];南京理工大學(xué);2008年
10 王堅;語音識別中的說話人自適應(yīng)研究[D];北京郵電大學(xué);2007年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 楊浩;基于廣義音素的文本無關(guān)說話人認(rèn)證的研究[D];北京郵電大學(xué);2008年
2 解冬悅;互動韻律:英語多人沖突性話語中說話人的首音模式研究[D];大連外國語大學(xué);2015年
3 朱培;“什么X不X(的)”構(gòu)式研究[D];揚(yáng)州大學(xué);2015年
4 肖澤蘋;無線電對講語音的說話人分割聚類研究[D];北京理工大學(xué);2016年
5 王紅恬;“寧可A,也不B”句式探析[D];陜西理工學(xué)院;2016年
6 李銳;基于因子分析的說話人分離技術(shù)研究[D];中國科學(xué)技術(shù)大學(xué);2016年
7 張亞明;說話人性別識別和年齡估計的系統(tǒng)研制[D];華南理工大學(xué);2016年
8 馬悅;基于共振峰和信息成分的說話人比對研究[D];廣東外語外貿(mào)大學(xué);2016年
9 陸亮;多信道條件下的說話人認(rèn)證[D];北京郵電大學(xué);2010年
10 凌錦雯;基于多特征的說話人分割與聚類的研究[D];中國科學(xué)技術(shù)大學(xué);2011年
,本文編號:609452
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/609452.html