說話人分割聚類中的建模方法研究

發(fā)布時間：2017-08-02 13:12

本文關(guān)鍵詞：說話人分割聚類中的建模方法研究

【摘要】：隨著互聯(lián)網(wǎng)時代的到來,以及大數(shù)據(jù)的發(fā)展,每天接受的信息大幅增長,這些信息中包含著電話通信、電視和網(wǎng)絡(luò)等語音信息,同時隨著科技的不斷發(fā)展和電子設(shè)備的大量普及,有聲郵件、語音搜索等在日常生活中扮演著越來越重要的角色。面對這些如雨后春筍般出現(xiàn)的信息,如何從中有效提取有用的信息,是目前研究的難點(diǎn)和熱點(diǎn)。說話人分割聚類融合了多種音頻處理技術(shù),并能夠?qū)崿F(xiàn)對說話人類別和說話內(nèi)容的精確管理,因此說話人分割聚類技術(shù)引起了眾多學(xué)者的興趣,比如麻省理工、法國LIMSI、劍橋、伯克利等已經(jīng)展開研究,且取得了一定成果,但是說話人分割聚類中仍有幾大難點(diǎn)難以解決,比如復(fù)雜場景下建模不準(zhǔn)確、短時語音段表示不準(zhǔn)確、聚類效率慢以及說話人數(shù)目確定困難等,本文針對這些問題展開研究,具體內(nèi)容為以下幾個方面：針對復(fù)雜場景下建模不準(zhǔn)確的問題,論文將有監(jiān)督的建模方法應(yīng)用到說話人分割聚類中,利用深度神經(jīng)網(wǎng)絡(luò)替代傳統(tǒng)建模方法提取語音信號中深層次的復(fù)雜信息,將輸出節(jié)點(diǎn)中的音素狀態(tài)作為建模初始類別數(shù),并和全差異建模相結(jié)合,從而使音素特征和說話人特征有效地解耦,最終得到對語音段更加魯棒性的表示,從而提高系統(tǒng)性能。對于短時語音段表示不準(zhǔn)確的問題,論文提出了構(gòu)造基于深度神經(jīng)網(wǎng)絡(luò)的說話人類內(nèi)短時語音段差異建模的方法,通過對存在差異的短時語音段進(jìn)行有效建模,補(bǔ)償語音段之間的差異,減少干擾信息的負(fù)面影響,從而使得低維因子向量準(zhǔn)確的包含語音段中的說話人信息,從而使得短時語音段能夠更加準(zhǔn)確地被表示。為了能夠?qū)崿F(xiàn)高效建模的目標(biāo),提高聚類效率,論文用譜聚類的方法代替原有的層次凝聚聚類,通過計算語音段間的距離,構(gòu)造基于距離的關(guān)聯(lián)矩陣,利用改進(jìn)的Eigen gap方法尋找最優(yōu)的聚類數(shù)目,確定語音段中的說話人數(shù)目,根據(jù)已經(jīng)確定的類別數(shù),通過對關(guān)聯(lián)矩陣特征結(jié)構(gòu)分布的分析,對分割后的語音段進(jìn)行聚類。譜聚類的方法不僅解決了說話人數(shù)目難以確定的問題,而且聚類速度高于傳統(tǒng)的層次凝聚聚類方法。利用本文提出的三種方法,能夠有效解決目前說話人分割聚類中存在的難點(diǎn),通過實(shí)驗(yàn)結(jié)果可以表明,系統(tǒng)性能有大幅提升。
【關(guān)鍵詞】：說話人分割聚類 深度神經(jīng)網(wǎng)絡(luò) 全差異空間建模 說話人類內(nèi)短時語音段差異建模 譜聚類
【學(xué)位授予單位】：中國科學(xué)技術(shù)大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2016
【分類號】：TN912.3
【目錄】：

摘要5-6
ABSTRACT6-13
第一章緒論13-21
1.1 說話人分割聚類簡介13-16
1.1.1 說話人分割聚類研究背景13-14
1.1.2 國內(nèi)外研究現(xiàn)狀14-16
1.2 NIST SRE數(shù)據(jù)庫16-17
1.3 評價指標(biāo)17-18
1.4 論文結(jié)構(gòu)18-21
第二章基于全差異空間的說話人分割聚類系統(tǒng)21-37
2.1 系統(tǒng)簡介21
2.2 說話人分割與聚類21-26
2.2.1 貝葉斯信息準(zhǔn)則22-23
2.2.2 說話人分割23-24
2.2.3 說話人聚類24-25
2.2.4 重分割25-26
2.3 模型訓(xùn)練26-30
2.3.1 高斯混合模型26-28
2.3.2 說話人自適應(yīng)28-30
2.4 全差異空間30-33
2.5 iVector在說話人分割聚類中的應(yīng)用33-34
2.6 實(shí)驗(yàn)34-35
2.7 本章小結(jié)35-37
第三章基于DNN的全差異空間建模37-51
3.1 引言37
3.2 DNN-HMM聲學(xué)建模37-44
3.2.1 受限玻爾茲曼機(jī)和深層置信網(wǎng)絡(luò)訓(xùn)練算法38-41
3.2.2 DNN訓(xùn)練算法41-43
3.2.3 深度神經(jīng)網(wǎng)絡(luò)在聲學(xué)模型中的應(yīng)用43-44
3.3 全差異空間建模44-47
3.3.1 基于UBM的全差異空間建模44
3.3.2 基于DNN的全差異空間建模44-47
3.4 實(shí)驗(yàn)47-48
3.5 本章總結(jié)48-51
第四章基于DNN的說話人類內(nèi)短時語音段差異建模51-59
4.1 引言51
4.2 全差異空間建模存在的問題分析51-52
4.3 說話人類內(nèi)短時語音段差異補(bǔ)償和建模52-57
4.3.1 U矩陣估計53-54
4.3.2 說話人模型訓(xùn)練54-55
4.3.3 說話人模型補(bǔ)償55-56
4.3.4 說話人身份識別測試56-57
4.4 實(shí)驗(yàn)57-58
4.5 本章小結(jié)58-59
第五章譜聚類59-73
5.1 引言59
5.2 傳統(tǒng)譜聚類簡介59-65
5.2.1 NJW算法流程60
5.2.2 相似圖介紹60-62
5.2.3 拉普拉斯圖及其性質(zhì)62-65
5.3 譜聚類在說話人分割聚類中的應(yīng)用65-69
5.3.1 已知說話人數(shù)目65-68
5.3.2 未知說話人數(shù)目68-69
5.4 實(shí)驗(yàn)69-71
5.5 本章小結(jié)71-73
第六章總結(jié)與展望73-77
6.1 論文工作總結(jié)73-75
6.2 后續(xù)工作計劃75-77
參考文獻(xiàn)77-81
致謝81-83
在讀期間發(fā)表的學(xué)術(shù)論文與取得的研究成果83

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫前10條

1 丁輝;唐振民;錢博;李燕萍;;易擴(kuò)展小樣本環(huán)境說話人辨認(rèn)系統(tǒng)的研究[J];系統(tǒng)仿真學(xué)報;2008年10期

2 劉明輝;黃中偉;熊繼平;;用于說話人辨識的評分規(guī)整[J];計算機(jī)工程與應(yīng)用;2010年12期

3 陳雪芳;楊繼臣;;一種三層判決的說話人索引算法[J];計算機(jī)工程;2012年02期

4 楊繼臣;何俊;李艷雄;;一種基于性別的說話人索引算法[J];計算機(jī)工程與科學(xué);2012年06期

5 何致遠(yuǎn),胡起秀,徐光yP;兩級決策的開集說話人辨認(rèn)方法[J];清華大學(xué)學(xué)報(自然科學(xué)版);2003年04期

6 殷啟新,韓春光,楊鑒;基于掌上電腦錄音的說話人辨認(rèn)[J];云南民族學(xué)院學(xué)報(自然科學(xué)版);2003年04期

7 呂聲,尹俊勛;同語種說話人轉(zhuǎn)換的實(shí)現(xiàn)[J];移動通信;2004年S3期

8 董明,劉加,劉潤生;快速口音自適應(yīng)的動態(tài)說話人選擇性訓(xùn)練[J];清華大學(xué)學(xué)報(自然科學(xué)版);2005年07期

9 曹敏;王浩川;;說話人自動識別技術(shù)研究[J];中州大學(xué)學(xué)報;2007年02期

10 王堅;;基于支撐向量選擇的說話人自適應(yīng)[J];中國新通信;2007年11期

中國重要會議論文全文數(shù)據(jù)庫前10條

1 司羅;胡起秀;金琴;;完全無監(jiān)督的雙人對話中的說話人分隔[A];第九屆全國信號處理學(xué)術(shù)年會（CCSP-99）論文集[C];1999年

2 金乃高;侯剛;王學(xué)輝;李非墨;;基于主動感知的音視頻聯(lián)合說話人跟蹤方法[A];2010年通信理論與信號處理學(xué)術(shù)年會論文集[C];2010年

3 馬勇;鮑長春;夏丙寅;;基于辨別性深度信念網(wǎng)絡(luò)的說話人分割[A];第十二屆全國人機(jī)語音通訊學(xué)術(shù)會議（NCMMSC'2013）論文集[C];2013年

4 白俊梅;張樹武;徐波;;廣播電視中的目標(biāo)說話人跟蹤技術(shù)[A];第八屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集[C];2005年

5 索宏彬;劉曉星;;基于高斯混合模型的說話人跟蹤系統(tǒng)[A];第八屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集[C];2005年

6 羅海風(fēng);龍長才;;多話者環(huán)境下說話人辨識聽覺線索研究[A];中國聲學(xué)學(xué)會2009年青年學(xué)術(shù)會議[CYCA’09]論文集[C];2009年

7 王剛;鄔曉鈞;鄭方;王琳琳;張陳昊;;基于參考說話人模型和雙層結(jié)構(gòu)的說話人辨認(rèn)快速算法[A];第十一屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集（一）[C];2011年

8 李經(jīng)偉;;語體轉(zhuǎn)換與角色定位[A];全國語言與符號學(xué)研究會第五屆研討會論文摘要集[C];2002年

9 王剛;鄔曉鈞;鄭方;王琳琳;張陳昊;;基于參考說話人模型和雙層結(jié)構(gòu)的說話人辨認(rèn)[A];第十一屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集（二）[C];2011年

10 何磊;方棣棠;吳文虎;;說話人聚類與模型自適應(yīng)結(jié)合的說話人自適應(yīng)方法[A];第六屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集[C];2001年

中國重要報紙全文數(shù)據(jù)庫前3條

1 ;做一名積極的傾聽者[N];中國紡織報;2003年

2 唐志強(qiáng);不聽別人說話,也能模仿其口音[N];新華每日電訊;2010年

3 黃惠慧（南京師范大學(xué)附屬揚(yáng)子中學(xué)）;高考聽力要求及對策[N];中國教育資訊報;2002年

中國博士學(xué)位論文全文數(shù)據(jù)庫前10條

1 李洪儒;語句中的說話人形象[D];黑龍江大學(xué);2003年

2 李威;多人會話語音中的說話人角色分析[D];華南理工大學(xué);2015年

3 楊繼臣;說話人信息分析及其在多媒體檢索中的應(yīng)用研究[D];華南理工大學(xué);2010年

4 鄭建煒;基于核方法的說話人辨認(rèn)模型研究[D];浙江工業(yè)大學(xué);2010年

5 呂聲;說話人轉(zhuǎn)換方法的研究[D];華南理工大學(xué);2004年

6 陳凌輝;說話人轉(zhuǎn)換建模方法研究[D];中國科學(xué)技術(shù)大學(xué);2013年

7 玄成君;基于語音頻率特性抑制音素影響的說話人特征提取[D];天津大學(xué);2014年

8 李燕萍;說話人辨認(rèn)中的特征參數(shù)提取和魯棒性技術(shù)研究[D];南京理工大學(xué);2009年

9 徐利敏;說話人辨認(rèn)中的特征變換和魯棒性技術(shù)研究[D];南京理工大學(xué);2008年

10 王堅;語音識別中的說話人自適應(yīng)研究[D];北京郵電大學(xué);2007年

中國碩士學(xué)位論文全文數(shù)據(jù)庫前10條

1 楊浩;基于廣義音素的文本無關(guān)說話人認(rèn)證的研究[D];北京郵電大學(xué);2008年

2 解冬悅;互動韻律：英語多人沖突性話語中說話人的首音模式研究[D];大連外國語大學(xué);2015年

3 朱培;“什么X不X（的）”構(gòu)式研究[D];揚(yáng)州大學(xué);2015年

4 肖澤蘋;無線電對講語音的說話人分割聚類研究[D];北京理工大學(xué);2016年

5 王紅恬;“寧可A，也不B”句式探析[D];陜西理工學(xué)院;2016年

6 李銳;基于因子分析的說話人分離技術(shù)研究[D];中國科學(xué)技術(shù)大學(xué);2016年

7 張亞明;說話人性別識別和年齡估計的系統(tǒng)研制[D];華南理工大學(xué);2016年

8 馬悅;基于共振峰和信息成分的說話人比對研究[D];廣東外語外貿(mào)大學(xué);2016年

9 陸亮;多信道條件下的說話人認(rèn)證[D];北京郵電大學(xué);2010年

10 凌錦雯;基于多特征的說話人分割與聚類的研究[D];中國科學(xué)技術(shù)大學(xué);2011年

，

本文編號：609452

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/xinxigongchenglunwen/609452.html

上一篇：基于車載自組織網(wǎng)絡(luò)的車輛路口碰撞預(yù)警算法研究
下一篇：基于Gstreamer的嵌入式流媒體傳輸系統(tǒng)的研究與實(shí)現(xiàn)

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

說話人分割聚類中的建模方法研究