天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 信息工程論文 >

說話人分割聚類中的建模方法研究

發(fā)布時間:2017-08-02 13:12

  本文關(guān)鍵詞:說話人分割聚類中的建模方法研究


  更多相關(guān)文章: 說話人分割聚類 深度神經(jīng)網(wǎng)絡(luò) 全差異空間建模 說話人類內(nèi)短時語音段差異建模 譜聚類


【摘要】:隨著互聯(lián)網(wǎng)時代的到來,以及大數(shù)據(jù)的發(fā)展,每天接受的信息大幅增長,這些信息中包含著電話通信、電視和網(wǎng)絡(luò)等語音信息,同時隨著科技的不斷發(fā)展和電子設(shè)備的大量普及,有聲郵件、語音搜索等在日常生活中扮演著越來越重要的角色。面對這些如雨后春筍般出現(xiàn)的信息,如何從中有效提取有用的信息,是目前研究的難點(diǎn)和熱點(diǎn)。說話人分割聚類融合了多種音頻處理技術(shù),并能夠?qū)崿F(xiàn)對說話人類別和說話內(nèi)容的精確管理,因此說話人分割聚類技術(shù)引起了眾多學(xué)者的興趣,比如麻省理工、法國LIMSI、劍橋、伯克利等已經(jīng)展開研究,且取得了一定成果,但是說話人分割聚類中仍有幾大難點(diǎn)難以解決,比如復(fù)雜場景下建模不準(zhǔn)確、短時語音段表示不準(zhǔn)確、聚類效率慢以及說話人數(shù)目確定困難等,本文針對這些問題展開研究,具體內(nèi)容為以下幾個方面:針對復(fù)雜場景下建模不準(zhǔn)確的問題,論文將有監(jiān)督的建模方法應(yīng)用到說話人分割聚類中,利用深度神經(jīng)網(wǎng)絡(luò)替代傳統(tǒng)建模方法提取語音信號中深層次的復(fù)雜信息,將輸出節(jié)點(diǎn)中的音素狀態(tài)作為建模初始類別數(shù),并和全差異建模相結(jié)合,從而使音素特征和說話人特征有效地解耦,最終得到對語音段更加魯棒性的表示,從而提高系統(tǒng)性能。對于短時語音段表示不準(zhǔn)確的問題,論文提出了構(gòu)造基于深度神經(jīng)網(wǎng)絡(luò)的說話人類內(nèi)短時語音段差異建模的方法,通過對存在差異的短時語音段進(jìn)行有效建模,補(bǔ)償語音段之間的差異,減少干擾信息的負(fù)面影響,從而使得低維因子向量準(zhǔn)確的包含語音段中的說話人信息,從而使得短時語音段能夠更加準(zhǔn)確地被表示。為了能夠?qū)崿F(xiàn)高效建模的目標(biāo),提高聚類效率,論文用譜聚類的方法代替原有的層次凝聚聚類,通過計算語音段間的距離,構(gòu)造基于距離的關(guān)聯(lián)矩陣,利用改進(jìn)的Eigen gap方法尋找最優(yōu)的聚類數(shù)目,確定語音段中的說話人數(shù)目,根據(jù)已經(jīng)確定的類別數(shù),通過對關(guān)聯(lián)矩陣特征結(jié)構(gòu)分布的分析,對分割后的語音段進(jìn)行聚類。譜聚類的方法不僅解決了說話人數(shù)目難以確定的問題,而且聚類速度高于傳統(tǒng)的層次凝聚聚類方法。利用本文提出的三種方法,能夠有效解決目前說話人分割聚類中存在的難點(diǎn),通過實(shí)驗(yàn)結(jié)果可以表明,系統(tǒng)性能有大幅提升。
【關(guān)鍵詞】:說話人分割聚類 深度神經(jīng)網(wǎng)絡(luò) 全差異空間建模 說話人類內(nèi)短時語音段差異建模 譜聚類
【學(xué)位授予單位】:中國科學(xué)技術(shù)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TN912.3
【目錄】:
  • 摘要5-6
  • ABSTRACT6-13
  • 第一章 緒論13-21
  • 1.1 說話人分割聚類簡介13-16
  • 1.1.1 說話人分割聚類研究背景13-14
  • 1.1.2 國內(nèi)外研究現(xiàn)狀14-16
  • 1.2 NIST SRE數(shù)據(jù)庫16-17
  • 1.3 評價指標(biāo)17-18
  • 1.4 論文結(jié)構(gòu)18-21
  • 第二章 基于全差異空間的說話人分割聚類系統(tǒng)21-37
  • 2.1 系統(tǒng)簡介21
  • 2.2 說話人分割與聚類21-26
  • 2.2.1 貝葉斯信息準(zhǔn)則22-23
  • 2.2.2 說話人分割23-24
  • 2.2.3 說話人聚類24-25
  • 2.2.4 重分割25-26
  • 2.3 模型訓(xùn)練26-30
  • 2.3.1 高斯混合模型26-28
  • 2.3.2 說話人自適應(yīng)28-30
  • 2.4 全差異空間30-33
  • 2.5 iVector在說話人分割聚類中的應(yīng)用33-34
  • 2.6 實(shí)驗(yàn)34-35
  • 2.7 本章小結(jié)35-37
  • 第三章 基于DNN的全差異空間建模37-51
  • 3.1 引言37
  • 3.2 DNN-HMM聲學(xué)建模37-44
  • 3.2.1 受限玻爾茲曼機(jī)和深層置信網(wǎng)絡(luò)訓(xùn)練算法38-41
  • 3.2.2 DNN訓(xùn)練算法41-43
  • 3.2.3 深度神經(jīng)網(wǎng)絡(luò)在聲學(xué)模型中的應(yīng)用43-44
  • 3.3 全差異空間建模44-47
  • 3.3.1 基于UBM的全差異空間建模44
  • 3.3.2 基于DNN的全差異空間建模44-47
  • 3.4 實(shí)驗(yàn)47-48
  • 3.5 本章總結(jié)48-51
  • 第四章 基于DNN的說話人類內(nèi)短時語音段差異建模51-59
  • 4.1 引言51
  • 4.2 全差異空間建模存在的問題分析51-52
  • 4.3 說話人類內(nèi)短時語音段差異補(bǔ)償和建模52-57
  • 4.3.1 U矩陣估計53-54
  • 4.3.2 說話人模型訓(xùn)練54-55
  • 4.3.3 說話人模型補(bǔ)償55-56
  • 4.3.4 說話人身份識別測試56-57
  • 4.4 實(shí)驗(yàn)57-58
  • 4.5 本章小結(jié)58-59
  • 第五章 譜聚類59-73
  • 5.1 引言59
  • 5.2 傳統(tǒng)譜聚類簡介59-65
  • 5.2.1 NJW算法流程60
  • 5.2.2 相似圖介紹60-62
  • 5.2.3 拉普拉斯圖及其性質(zhì)62-65
  • 5.3 譜聚類在說話人分割聚類中的應(yīng)用65-69
  • 5.3.1 已知說話人數(shù)目65-68
  • 5.3.2 未知說話人數(shù)目68-69
  • 5.4 實(shí)驗(yàn)69-71
  • 5.5 本章小結(jié)71-73
  • 第六章 總結(jié)與展望73-77
  • 6.1 論文工作總結(jié)73-75
  • 6.2 后續(xù)工作計劃75-77
  • 參考文獻(xiàn)77-81
  • 致謝81-83
  • 在讀期間發(fā)表的學(xué)術(shù)論文與取得的研究成果83

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 丁輝;唐振民;錢博;李燕萍;;易擴(kuò)展小樣本環(huán)境說話人辨認(rèn)系統(tǒng)的研究[J];系統(tǒng)仿真學(xué)報;2008年10期

2 劉明輝;黃中偉;熊繼平;;用于說話人辨識的評分規(guī)整[J];計算機(jī)工程與應(yīng)用;2010年12期

3 陳雪芳;楊繼臣;;一種三層判決的說話人索引算法[J];計算機(jī)工程;2012年02期

4 楊繼臣;何俊;李艷雄;;一種基于性別的說話人索引算法[J];計算機(jī)工程與科學(xué);2012年06期

5 何致遠(yuǎn),胡起秀,徐光yP;兩級決策的開集說話人辨認(rèn)方法[J];清華大學(xué)學(xué)報(自然科學(xué)版);2003年04期

6 殷啟新,韓春光,楊鑒;基于掌上電腦錄音的說話人辨認(rèn)[J];云南民族學(xué)院學(xué)報(自然科學(xué)版);2003年04期

7 呂聲,尹俊勛;同語種說話人轉(zhuǎn)換的實(shí)現(xiàn)[J];移動通信;2004年S3期

8 董明,劉加,劉潤生;快速口音自適應(yīng)的動態(tài)說話人選擇性訓(xùn)練[J];清華大學(xué)學(xué)報(自然科學(xué)版);2005年07期

9 曹敏;王浩川;;說話人自動識別技術(shù)研究[J];中州大學(xué)學(xué)報;2007年02期

10 王堅;;基于支撐向量選擇的說話人自適應(yīng)[J];中國新通信;2007年11期

中國重要會議論文全文數(shù)據(jù)庫 前10條

1 司羅;胡起秀;金琴;;完全無監(jiān)督的雙人對話中的說話人分隔[A];第九屆全國信號處理學(xué)術(shù)年會(CCSP-99)論文集[C];1999年

2 金乃高;侯剛;王學(xué)輝;李非墨;;基于主動感知的音視頻聯(lián)合說話人跟蹤方法[A];2010年通信理論與信號處理學(xué)術(shù)年會論文集[C];2010年

3 馬勇;鮑長春;夏丙寅;;基于辨別性深度信念網(wǎng)絡(luò)的說話人分割[A];第十二屆全國人機(jī)語音通訊學(xué)術(shù)會議(NCMMSC'2013)論文集[C];2013年

4 白俊梅;張樹武;徐波;;廣播電視中的目標(biāo)說話人跟蹤技術(shù)[A];第八屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集[C];2005年

5 索宏彬;劉曉星;;基于高斯混合模型的說話人跟蹤系統(tǒng)[A];第八屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集[C];2005年

6 羅海風(fēng);龍長才;;多話者環(huán)境下說話人辨識聽覺線索研究[A];中國聲學(xué)學(xué)會2009年青年學(xué)術(shù)會議[CYCA’09]論文集[C];2009年

7 王剛;鄔曉鈞;鄭方;王琳琳;張陳昊;;基于參考說話人模型和雙層結(jié)構(gòu)的說話人辨認(rèn)快速算法[A];第十一屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集(一)[C];2011年

8 李經(jīng)偉;;語體轉(zhuǎn)換與角色定位[A];全國語言與符號學(xué)研究會第五屆研討會論文摘要集[C];2002年

9 王剛;鄔曉鈞;鄭方;王琳琳;張陳昊;;基于參考說話人模型和雙層結(jié)構(gòu)的說話人辨認(rèn)[A];第十一屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集(二)[C];2011年

10 何磊;方棣棠;吳文虎;;說話人聚類與模型自適應(yīng)結(jié)合的說話人自適應(yīng)方法[A];第六屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集[C];2001年

中國重要報紙全文數(shù)據(jù)庫 前3條

1 ;做一名積極的傾聽者[N];中國紡織報;2003年

2 唐志強(qiáng);不聽別人說話,也能模仿其口音[N];新華每日電訊;2010年

3 黃惠慧(南京師范大學(xué)附屬揚(yáng)子中學(xué));高考聽力要求及對策[N];中國教育資訊報;2002年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 李洪儒;語句中的說話人形象[D];黑龍江大學(xué);2003年

2 李威;多人會話語音中的說話人角色分析[D];華南理工大學(xué);2015年

3 楊繼臣;說話人信息分析及其在多媒體檢索中的應(yīng)用研究[D];華南理工大學(xué);2010年

4 鄭建煒;基于核方法的說話人辨認(rèn)模型研究[D];浙江工業(yè)大學(xué);2010年

5 呂聲;說話人轉(zhuǎn)換方法的研究[D];華南理工大學(xué);2004年

6 陳凌輝;說話人轉(zhuǎn)換建模方法研究[D];中國科學(xué)技術(shù)大學(xué);2013年

7 玄成君;基于語音頻率特性抑制音素影響的說話人特征提取[D];天津大學(xué);2014年

8 李燕萍;說話人辨認(rèn)中的特征參數(shù)提取和魯棒性技術(shù)研究[D];南京理工大學(xué);2009年

9 徐利敏;說話人辨認(rèn)中的特征變換和魯棒性技術(shù)研究[D];南京理工大學(xué);2008年

10 王堅;語音識別中的說話人自適應(yīng)研究[D];北京郵電大學(xué);2007年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 楊浩;基于廣義音素的文本無關(guān)說話人認(rèn)證的研究[D];北京郵電大學(xué);2008年

2 解冬悅;互動韻律:英語多人沖突性話語中說話人的首音模式研究[D];大連外國語大學(xué);2015年

3 朱培;“什么X不X(的)”構(gòu)式研究[D];揚(yáng)州大學(xué);2015年

4 肖澤蘋;無線電對講語音的說話人分割聚類研究[D];北京理工大學(xué);2016年

5 王紅恬;“寧可A,也不B”句式探析[D];陜西理工學(xué)院;2016年

6 李銳;基于因子分析的說話人分離技術(shù)研究[D];中國科學(xué)技術(shù)大學(xué);2016年

7 張亞明;說話人性別識別和年齡估計的系統(tǒng)研制[D];華南理工大學(xué);2016年

8 馬悅;基于共振峰和信息成分的說話人比對研究[D];廣東外語外貿(mào)大學(xué);2016年

9 陸亮;多信道條件下的說話人認(rèn)證[D];北京郵電大學(xué);2010年

10 凌錦雯;基于多特征的說話人分割與聚類的研究[D];中國科學(xué)技術(shù)大學(xué);2011年

,

本文編號:609452

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/609452.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶45f7b***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com