天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 碩博論文 > 信息類博士論文 >

多人會話語音中的說話人角色分析

發(fā)布時間:2017-05-16 08:10

  本文關(guān)鍵詞:多人會話語音中的說話人角色分析,由筆耕文化傳播整理發(fā)布。


【摘要】:語音處理的重點正逐步從獨白語音處理轉(zhuǎn)向多人會話語音處理。多人會話語音中出現(xiàn)了獨白語音所沒有的重要信息:說話人數(shù)、說話人角色、說話人關(guān)鍵程度、重疊語音等。這些信息對多人會話語音的語義理解和檢索非常重要。如何有效分析海量的多人會話語音并從中提取上述重要信息,已成為目前語音處理領(lǐng)域的研究熱點。本文以多人會話語音作為研究對象,重點關(guān)注多人參與的討論會語音、高峰論壇語音、領(lǐng)導(dǎo)人的新聞發(fā)布會語音及演講語音;主要研究說話人譜聚類、關(guān)鍵說話人估計、關(guān)鍵說話人同源確認(rèn)、說話人角色聚類、重疊語音檢測等問題,旨在從海量多人會話語音中提取更多的說話人信息,拓展目前語音處理系統(tǒng)的功能。本文的主要工作及貢獻(xiàn)如下:(1)針對當(dāng)前譜聚類方法對信源空間分布描述不夠準(zhǔn)確,提出一種基于模型距離的說話人譜聚類算法。利用大量說話人無關(guān)語音樣本建立一個通用背景模型,并在此通用背景模型的基礎(chǔ)上為每個語音段訓(xùn)練一個高斯混合模型,最終采用各語音段的高斯混合模型之間的距離構(gòu)建親和矩陣,在模型層實現(xiàn)說話人譜聚類。采用新聞聯(lián)播和論壇、訪談?wù)Z音作為實驗數(shù)據(jù),實驗結(jié)果表明:所提出的算法與目前基于特征矢量距離的說話人譜聚類算法相比,F值提高了6.38%,運(yùn)算速度約為后者的11.72倍。(2)在(1)的基礎(chǔ)上,通過分析說話人語音,提出一種基于多特征組合的方法估計多人會話語音中的關(guān)鍵說話人。首先,對多個特征進(jìn)行定義,并分析這些特征對關(guān)鍵說話人與其他說話人的差異;然后,提取四個有效的音頻特征,構(gòu)造一個加權(quán)判決函數(shù);最后,采用遺傳算法對各個特征權(quán)重系數(shù)進(jìn)行優(yōu)化獲得最佳加權(quán)系數(shù)。該方法無需訓(xùn)練復(fù)雜的分類器,有效實現(xiàn)多人會話語音中的關(guān)鍵說話人估計。采用三種不同類型的多人會話語音進(jìn)行評估,實驗結(jié)果表明:采用優(yōu)化后的特征權(quán)重系數(shù)估計關(guān)鍵說話人得到的平均正確率為93.3%,比文獻(xiàn)報道的主流方法提高了9.7%,比優(yōu)化前提高了4.1%。(3)對關(guān)鍵說話人語音進(jìn)行同源確認(rèn),目的是去除被誤判為關(guān)鍵說話人的非關(guān)鍵說話人語音,以及找回被誤判為非關(guān)鍵說話人的關(guān)鍵說話人語音。為此提出深層說話人矢量的概念,并闡述了深層說話人矢量的構(gòu)建方法;然后利用深層特征對關(guān)鍵說話人進(jìn)行同源確認(rèn)。同源確認(rèn)分為三個階段:1)利用淺層特征在被初判為關(guān)鍵說話人的語音里找出最有可能的關(guān)鍵說話人語音;2)利用這些關(guān)鍵說話人語音進(jìn)行深度學(xué)習(xí),訓(xùn)練深層特征和深層說話人矢量;3)使用深層說話人矢量對關(guān)鍵說話人進(jìn)行確認(rèn)。最終關(guān)鍵說話人同源確認(rèn)的錯誤接受率為1.28%,錯誤拒絕率為4.79%,該算法能有效地將關(guān)鍵說話人確認(rèn)出來。(4)在(2)的基礎(chǔ)上,為了有效分析不同類型多人會話語音中的說話人角色個數(shù)及各角色的說話人語音,定義并提取各個說話人的角色特征;然后,借鑒于半監(jiān)督學(xué)習(xí)因為帶標(biāo)簽的訓(xùn)練數(shù)據(jù)很難得到,從而利用其他任務(wù)的數(shù)據(jù)、模型、或者沒有標(biāo)簽的數(shù)據(jù)來提升算法的性能,提出利用待聚類音頻文件數(shù)據(jù)與其它音頻文件數(shù)據(jù)共同建立圖模型,并采用該圖模型上的測地距離來衡量單個音頻文件中說話人樣本之間的相似度,進(jìn)而提升無監(jiān)督聚類的性能;接著,針對層次聚類的不足,提出一種利用類內(nèi)距離控制類間合并的說話人角色聚類算法。最后,采用四種不同類型多人會話語音對說話人角色聚類方法進(jìn)行性能評估,實驗結(jié)果表明:該方法能有效解決多說話人角色聚類問題,為后續(xù)說話人檢索、說話人高層語義信息提取奠定堅實基礎(chǔ)。(5)為了消除重疊語音對多人會話語音的說話人分割聚類所產(chǎn)生的負(fù)面影響,針對目前重疊語音檢測方法所采用特征的不足,闡述短時語音分形維數(shù)特征的提取方法,分析分形維數(shù)對重疊語音與單人語音的區(qū)分性能,并提出一種基于分形維數(shù)的重疊語音檢測方法。實驗結(jié)果表明:美爾頻率倒譜系數(shù)特征與分形維數(shù)特征的結(jié)合能夠達(dá)到最高81%的重疊語音辨識率,優(yōu)于其它傳統(tǒng)特征的辨識率。綜上所述,本文以多人會話語音作為研究對象,對多人會話語音的說話人譜聚類、關(guān)鍵說話人估計及同源確認(rèn)、說話人角色聚類、重疊語音檢測等問題進(jìn)行了深入研究,并取得了一些有益的研究成果,為進(jìn)一步提高多人會話語音分析與檢索系統(tǒng)的性能奠定了基礎(chǔ)。
【關(guān)鍵詞】:說話人角色 說話人譜聚類 關(guān)鍵說話人 同源確認(rèn) 重疊語音
【學(xué)位授予單位】:華南理工大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2015
【分類號】:TN912.34
【目錄】:
  • 摘要5-7
  • ABSTRACT7-16
  • 主要縮寫對照表16-18
  • 第一章 緒論18-29
  • 1.1 選題背景及意義18-19
  • 1.2 國內(nèi)外研究現(xiàn)狀19-24
  • 1.3 實驗數(shù)據(jù)庫及實驗平臺24-26
  • 1.3.1 自建數(shù)據(jù)庫24-25
  • 1.3.2 通用數(shù)據(jù)庫25-26
  • 1.3.3 實驗平臺26
  • 1.4 論文主要工作及章節(jié)安排26-29
  • 1.4.1 論文主要工作26-27
  • 1.4.2 論文章節(jié)安排27-29
  • 第二章 基于模型距離的說話人譜聚類29-49
  • 2.1 譜聚類簡介29-35
  • 2.1.1 譜圖理論29-30
  • 2.1.2 譜圖劃分準(zhǔn)則30-32
  • 2.1.3 譜聚類算法32-35
  • 2.2 基于模型距離的說話人譜聚類35-41
  • 2.2.1 GMM-UBM-MAP結(jié)構(gòu)35-38
  • 2.2.2 有限長觀察序列的模型對概率距離38-39
  • 2.2.3 基于模型距離的親和矩陣39-40
  • 2.2.4 基于模型距離的說話人譜聚類方法40-41
  • 2.3 算法復(fù)雜度分析41-42
  • 2.4 實驗結(jié)果及分析42-48
  • 2.4.1 實驗數(shù)據(jù)42-43
  • 2.4.2 評價指標(biāo)43
  • 2.4.3 結(jié)果及分析43-48
  • 2.5 本章小結(jié)48-49
  • 第三章 基于多特征組合的關(guān)鍵說話人估計49-61
  • 3.1 特征區(qū)分性分析49-52
  • 3.2 關(guān)鍵說話人估計方法52-56
  • 3.2.1 關(guān)鍵說話人估計52-53
  • 3.2.2 特征加權(quán)系數(shù)優(yōu)化53-56
  • 3.3 實驗結(jié)果及分析56-60
  • 3.3.1 實驗設(shè)置56-57
  • 3.3.2 結(jié)果分析57-60
  • 3.4 本章小結(jié)60-61
  • 第四章 基于深層特征的關(guān)鍵說話人同源確認(rèn)61-77
  • 4.1 深度學(xué)習(xí)介紹63-66
  • 4.2 深度特征提取器構(gòu)建66-69
  • 4.3 深層說話人矢量構(gòu)建69-70
  • 4.4 基于深層特征的關(guān)鍵說話人同源確認(rèn)70-72
  • 4.4.1 關(guān)鍵說話人語音尋找71
  • 4.4.2 關(guān)鍵說話人同源確認(rèn)71-72
  • 4.5 實驗結(jié)果及分析72-76
  • 4.5.1 實驗設(shè)置72-74
  • 4.5.2 結(jié)果分析74-76
  • 4.6 本章小結(jié)76-77
  • 第五章 多說話人角色聚類77-93
  • 5.1 相關(guān)聚類及距離度量方法78-80
  • 5.1.1 分層聚類78-79
  • 5.1.2 距離度量方法79-80
  • 5.2 不同角色說話人的區(qū)分性特征80-81
  • 5.3 說話人角色聚類81-87
  • 5.3.1 改進(jìn)的測地距離82-85
  • 5.3.2 說話人聚類算法85-87
  • 5.4 實驗結(jié)果及分析87-92
  • 5.4.1 實驗設(shè)置87-89
  • 5.4.2 結(jié)果分析89-92
  • 5.5 本章小結(jié)92-93
  • 第六章 重疊語音檢測93-102
  • 6.1 特征定義93-97
  • 6.1.1 傳統(tǒng)特征93-95
  • 6.1.2 分形維數(shù)95-97
  • 6.2 重疊語音的檢測97-100
  • 6.2.1 分形維數(shù)特征的提取97-98
  • 6.2.2 重疊與非重疊語音分形維數(shù)特征差異98-99
  • 6.2.3 重疊語音檢測流程99-100
  • 6.3 實驗結(jié)果及分析100-101
  • 6.3.1 實驗設(shè)置100
  • 6.3.2 結(jié)果分析100-101
  • 6.4 本章小結(jié)101-102
  • 結(jié)論102-105
  • 研究總結(jié)102-103
  • 后續(xù)工作展望103-105
  • 參考文獻(xiàn)105-117
  • 攻讀博士學(xué)位期間取得的研究成果117-119
  • 致謝119-120
  • 附件120

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前3條

1 Jia ZHOU;Liang Wen LIAO;;Hausdorf Dimension of Quadratic Rational Julia Sets[J];Acta Mathematica Sinica(English Series);2014年02期

2 余凱;賈磊;陳雨強(qiáng);徐偉;;深度學(xué)習(xí)的昨天、今天和明天[J];計算機(jī)研究與發(fā)展;2013年09期

3 賈麗會;張修如;;分形理論及在信號處理中的應(yīng)用[J];計算機(jī)技術(shù)與發(fā)展;2007年09期

中國博士學(xué)位論文全文數(shù)據(jù)庫 前2條

1 李艷雄;自然口語語音中非文字音頻事件檢測方法研究[D];華南理工大學(xué);2009年

2 楊繼臣;說話人信息分析及其在多媒體檢索中的應(yīng)用研究[D];華南理工大學(xué);2010年


  本文關(guān)鍵詞:多人會話語音中的說話人角色分析,由筆耕文化傳播整理發(fā)布。

,

本文編號:370298

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/370298.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶f2c44***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com