天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 碩博論文 > 信息類碩士論文 >

多人對(duì)話場(chǎng)景下的說話人分割聚類研究

發(fā)布時(shí)間:2018-01-08 16:24

  本文關(guān)鍵詞:多人對(duì)話場(chǎng)景下的說話人分割聚類研究 出處:《中國(guó)科學(xué)技術(shù)大學(xué)》2017年碩士論文 論文類型:學(xué)位論文


  更多相關(guān)文章: 說話人分割聚類 共識(shí)聚類 回歸深度神經(jīng)網(wǎng)絡(luò) 長(zhǎng)度規(guī)整的MAP算法 T_s準(zhǔn)則 改進(jìn)的T-Test度量距離


【摘要】:說話人分割聚類是對(duì)一段多人混合的連續(xù)語(yǔ)音自動(dòng)切分,獲得"什么時(shí)候誰(shuí)在說話"這個(gè)信息的技術(shù)。當(dāng)前在兩人電話對(duì)話數(shù)據(jù)上,說話人分割聚類系統(tǒng)取得了很好的性能;但是在會(huì)議、電視廣播多人對(duì)話等復(fù)雜場(chǎng)景下還是面臨著很多挑戰(zhàn),存在的問題包括:一般說話人數(shù)不定且沒有人數(shù)的先驗(yàn)信息;說話人交談時(shí)輪換快,每個(gè)說話人的語(yǔ)音長(zhǎng)度不定;語(yǔ)音中存在著多種多樣的噪聲等。如何有效的解決這些問題,提升分割聚類系統(tǒng)的魯棒性成為重要的研究方向,也是本文主要的研究?jī)?nèi)容。本文針對(duì)電視多人訪談節(jié)目中說話人分割與聚類的問題進(jìn)行研究,論文的主要工作和創(chuàng)新如下:第一,主流算法的融合改進(jìn)。在論文第二章中,在典型的分割聚類算法的基礎(chǔ)上,采用深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)取代傳統(tǒng)的貝葉斯信息量的方法來實(shí)現(xiàn)語(yǔ)音的分割,由于DNN強(qiáng)大的區(qū)分能力,提高了變化點(diǎn)檢測(cè)的準(zhǔn)確率;在聚類方面,采用了共識(shí)聚類的方法對(duì)多套系統(tǒng)進(jìn)行融合,提高了類別的純度,加強(qiáng)了初始模型的魯棒性,從而降低了系統(tǒng)的錯(cuò)誤率。第二,噪聲環(huán)境下特征降噪。在論文第三章中,利用回歸深度神經(jīng)網(wǎng)絡(luò)(Re-gression DNN)去擬合帶噪音頻的聲學(xué)特征到干凈音頻的聲學(xué)特征的映射函數(shù),用這個(gè)回歸網(wǎng)絡(luò)提取出降噪后的特征削弱了噪聲的信息,將該降噪特征用于分割聚類系統(tǒng),降低了系統(tǒng)的錯(cuò)誤率。進(jìn)一步,利用共識(shí)聚類對(duì)降噪特征和原始特征系統(tǒng)進(jìn)行融合,顯著的提升了系統(tǒng)的性能。第三,時(shí)長(zhǎng)魯棒的類別模型訓(xùn)練算法。多說話人場(chǎng)景下,每個(gè)說話人的語(yǔ)音長(zhǎng)度是不定的,在論文第四章中,針對(duì)傳統(tǒng)的最大后驗(yàn)估計(jì)(Maximum A Posteriori,MAP)得到的類別模型受類別時(shí)長(zhǎng)的影響導(dǎo)致模型參數(shù)偏移的問題,提出在MAP過程中,對(duì)相對(duì)因子根據(jù)時(shí)長(zhǎng)進(jìn)行規(guī)整,提高類別模型參數(shù)的時(shí)長(zhǎng)魯棒性。實(shí)驗(yàn)結(jié)果表明,對(duì)于歸一化交叉似然比(Normalized Cross Likelihood Ratio,NCLR)和T-Test度量距離,規(guī)整后的類別模型帶來了性能的提升。第四,高區(qū)分性的人數(shù)判定算法。在論文第五章中,圍繞人數(shù)確定進(jìn)行研究。在門限法確定人數(shù)的基礎(chǔ)上,采用Ts準(zhǔn)則確定人數(shù),該準(zhǔn)則無(wú)需在開發(fā)集設(shè)定門限,實(shí)驗(yàn)結(jié)果表明,Ts準(zhǔn)則和門限法融合提升了人數(shù)確定的準(zhǔn)確率。另外,將估計(jì)的語(yǔ)句類間類內(nèi)分布的均值與開發(fā)集門限相結(jié)合,設(shè)定自適應(yīng)的門限,提高了人數(shù)確定準(zhǔn)確率。最后,提出一種改進(jìn)的T-Test度量距離,改進(jìn)的方法詳盡的利用了似然比得分分布的統(tǒng)計(jì)信息,更具區(qū)分性,從而在人數(shù)確定上更加準(zhǔn)確。
[Abstract]:Speaker segmentation and clustering of a multi person mixed continuous automatic speech segmentation, "who said" the information technology. The two people in what time the telephone conversation data, speaker segmentation and clustering system achieves good performance; but in the meeting, television broadcasting more complex scenes or dialogue faced with many challenges, the problems include: Speaking the number of unstable and not the number of prior information; the speaker spoke fast rotation, each speaker's voice length; there is a wide range of noise speech. How to solve these problems effectively, enhance the robustness of the clustering system has become an important research direction also, the main research content of this paper. This paper makes a research on the problem for many people in the chat show television speaker segmentation and clustering, the main work and innovation are as follows: first, To improve the integration of mainstream algorithms. In the second chapter, based on the typical clustering algorithm, using depth neural network (Deep Neural Network, DNN) method to replace the traditional Bayesian information quantity to achieve speech segmentation, the ability to distinguish between strong DNN, improve the accuracy of detecting change points in; by using the method of clustering, consensus clustering fusion of multiple sets of system, improve the purity of the category, strengthen the robustness of the initial model, which reduces the error rate of the system. Second, noise characteristics and noise reduction. In the third chapter, using regression neural network (Re-gression DNN) depth to acoustic features fitting noisy audio to the mapping function of acoustic characteristics of clean audio, using the regression network feature extraction of noise after weaken the noise information, the noise reduction features for clustering system, drop Low error rate of the system. Further, the noise characteristics and the original characteristics of the system are combined by using consensus clustering, significantly improved the performance of the system. Third categories of model training algorithm. When the length of robust multi speaker scenarios, each speaker's speech length is uncertain, in the fourth chapter, in view of the traditional the maximum a posteriori (Maximum A Posteriori, MAP) impact categories model obtained by category time leads the model parameter drift problem, proposed in the MAP process, the relative factor according to the length of regular, long robust increase class model parameters. The experimental results show that the normalized cross likelihood ratio (Normalized Cross Likelihood Ratio, NCLR) and T-Test metric distance, the normalized category model brings performance improvement. Fourth, the number of pairwise independence determining algorithm. In the fifth chapter, on the number of To determine the research. In determining the number of threshold method based on Ts criterion is used to determine the number, the criterion without in the development set threshold, the experimental results show that the Ts criterion and threshold fusion to improve accuracy of the number. In addition, the estimated statement between class mean and development class distribution within the set threshold the combination of setting the adaptive threshold, increase the number to determine accuracy. Finally, this paper proposes an improved T-Test distance measurement, the improved method in detail using the likelihood ratio statistics score distribution, more distinguishable, in order to determine the number more accurately.

【學(xué)位授予單位】:中國(guó)科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TN912.3

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 劉文舉,孫兵,鐘秋海;基于說話人分類技術(shù)的分級(jí)說話人識(shí)別研究[J];電子學(xué)報(bào);2005年07期

2 丁輝;唐振民;錢博;李燕萍;;易擴(kuò)展小樣本環(huán)境說話人辨認(rèn)系統(tǒng)的研究[J];系統(tǒng)仿真學(xué)報(bào);2008年10期

3 劉明輝;黃中偉;熊繼平;;用于說話人辨識(shí)的評(píng)分規(guī)整[J];計(jì)算機(jī)工程與應(yīng)用;2010年12期

4 陳雪芳;楊繼臣;;一種三層判決的說話人索引算法[J];計(jì)算機(jī)工程;2012年02期

5 楊繼臣;何俊;李艷雄;;一種基于性別的說話人索引算法[J];計(jì)算機(jī)工程與科學(xué);2012年06期

6 何致遠(yuǎn),胡起秀,徐光yP;兩級(jí)決策的開集說話人辨認(rèn)方法[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2003年04期

7 殷啟新,韓春光,楊鑒;基于掌上電腦錄音的說話人辨認(rèn)[J];云南民族學(xué)院學(xué)報(bào)(自然科學(xué)版);2003年04期

8 呂聲,尹俊勛;同語(yǔ)種說話人轉(zhuǎn)換的實(shí)現(xiàn)[J];移動(dòng)通信;2004年S3期

9 董明,劉加,劉潤(rùn)生;快速口音自適應(yīng)的動(dòng)態(tài)說話人選擇性訓(xùn)練[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年07期

10 曹敏;王浩川;;說話人自動(dòng)識(shí)別技術(shù)研究[J];中州大學(xué)學(xué)報(bào);2007年02期

相關(guān)會(huì)議論文 前10條

1 司羅;胡起秀;金琴;;完全無(wú)監(jiān)督的雙人對(duì)話中的說話人分隔[A];第九屆全國(guó)信號(hào)處理學(xué)術(shù)年會(huì)(CCSP-99)論文集[C];1999年

2 金乃高;侯剛;王學(xué)輝;李非墨;;基于主動(dòng)感知的音視頻聯(lián)合說話人跟蹤方法[A];2010年通信理論與信號(hào)處理學(xué)術(shù)年會(huì)論文集[C];2010年

3 馬勇;鮑長(zhǎng)春;夏丙寅;;基于辨別性深度信念網(wǎng)絡(luò)的說話人分割[A];第十二屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議(NCMMSC'2013)論文集[C];2013年

4 白俊梅;張樹武;徐波;;廣播電視中的目標(biāo)說話人跟蹤技術(shù)[A];第八屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];2005年

5 索宏彬;劉曉星;;基于高斯混合模型的說話人跟蹤系統(tǒng)[A];第八屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];2005年

6 羅海風(fēng);龍長(zhǎng)才;;多話者環(huán)境下說話人辨識(shí)聽覺線索研究[A];中國(guó)聲學(xué)學(xué)會(huì)2009年青年學(xué)術(shù)會(huì)議[CYCA’09]論文集[C];2009年

7 王剛;鄔曉鈞;鄭方;王琳琳;張陳昊;;基于參考說話人模型和雙層結(jié)構(gòu)的說話人辨認(rèn)快速算法[A];第十一屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集(一)[C];2011年

8 李經(jīng)偉;;語(yǔ)體轉(zhuǎn)換與角色定位[A];全國(guó)語(yǔ)言與符號(hào)學(xué)研究會(huì)第五屆研討會(huì)論文摘要集[C];2002年

9 王剛;鄔曉鈞;鄭方;王琳琳;張陳昊;;基于參考說話人模型和雙層結(jié)構(gòu)的說話人辨認(rèn)[A];第十一屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集(二)[C];2011年

10 何磊;方棣棠;吳文虎;;說話人聚類與模型自適應(yīng)結(jié)合的說話人自適應(yīng)方法[A];第六屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];2001年

相關(guān)重要報(bào)紙文章 前3條

1 ;做一名積極的傾聽者[N];中國(guó)紡織報(bào);2003年

2 唐志強(qiáng);不聽別人說話,也能模仿其口音[N];新華每日電訊;2010年

3 黃惠慧(南京師范大學(xué)附屬揚(yáng)子中學(xué));高考聽力要求及對(duì)策[N];中國(guó)教育資訊報(bào);2002年

相關(guān)博士學(xué)位論文 前10條

1 李洪儒;語(yǔ)句中的說話人形象[D];黑龍江大學(xué);2003年

2 李威;多人會(huì)話語(yǔ)音中的說話人角色分析[D];華南理工大學(xué);2015年

3 楊繼臣;說話人信息分析及其在多媒體檢索中的應(yīng)用研究[D];華南理工大學(xué);2010年

4 鄭建煒;基于核方法的說話人辨認(rèn)模型研究[D];浙江工業(yè)大學(xué);2010年

5 呂聲;說話人轉(zhuǎn)換方法的研究[D];華南理工大學(xué);2004年

6 陳凌輝;說話人轉(zhuǎn)換建模方法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2013年

7 玄成君;基于語(yǔ)音頻率特性抑制音素影響的說話人特征提取[D];天津大學(xué);2014年

8 李燕萍;說話人辨認(rèn)中的特征參數(shù)提取和魯棒性技術(shù)研究[D];南京理工大學(xué);2009年

9 徐利敏;說話人辨認(rèn)中的特征變換和魯棒性技術(shù)研究[D];南京理工大學(xué);2008年

10 王堅(jiān);語(yǔ)音識(shí)別中的說話人自適應(yīng)研究[D];北京郵電大學(xué);2007年

相關(guān)碩士學(xué)位論文 前10條

1 楊浩;基于廣義音素的文本無(wú)關(guān)說話人認(rèn)證的研究[D];北京郵電大學(xué);2008年

2 史夢(mèng)潔;構(gòu)式“沒有比X更Y的(了)”研究[D];上海師范大學(xué);2015年

3 魏君;“說你什么好”的多角度研究[D];河北大學(xué);2015年

4 解冬悅;互動(dòng)韻律:英語(yǔ)多人沖突性話語(yǔ)中說話人的首音模式研究[D];大連外國(guó)語(yǔ)大學(xué);2015年

5 朱韋巍;揚(yáng)州街上話語(yǔ)氣詞研究[D];南京林業(yè)大學(xué);2015年

6 蔣博;特定目標(biāo)說話人的語(yǔ)音轉(zhuǎn)換系統(tǒng)設(shè)計(jì)[D];電子科技大學(xué);2015年

7 王雅丹;漢語(yǔ)反語(yǔ)研究[D];南昌大學(xué);2015年

8 陳雨鶯;基于EMD的說話人特征參數(shù)提取方法研究[D];湘潭大學(xué);2015年

9 單燕燕;變音環(huán)境下魯棒性說話人辨認(rèn)關(guān)鍵技術(shù)研究[D];南京郵電大學(xué);2015年

10 陳sネ,

本文編號(hào):1397848


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/1397848.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶4344b***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com