當(dāng)前位置：主頁 > 科技論文 > 網(wǎng)絡(luò)通信論文 >

單通道語音分離關(guān)鍵技術(shù)研究

發(fā)布時(shí)間：2017-08-03 22:09

本文關(guān)鍵詞：單通道語音分離關(guān)鍵技術(shù)研究

【摘要】：隨著智能手機(jī)的普及,人機(jī)語音交互技術(shù)又一次迎來了發(fā)展的機(jī)會(huì),如何讓人機(jī)語音交互變得方便高效成為近年來的研究熱點(diǎn)。語音分離作為人機(jī)語音交互技術(shù)中的核心問題,是自動(dòng)語音識(shí)別、語言自動(dòng)翻譯、說話者識(shí)別等技術(shù)的有力支撐。由于很多人機(jī)語音交互的實(shí)際應(yīng)用場景中只有一個(gè)語音輸入設(shè)備,單通道語音分離技術(shù)受到許多研究人員的關(guān)注。以聽覺場景分析理論為基礎(chǔ),研究人員提出了基于計(jì)算聽覺場景分析的單通道語音分離系統(tǒng)。這種語音分離系統(tǒng)的處理過程與人類聽覺系統(tǒng)感知語音信號(hào)的過程類似,經(jīng)過不斷的改進(jìn),取得了較好的分離效果。本文對(duì)計(jì)算聽覺場景分析的相關(guān)理論和算法進(jìn)行了研究,詳細(xì)的介紹了目前比較先進(jìn)的Hu-Wang系統(tǒng)。并在Hu-Wang提出的單通道語音分離系統(tǒng)的基礎(chǔ)上,提出了一些改進(jìn)方法,本文主要的創(chuàng)新點(diǎn)如下:1.本文通過使用數(shù)學(xué)形態(tài)學(xué)圖像處理技術(shù),對(duì)CASA系統(tǒng)進(jìn)行初步濁音分段得到的二值掩碼圖進(jìn)行了改進(jìn)。傳統(tǒng)的CASA系統(tǒng)使用固定的閾值來進(jìn)行濁音的初步分段,導(dǎo)致得到的二值掩碼圖中包含了殘余的噪聲和破損的語音。CASA系統(tǒng)后續(xù)的基音檢測和組合過程都是以這個(gè)二值掩碼圖為基礎(chǔ)的,不準(zhǔn)確的二值掩碼圖會(huì)嚴(yán)重的影響CASA系統(tǒng)的語音分離結(jié)果。本文利用數(shù)學(xué)形態(tài)學(xué)圖像處理技術(shù),在二值掩碼圖的高頻區(qū)域利用開運(yùn)算消除噪聲,在低頻區(qū)域利用閉運(yùn)算修補(bǔ)目標(biāo)語音。實(shí)驗(yàn)表明,該方法能有效的提高初步濁音分段結(jié)果中目標(biāo)語音信號(hào)的比例。2.針對(duì)Hu-wang串聯(lián)語音分離系統(tǒng)在控制迭代過程中的不足,本文提出了一種基于語音客觀評(píng)價(jià)算法改進(jìn)迭代過程的方法。具體的做法是,對(duì)每一次迭代的結(jié)果,都經(jīng)過后續(xù)的處理過程形成語音文件,將語音文件進(jìn)行p.563語音質(zhì)量檢測,通過語音質(zhì)量檢測的結(jié)果來決定是否需要再次進(jìn)行迭代。實(shí)驗(yàn)證明利用語音客觀評(píng)價(jià)方法控制迭代流程要比傳統(tǒng)方式更好。第一,客觀語音質(zhì)量評(píng)價(jià)算法可以根據(jù)每次迭代后目標(biāo)語音的MOS-LQP評(píng)分值來控制迭代過程,讓整個(gè)語音分離系統(tǒng)能夠適用于不同的使用場景和不用的需求。第二,Hu-Wang系統(tǒng)中將數(shù)據(jù)是否收斂作為終止迭代系統(tǒng)的一個(gè)指標(biāo),而語音的客觀評(píng)價(jià)標(biāo)準(zhǔn)比這個(gè)指標(biāo)更具有權(quán)威性,更適合用來控制迭代流程。
【關(guān)鍵詞】：計(jì)算聽覺場景 語音分離 音質(zhì)客觀評(píng)價(jià)算法 基音跟蹤
【學(xué)位授予單位】：電子科技大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2015
【分類號(hào)】：TN912.3
【目錄】：

摘要5-6
ABSTRACT6-10
第一章緒論10-15
1.1 選題背景及研究意義10
1.2 單通道語音分離技術(shù)的發(fā)展10-13
1.2.1 基于CASA的語音分離技術(shù)10-12
1.2.2 基于頻譜分解法的語音分離技術(shù)12-13
1.2.3 基于模型的語音分離技術(shù)13
1.3 本文主要工作13-14
1.4 本論文的結(jié)構(gòu)安排14-15
第二章計(jì)算聽覺場景分析理論概述15-24
2.1 人耳的聽覺感知系統(tǒng)15-16
2.2 語音的聽覺特性16-18
2.2.1 清、濁音與基音周期16-17
2.2.2 聲音的掩蔽效應(yīng)17-18
2.3 CASA系統(tǒng)的基本原理和目標(biāo)18-20
2.3.1 CASA系統(tǒng)的基本原理18
2.3.2 CASA系統(tǒng)的目標(biāo)18-20
2.4 CASA系統(tǒng)的分類20-21
2.4.1 數(shù)據(jù)驅(qū)動(dòng)型CASA系統(tǒng)20
2.4.2 圖式驅(qū)動(dòng)型CASA系統(tǒng)20-21
2.5 CASA單通道語音系統(tǒng)的難點(diǎn)21-22
2.6 CASA語音分離系統(tǒng)的應(yīng)用前景22-24
第三章一個(gè)典型的CASA系統(tǒng)24-42
3.1 聽覺前端處理24-26
3.2 特征提取26-29
3.2.1 自相關(guān)圖及其包絡(luò)圖26-29
3.2.2 信道之間的相關(guān)性29
3.3 分段29-31
3.3.1 清音語音的分段30
3.3.2 濁音語音的分段30-31
3.4 基音檢測31-39
3.4.1 給定目標(biāo)語音基音情況下檢測IBM32-35
3.4.2 給定IBM情況下進(jìn)行基音檢測35-37
3.4.3 迭代過程37-39
3.5 時(shí)-頻單元標(biāo)注與組合39-42
第四章基于數(shù)學(xué)形態(tài)學(xué)圖像處理的初步濁音分段42-60
4.1 引言42-43
4.2 數(shù)學(xué)形態(tài)學(xué)圖像處理簡介43-46
4.2.1 結(jié)構(gòu)元素43
4.2.2 腐蝕運(yùn)算43-45
4.2.3 膨脹運(yùn)算45-46
4.3 基于數(shù)學(xué)形態(tài)圖像處理的濁音分段46-50
4.3.1 開運(yùn)算濾除噪聲47-48
4.3.2 閉運(yùn)算修補(bǔ)語音信號(hào)48-50
4.4 算法實(shí)現(xiàn)與評(píng)估50-58
4.4.1 算法實(shí)現(xiàn)50-55
4.4.2 算法評(píng)估55-58
4.5 本章小結(jié)58-60
第五章基于單端客觀語音測量算法的CASA系統(tǒng)60-73
5.1 引言60
5.2 語音質(zhì)量評(píng)價(jià)60-63
5.3 基于單端語音測量算法對(duì)CASA系統(tǒng)的改進(jìn)63-65
5.3.1Hu-Wang串聯(lián)語音分離系統(tǒng)的迭代過程63-64
5.3.2 基于語音客觀評(píng)價(jià)方法改進(jìn)串聯(lián)語音分離系統(tǒng)的迭代過程64-65
5.4 算法實(shí)現(xiàn)與評(píng)估65-71
5.4.1 基于語音客觀評(píng)價(jià)方法改進(jìn)串聯(lián)語音分離系統(tǒng)的實(shí)現(xiàn)65-69
5.4.2 算法的評(píng)估69-71
5.5 本章小結(jié)71-73
第六章總結(jié)與展望73-75
6.1 全文研究工作總結(jié)73
6.2 展望73-75
致謝75-76
參考文獻(xiàn)76-79
攻碩期間取得的成果79-80

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫前10條

1 施劍;杜利民;;基于麥克陣列的實(shí)時(shí)盲語音分離系統(tǒng)[J];微計(jì)算機(jī)應(yīng)用;2008年05期

2 張磊;劉繼芳;項(xiàng)學(xué)智;;基于計(jì)算聽覺場景分析的混合語音分離[J];計(jì)算機(jī)工程;2010年14期

3 楊海濱;張軍;;基于模型的單通道語音分離綜述[J];計(jì)算機(jī)應(yīng)用研究;2010年11期

4 虞曉,胡光銳;基于高斯混合密度函數(shù)估計(jì)的語音分離[J];上海交通大學(xué)學(xué)報(bào);2000年01期

5 虞曉,胡光銳;基于高斯混合密度函數(shù)估計(jì)的語音分離[J];上海交通大學(xué)學(xué)報(bào);2000年02期

6 張雪峰,劉建強(qiáng),馮大政;一種快速的頻域盲語音分離系統(tǒng)[J];信號(hào)處理;2005年05期

7 陳鍇;盧晶;徐柏齡;;基于話者狀態(tài)檢測的自適應(yīng)語音分離方法的研究[J];聲學(xué)學(xué)報(bào);2006年03期

8 董優(yōu)麗;謝勤嵐;;不確定信號(hào)源個(gè)數(shù)的語音分離[J];現(xiàn)代電子技術(shù);2008年03期

9 徐方鑫;;瑞米茲交替算法在語音分離上的應(yīng)用[J];電腦知識(shí)與技術(shù);2012年03期

10 劉俊良;于鳳芹;;基于分離度變步長的自然梯度算法的語音分離[J];計(jì)算機(jī)工程與應(yīng)用;2013年21期

中國重要會(huì)議論文全文數(shù)據(jù)庫前5條

1 史曉非;王憲峰;黃耀P;劉人杰;;一個(gè)推廣參數(shù)矢量算法在語音分離中的應(yīng)用[A];中國航海學(xué)會(huì)通信導(dǎo)航專業(yè)委員會(huì)2004學(xué)術(shù)年會(huì)論文集[C];2004年

2 劉學(xué)觀;陳雪勤;趙鶴鳴;;基于改進(jìn)遺傳算法的混疊語音分離研究[A];第十屆全國信號(hào)處理學(xué)術(shù)年會(huì)（CCSP-2001）論文集[C];2001年

3 林靜然;彭啟琮;邵懷宗;;基于麥克風(fēng)陣列的雙波束近場定位及語音分離[A];第二屆全國信息獲取與處理學(xué)術(shù)會(huì)議論文集[C];2004年

4 茅泉泉;趙力;;基于MIMO的盲信道語音分離技術(shù)[A];2004年全國物理聲學(xué)會(huì)議論文集[C];2004年

5 李量;杜憶;吳璽宏;Claude Alain;;人類聽皮層在語音分離中對(duì)頻率線索和空間線索的線性整合[A];增強(qiáng)心理學(xué)服務(wù)社會(huì)的意識(shí)和功能——中國心理學(xué)會(huì)成立90周年紀(jì)念大會(huì)暨第十四屆全國心理學(xué)學(xué)術(shù)會(huì)議論文摘要集[C];2011年

中國博士學(xué)位論文全文數(shù)據(jù)庫前2條

1 趙立恒;基于計(jì)算聽覺場景分析的單聲道語音分離研究[D];中國科學(xué)技術(shù)大學(xué);2012年

2 王雨;基于計(jì)算聽覺場景分析的單通道語音分離研究[D];華東理工大學(xué);2013年

中國碩士學(xué)位論文全文數(shù)據(jù)庫前10條

1 趙訓(xùn)川;基于計(jì)算聽覺場景分析和麥克風(fēng)陣列的語音分離的研究[D];燕山大學(xué);2015年

2 何求知;單通道語音分離關(guān)鍵技術(shù)研究[D];電子科技大學(xué);2015年

3 張暉;層疊與深度神經(jīng)網(wǎng)絡(luò)研究及其在語音分離中的應(yīng)用[D];內(nèi)蒙古大學(xué);2014年

4 童開國;多聲源環(huán)境下基于聽覺中樞系統(tǒng)的語音分離研究[D];重慶郵電大學(xué);2012年

5 陳雪勤;基于計(jì)算聲場景分析的混疊語音分離研究[D];蘇州大學(xué);2002年

6 丁文;非負(fù)矩陣的分解及其在單聲道語音分離中的應(yīng)用[D];南昌大學(xué);2014年

7 汪健;基于空域?yàn)V波的語音分離研究[D];西南交通大學(xué);2011年

8 劉仙偉;卷積語音盲分離的SOPC實(shí)現(xiàn)[D];大連理工大學(xué);2011年

9 宋岳陽;基于單源欠定語音分離的音樂主旋律提取方法研究[D];北京郵電大學(xué);2012年

10 吳春;基于計(jì)算聽覺場景分析的雙說話人混合語音分離研究[D];廣西大學(xué);2014年

，

本文編號(hào)：616544

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/wltx/616544.html

上一篇：基于弱磁傳感器的電子羅盤設(shè)計(jì)及干擾補(bǔ)償算法研究
下一篇：視頻服務(wù)器在吉林電視臺(tái)播出系統(tǒng)中的技術(shù)應(yīng)用

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

單通道語音分離關(guān)鍵技術(shù)研究