基于計算聽覺場景分析的單通道語音盲分離技術

發(fā)布時間：2017-05-16 12:01

本文關鍵詞：基于計算聽覺場景分析的單通道語音盲分離技術，由筆耕文化傳播整理發(fā)布。

【摘要】：作為最有效直接的交流方式,語音卻總是受到實際環(huán)境中各種干擾或噪聲的影響。但是基于人類獨特的聽覺場景分析,人耳總能妥善處理各種情況,敏銳地捕獲各種特定信號。利用計算機模擬人耳的感知過程并對聽覺場景進行建模,實現(xiàn)語音分離的過程即計算聽覺場景分析(Computer Auditory Scene Analysis,CASA),已成為近年來語音信號處理領域的一個研究熱點。本文在詳細分析CASA理論知識及其經(jīng)典算法的基礎上,針對干擾信號為非語音信號和其他語音信號兩種情況,研究基于CASA的單通道語音分離問題。主要研究工作如下:針對從非語音干擾中分離語音的問題,現(xiàn)有的基于CASA的算法大多集中于對濁音分離的研究,對清音分離的研究較少。本文對基于CASA和譜減法的清音分離算法進行改進,針對原算法運算量大和清音背景噪聲估計不準確的問題,在清音分離前先通過估計聲音信號的開始和結(jié)束時刻(Onset/Offsett)找出可能存在清音的時頻區(qū)域,并利用相鄰時頻單元能量具有連續(xù)性的原理,對清音時頻塊中每一時頻單元分別進行噪聲能量估計。仿真結(jié)果表明,改進算法比原算法運算量更小,對清音分離的有效性更高。針對干擾信號也是語音即雙語音分離問題,本文提出了一種結(jié)合CASA和說話人識別的雙語音分離系統(tǒng)。利用Tandem算法實現(xiàn)濁音同時組織,基于Gammatone頻率倒譜系數(shù)(Gammatone frequency cepstral coefficients,GFCC)的聚類建立目標函數(shù)實現(xiàn)說話人識別,并通過窮舉搜索或束搜索找到最佳分組,實現(xiàn)濁音序列組織。通過Onset/Offset分析產(chǎn)生清音段,并將清音段中的清音-濁音(U-V)段和清音-清音(U-U)段分別進行處理,U-V段利用已分離的濁音二值模進行分離,U-U段則簡單均分給兩個聲源,實現(xiàn)清音分離。通過仿真實驗和性能評估驗證了所提算法的可行性和有效性。
【關鍵詞】：計算聽覺場景分析 語音分離 譜減法 清音分離 GFCC
【學位授予單位】：太原理工大學
【學位級別】：碩士
【學位授予年份】：2016
【分類號】：TN912.3
【目錄】：

摘要3-5
ABSTRACT5-10
第一章緒論10-14
1.1 語音分離研究背景與意義10-11
1.2 計算聽覺場景分析的發(fā)展歷程及研究現(xiàn)狀11-13
1.3 本論文的結(jié)構(gòu)安排13-14
第二章計算聽覺場景分析概述14-19
2.1 語音信號特征14
2.2 人耳的感知特性14-15
2.3 聽覺場景分析理論15-16
2.4 計算聽覺場景分析基礎16-19
第三章基于Tandem算法的混疊語音分離19-29
3.1 聽覺外圍處理和特征提取19-22
3.1.1 聽覺外圍處理19-21
3.1.2 特征提取21-22
3.2 給定基音周期標記二值模22-24
3.3 給定二值模估計目標基音24-25
3.4 迭代過程25-28
3.4.1 初始估計25-27
3.4.2 迭代估計27-28
3.4.3 時頻段標記28
3.5 本章小結(jié)28-29
第四章基于CASA和譜減法的清音分離改進算法29-41
4.1 系統(tǒng)結(jié)構(gòu)29-30
4.2 清音分離30-35
4.2.1 去除周期信號30-31
4.2.2 背景噪聲能量估計31-32
4.2.3 改進背景噪聲能量估計32-33
4.2.4 譜減法去除噪聲33-35
4.3 仿真實驗和性能評估35-40
4.3.1 仿真實驗35-37
4.3.2 性能評估37-40
4.4 本章小結(jié)40-41
第五章基于CASA的無監(jiān)督雙語音分離41-55
5.1 算法結(jié)構(gòu)42
5.2 GFCC特征提取42-43
5.3 濁音分離43-46
5.3.1 Tandem算法實現(xiàn)同時組織43-44
5.3.2 聚類方法實現(xiàn)序列組織44-46
5.4 清音分離46-47
5.5 仿真實驗和性能評估47-53
5.5.1 仿真實驗47-51
5.5.2 性能評估51-53
5.6 本章小結(jié)53-55
第6章總結(jié)與展望55-57
6.1 論文工作總結(jié)55-56
6.2 研究工作展望56-57
參考文獻57-63
致謝63-64
在學期間發(fā)表的學術論文64

【相似文獻】

中國期刊全文數(shù)據(jù)庫前10條

1 謝貴武;楊繼紅;肖勇;閔剛;;基于語音分段的自適應時長調(diào)整算法[J];軍事通信技術;2008年02期

2 樊建中;孫晴;楊永杰;;一種智能盲文學習機設計[J];現(xiàn)代電子技術;2010年05期

3 溫洪昌;黃應強;傅貴興;;單片機的多段語音組合錄放系統(tǒng)設計[J];單片機與嵌入式系統(tǒng)應用;2011年10期

4 張劍;袁華強;;Rhetorical-State SVM在抽取式語音摘要中的應用[J];科學技術與工程;2013年21期

5 盧堅 ,毛兵 ,孫正興 ,張福炎;一種改進的基于說話者的語音分割算法[J];軟件學報;2002年02期

6 章文義,朱杰;幾種無語音檢測噪音估計方法的比較研究[J];計算機工程與設計;2003年10期

7 林鑫;陳樺;王開志;王繼成;;語音驅(qū)動唇形自動合成算法[J];計算機工程;2007年17期

8 蔡鐵;;基于在線單類支持向量機的自適應語音活動檢測[J];深圳信息職業(yè)技術學院學報;2008年02期

9 章釗;郭武;;話者識別中結(jié)合模型和能量的語音激活檢測算法[J];小型微型計算機系統(tǒng);2010年09期

10 朱淑琴,裘雪紅;一種精確檢測語音端點的方法[J];計算機仿真;2005年03期

中國重要會議論文全文數(shù)據(jù)庫前9條

1 田野;王作英;陸大金;;基于韻律結(jié)構(gòu)信息的非語音拒識[A];第六屆全國人機語音通訊學術會議論文集[C];2001年

2 徐明;胡瑞敏;黃云森;;基于音素識別的語音評價方法[A];第二屆和諧人機環(huán)境聯(lián)合學術會議(HHME2006)——第15屆中國多媒體學術會議(NCMT'06)論文集[C];2006年

3 王歡良;韓紀慶;李海峰;王承發(fā);;面向嵌入式應用的小詞匯量語音串識別系統(tǒng)[A];第七屆全國人機語音通訊學術會議（NCMMSC7）論文集[C];2003年

4 那斯爾江·吐爾遜;吾守爾·斯拉木;麥麥提艾力;;維吾爾語大詞匯量連續(xù)語音識別研究——語音語料庫的建立[A];民族語言文字信息技術研究——第十一屆全國民族語言文字信息學術研討會論文集[C];2007年

5 簡志華;王向文;;考慮幀間信息的語音轉(zhuǎn)換算法[A];浙江省信號處理學會2012學術年會論文集[C];2012年

6 魏維;馬海燕;;一種丟失語音信包重建的新算法[A];通信理論與信號處理新進展——2005年通信理論與信號處理年會論文集[C];2005年

7 陳凡;羅四維;;一個實用語音開發(fā)應用系統(tǒng)的設計與實現(xiàn)[A];第二屆全國人機語音通訊學術會議論文集[C];1992年

8 劉紅星;戴蓓劏;陸偉;;基于圖像增強方法的共振峰諧波能量參數(shù)的語音和端點檢測[A];第九屆全國人機語音通訊學術會議論文集[C];2007年

9 林愛華;張文俊;王毅敏;;基于肌肉模型的語音驅(qū)動唇形動畫[A];第十三屆全國圖象圖形學學術會議論文集[C];2006年

中國重要報紙全文數(shù)據(jù)庫前5條

1 atvoc;數(shù)碼語音電路產(chǎn)品概述[N];電子資訊時報;2008年

2 記者李山;德用雙音素改進人工語音表達[N];科技日報;2012年

3 中國科學院自動化研究所模式識別國家重點實驗室于劍邋陶建華;個性化語音生成技術面面觀[N];計算機世界;2007年

4 江西林慧勇;語音合成芯片MSM6295及其應用[N];電子報;2006年

5 ;與“小超人”對話[N];中國計算機報;2001年

中國博士學位論文全文數(shù)據(jù)庫前10條

1 高偉勛;智能家居環(huán)境中個性化語音生成關鍵技術研究[D];東華大學;2015年

2 陶冶;文本語音匹配的研究和應用[D];山東大學;2009年

3 何俊;聲紋身份識別中非常態(tài)語音應對方法研究[D];華南理工大學;2012年

4 李冬冬;基于拓展和聚類的情感魯棒說話人識別研究[D];浙江大學;2008年

5 雙志偉;個性化語音生成研究[D];中國科學技術大學;2011年

6 古今;語音感知認證的關鍵技術研究[D];中國科學技術大學;2009年

7 彭波;Internet上語音的魯棒性傳輸研究[D];華南理工大學;2001年

8 黃湘松;基于混淆網(wǎng)絡的漢語語音檢索技術研究[D];哈爾濱工程大學;2010年

9 應娜;基于正弦語音模型的低比特率寬帶語音編碼算法的研究[D];吉林大學;2006年

10 田立斌;語音通信質(zhì)量客觀評價、有效接收及錯誤恢復算法研究[D];華南理工大學;2004年

中國碩士學位論文全文數(shù)據(jù)庫前10條

1 王明明;基于GMM和碼本映射相結(jié)合的語音轉(zhuǎn)換方法研究[D];西安建筑科技大學;2015年

2 印雪晨;宋詞朗讀呼吸信號和韻律時長研究[D];西北民族大學;2015年

3 邱一良;噪聲環(huán)境下的語音檢測方法研究[D];電子科技大學;2015年

4 朱俊梅;基于性別預分類的年齡自動估計研究[D];江蘇師范大學;2014年

5 張占松;基于DSP的語音干擾方法研究與實現(xiàn)[D];北京交通大學;2016年

6 李鵬;基于系統(tǒng)融合的語音查詢項檢索技術研究[D];解放軍信息工程大學;2015年

7 趙蓉蓉;基于計算聽覺場景分析的單通道語音盲分離技術[D];太原理工大學;2016年

8 周慧;基于PAD三維情緒模型的情感語音轉(zhuǎn)換與識別[D];西北師范大學;2009年

9 李塵一;基于聯(lián)合得分的語音置信度評估系統(tǒng)的研究與設計[D];內(nèi)蒙古大學;2006年

10 朱君波;PCA在語音檢測中的應用研究[D];浙江工業(yè)大學;2004年

本文關鍵詞：基于計算聽覺場景分析的單通道語音盲分離技術，由筆耕文化傳播整理發(fā)布。

，

本文編號：370752

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/xinxigongchenglunwen/370752.html

上一篇：基于簇結(jié)構(gòu)優(yōu)化的無線傳感器網(wǎng)絡非均勻分簇路由算法
下一篇：基于通用處理器的LTE系統(tǒng)MAC子層的設計與實現(xiàn)

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于計算聽覺場景分析的單通道語音盲分離技術