基于計算聽覺場景分析的單通道語音盲分離技術(shù)
本文關(guān)鍵詞:基于計算聽覺場景分析的單通道語音盲分離技術(shù),由筆耕文化傳播整理發(fā)布。
【摘要】:作為最有效直接的交流方式,語音卻總是受到實際環(huán)境中各種干擾或噪聲的影響。但是基于人類獨特的聽覺場景分析,人耳總能妥善處理各種情況,敏銳地捕獲各種特定信號。利用計算機模擬人耳的感知過程并對聽覺場景進(jìn)行建模,實現(xiàn)語音分離的過程即計算聽覺場景分析(Computer Auditory Scene Analysis,CASA),已成為近年來語音信號處理領(lǐng)域的一個研究熱點。本文在詳細(xì)分析CASA理論知識及其經(jīng)典算法的基礎(chǔ)上,針對干擾信號為非語音信號和其他語音信號兩種情況,研究基于CASA的單通道語音分離問題。主要研究工作如下:針對從非語音干擾中分離語音的問題,現(xiàn)有的基于CASA的算法大多集中于對濁音分離的研究,對清音分離的研究較少。本文對基于CASA和譜減法的清音分離算法進(jìn)行改進(jìn),針對原算法運算量大和清音背景噪聲估計不準(zhǔn)確的問題,在清音分離前先通過估計聲音信號的開始和結(jié)束時刻(Onset/Offsett)找出可能存在清音的時頻區(qū)域,并利用相鄰時頻單元能量具有連續(xù)性的原理,對清音時頻塊中每一時頻單元分別進(jìn)行噪聲能量估計。仿真結(jié)果表明,改進(jìn)算法比原算法運算量更小,對清音分離的有效性更高。針對干擾信號也是語音即雙語音分離問題,本文提出了一種結(jié)合CASA和說話人識別的雙語音分離系統(tǒng)。利用Tandem算法實現(xiàn)濁音同時組織,基于Gammatone頻率倒譜系數(shù)(Gammatone frequency cepstral coefficients,GFCC)的聚類建立目標(biāo)函數(shù)實現(xiàn)說話人識別,并通過窮舉搜索或束搜索找到最佳分組,實現(xiàn)濁音序列組織。通過Onset/Offset分析產(chǎn)生清音段,并將清音段中的清音-濁音(U-V)段和清音-清音(U-U)段分別進(jìn)行處理,U-V段利用已分離的濁音二值模進(jìn)行分離,U-U段則簡單均分給兩個聲源,實現(xiàn)清音分離。通過仿真實驗和性能評估驗證了所提算法的可行性和有效性。
【關(guān)鍵詞】:計算聽覺場景分析 語音分離 譜減法 清音分離 GFCC
【學(xué)位授予單位】:太原理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TN912.3
【目錄】:
- 摘要3-5
- ABSTRACT5-10
- 第一章 緒論10-14
- 1.1 語音分離研究背景與意義10-11
- 1.2 計算聽覺場景分析的發(fā)展歷程及研究現(xiàn)狀11-13
- 1.3 本論文的結(jié)構(gòu)安排13-14
- 第二章 計算聽覺場景分析概述14-19
- 2.1 語音信號特征14
- 2.2 人耳的感知特性14-15
- 2.3 聽覺場景分析理論15-16
- 2.4 計算聽覺場景分析基礎(chǔ)16-19
- 第三章 基于Tandem算法的混疊語音分離19-29
- 3.1 聽覺外圍處理和特征提取19-22
- 3.1.1 聽覺外圍處理19-21
- 3.1.2 特征提取21-22
- 3.2 給定基音周期標(biāo)記二值模22-24
- 3.3 給定二值模估計目標(biāo)基音24-25
- 3.4 迭代過程25-28
- 3.4.1 初始估計25-27
- 3.4.2 迭代估計27-28
- 3.4.3 時頻段標(biāo)記28
- 3.5 本章小結(jié)28-29
- 第四章 基于CASA和譜減法的清音分離改進(jìn)算法29-41
- 4.1 系統(tǒng)結(jié)構(gòu)29-30
- 4.2 清音分離30-35
- 4.2.1 去除周期信號30-31
- 4.2.2 背景噪聲能量估計31-32
- 4.2.3 改進(jìn)背景噪聲能量估計32-33
- 4.2.4 譜減法去除噪聲33-35
- 4.3 仿真實驗和性能評估35-40
- 4.3.1 仿真實驗35-37
- 4.3.2 性能評估37-40
- 4.4 本章小結(jié)40-41
- 第五章 基于CASA的無監(jiān)督雙語音分離41-55
- 5.1 算法結(jié)構(gòu)42
- 5.2 GFCC特征提取42-43
- 5.3 濁音分離43-46
- 5.3.1 Tandem算法實現(xiàn)同時組織43-44
- 5.3.2 聚類方法實現(xiàn)序列組織44-46
- 5.4 清音分離46-47
- 5.5 仿真實驗和性能評估47-53
- 5.5.1 仿真實驗47-51
- 5.5.2 性能評估51-53
- 5.6 本章小結(jié)53-55
- 第6章 總結(jié)與展望55-57
- 6.1 論文工作總結(jié)55-56
- 6.2 研究工作展望56-57
- 參考文獻(xiàn)57-63
- 致謝63-64
- 在學(xué)期間發(fā)表的學(xué)術(shù)論文64
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 謝貴武;楊繼紅;肖勇;閔剛;;基于語音分段的自適應(yīng)時長調(diào)整算法[J];軍事通信技術(shù);2008年02期
2 樊建中;孫晴;楊永杰;;一種智能盲文學(xué)習(xí)機設(shè)計[J];現(xiàn)代電子技術(shù);2010年05期
3 溫洪昌;黃應(yīng)強;傅貴興;;單片機的多段語音組合錄放系統(tǒng)設(shè)計[J];單片機與嵌入式系統(tǒng)應(yīng)用;2011年10期
4 張劍;袁華強;;Rhetorical-State SVM在抽取式語音摘要中的應(yīng)用[J];科學(xué)技術(shù)與工程;2013年21期
5 盧堅 ,毛兵 ,孫正興 ,張福炎;一種改進(jìn)的基于說話者的語音分割算法[J];軟件學(xué)報;2002年02期
6 章文義,朱杰;幾種無語音檢測噪音估計方法的比較研究[J];計算機工程與設(shè)計;2003年10期
7 林鑫;陳樺;王開志;王繼成;;語音驅(qū)動唇形自動合成算法[J];計算機工程;2007年17期
8 蔡鐵;;基于在線單類支持向量機的自適應(yīng)語音活動檢測[J];深圳信息職業(yè)技術(shù)學(xué)院學(xué)報;2008年02期
9 章釗;郭武;;話者識別中結(jié)合模型和能量的語音激活檢測算法[J];小型微型計算機系統(tǒng);2010年09期
10 朱淑琴,裘雪紅;一種精確檢測語音端點的方法[J];計算機仿真;2005年03期
中國重要會議論文全文數(shù)據(jù)庫 前9條
1 田野;王作英;陸大金;;基于韻律結(jié)構(gòu)信息的非語音拒識[A];第六屆全國人機語音通訊學(xué)術(shù)會議論文集[C];2001年
2 徐明;胡瑞敏;黃云森;;基于音素識別的語音評價方法[A];第二屆和諧人機環(huán)境聯(lián)合學(xué)術(shù)會議(HHME2006)——第15屆中國多媒體學(xué)術(shù)會議(NCMT'06)論文集[C];2006年
3 王歡良;韓紀(jì)慶;李海峰;王承發(fā);;面向嵌入式應(yīng)用的小詞匯量語音串識別系統(tǒng)[A];第七屆全國人機語音通訊學(xué)術(shù)會議(NCMMSC7)論文集[C];2003年
4 那斯?fàn)柦ね聽栠d;吾守爾·斯拉木;麥麥提艾力;;維吾爾語大詞匯量連續(xù)語音識別研究——語音語料庫的建立[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會論文集[C];2007年
5 簡志華;王向文;;考慮幀間信息的語音轉(zhuǎn)換算法[A];浙江省信號處理學(xué)會2012學(xué)術(shù)年會論文集[C];2012年
6 魏維;馬海燕;;一種丟失語音信包重建的新算法[A];通信理論與信號處理新進(jìn)展——2005年通信理論與信號處理年會論文集[C];2005年
7 陳凡;羅四維;;一個實用語音開發(fā)應(yīng)用系統(tǒng)的設(shè)計與實現(xiàn)[A];第二屆全國人機語音通訊學(xué)術(shù)會議論文集[C];1992年
8 劉紅星;戴蓓劏;陸偉;;基于圖像增強方法的共振峰諧波能量參數(shù)的語音和端點檢測[A];第九屆全國人機語音通訊學(xué)術(shù)會議論文集[C];2007年
9 林愛華;張文俊;王毅敏;;基于肌肉模型的語音驅(qū)動唇形動畫[A];第十三屆全國圖象圖形學(xué)學(xué)術(shù)會議論文集[C];2006年
中國重要報紙全文數(shù)據(jù)庫 前5條
1 atvoc;數(shù)碼語音電路產(chǎn)品概述[N];電子資訊時報;2008年
2 記者 李山;德用雙音素改進(jìn)人工語音表達(dá)[N];科技日報;2012年
3 中國科學(xué)院自動化研究所模式識別國家重點實驗室 于劍邋陶建華;個性化語音生成技術(shù)面面觀[N];計算機世界;2007年
4 江西 林慧勇;語音合成芯片MSM6295及其應(yīng)用[N];電子報;2006年
5 ;與“小超人”對話[N];中國計算機報;2001年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 高偉勛;智能家居環(huán)境中個性化語音生成關(guān)鍵技術(shù)研究[D];東華大學(xué);2015年
2 陶冶;文本語音匹配的研究和應(yīng)用[D];山東大學(xué);2009年
3 何俊;聲紋身份識別中非常態(tài)語音應(yīng)對方法研究[D];華南理工大學(xué);2012年
4 李冬冬;基于拓展和聚類的情感魯棒說話人識別研究[D];浙江大學(xué);2008年
5 雙志偉;個性化語音生成研究[D];中國科學(xué)技術(shù)大學(xué);2011年
6 古今;語音感知認(rèn)證的關(guān)鍵技術(shù)研究[D];中國科學(xué)技術(shù)大學(xué);2009年
7 彭波;Internet上語音的魯棒性傳輸研究[D];華南理工大學(xué);2001年
8 黃湘松;基于混淆網(wǎng)絡(luò)的漢語語音檢索技術(shù)研究[D];哈爾濱工程大學(xué);2010年
9 應(yīng)娜;基于正弦語音模型的低比特率寬帶語音編碼算法的研究[D];吉林大學(xué);2006年
10 田立斌;語音通信質(zhì)量客觀評價、有效接收及錯誤恢復(fù)算法研究[D];華南理工大學(xué);2004年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 王明明;基于GMM和碼本映射相結(jié)合的語音轉(zhuǎn)換方法研究[D];西安建筑科技大學(xué);2015年
2 印雪晨;宋詞朗讀呼吸信號和韻律時長研究[D];西北民族大學(xué);2015年
3 邱一良;噪聲環(huán)境下的語音檢測方法研究[D];電子科技大學(xué);2015年
4 朱俊梅;基于性別預(yù)分類的年齡自動估計研究[D];江蘇師范大學(xué);2014年
5 張占松;基于DSP的語音干擾方法研究與實現(xiàn)[D];北京交通大學(xué);2016年
6 李鵬;基于系統(tǒng)融合的語音查詢項檢索技術(shù)研究[D];解放軍信息工程大學(xué);2015年
7 趙蓉蓉;基于計算聽覺場景分析的單通道語音盲分離技術(shù)[D];太原理工大學(xué);2016年
8 周慧;基于PAD三維情緒模型的情感語音轉(zhuǎn)換與識別[D];西北師范大學(xué);2009年
9 李塵一;基于聯(lián)合得分的語音置信度評估系統(tǒng)的研究與設(shè)計[D];內(nèi)蒙古大學(xué);2006年
10 朱君波;PCA在語音檢測中的應(yīng)用研究[D];浙江工業(yè)大學(xué);2004年
本文關(guān)鍵詞:基于計算聽覺場景分析的單通道語音盲分離技術(shù),由筆耕文化傳播整理發(fā)布。
,本文編號:370752
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/370752.html