基于麥克風(fēng)陣列的語(yǔ)音分離算法研究
發(fā)布時(shí)間:2021-05-07 10:06
語(yǔ)音是人類通信中最方便、快捷的形式,隨著人工智能社會(huì)的到來(lái),語(yǔ)音交互也成人機(jī)交互的第一選擇。然而在現(xiàn)實(shí)生活中,語(yǔ)音的背景環(huán)境往往是復(fù)雜且對(duì)語(yǔ)音質(zhì)量產(chǎn)生負(fù)面影響的,我們常常需要從復(fù)雜的噪聲背景中提取出我們感興趣的語(yǔ)音并且盡可能保持語(yǔ)音的保真度。目前研究者們已經(jīng)取得較多顯著的成果,但是依舊面臨著算法的魯棒性不強(qiáng)和目標(biāo)語(yǔ)音的感知質(zhì)量不夠高等問(wèn)題。本文將針對(duì)從復(fù)雜噪聲背景中提取出單目標(biāo)語(yǔ)音和多說(shuō)話人分離兩個(gè)場(chǎng)景做了一些深入的研究。首先是復(fù)雜噪聲背景中單目標(biāo)聲源的語(yǔ)音分離的研究。針對(duì)噪聲的存在特別是低信噪比的場(chǎng)景,廣義互相關(guān)(GCC)的性能嚴(yán)重下降,從而嚴(yán)重影響廣義互相關(guān)-非負(fù)矩陣分解(GCC-NMF)的分離性能。針對(duì)該情形,本文提出了新的校準(zhǔn)函數(shù)——將基于雙向長(zhǎng)短記憶網(wǎng)絡(luò)(BLSTM)學(xué)習(xí)到的理想二值掩蔽(IBM)作為新的權(quán)重因子加入的GCC-PHAT(MWGCC-PHAT)和GCC-NMF(MWGCC-NMF)。實(shí)驗(yàn)表明,MWGCC-NMF能夠分離出GCC-PHAT分離失敗的低信噪比混合語(yǔ)音。總體性能上對(duì)比GCC-NMF,SDR相對(duì)提高了25.44%,PESQ提高了14.75%,OPS提高了...
【文章來(lái)源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:70 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景和意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 語(yǔ)音增強(qiáng)
1.2.2 多說(shuō)話人分離
1.3 論文主要工作
1.4 文章結(jié)構(gòu)安排
第二章 麥克風(fēng)陣列和語(yǔ)音分離的相關(guān)理論
2.1 麥克風(fēng)陣列
2.1.1 傳播模型
2.1.1.1 遠(yuǎn)場(chǎng)傳播模型
2.1.1.2 近場(chǎng)傳播模型
2.1.2 陣列拓?fù)浣Y(jié)構(gòu)
2.1.2.1 均勻線性陣列
2.1.2.2 均勻圓形陣列
2.1.2.3 均勻球面陣列
2.2 語(yǔ)音分離
2.2.1 語(yǔ)音信號(hào)的特性
2.2.2 語(yǔ)音分離的數(shù)學(xué)模型
2.2.3 信息理論
2.2.3.1 KL散度
2.2.3.2 交叉熵
2.2.4 傳統(tǒng)語(yǔ)音分離算法
2.2.4.1 基于信號(hào)處理的語(yǔ)音增強(qiáng)
2.2.4.2 基于模型的語(yǔ)音分離方法
2.2.5 語(yǔ)音信號(hào)分離性能評(píng)價(jià)準(zhǔn)則
2.2.5.1 PEASS準(zhǔn)則
2.2.5.2 PESQ準(zhǔn)則
2.2.5.3 SNR準(zhǔn)則
2.2.5.4 BSS Eval準(zhǔn)則
第三章 基于MWGCC-NMF的語(yǔ)音分離
3.1 MWGCC-NMF系統(tǒng)架構(gòu)
3.2 基于BLSTM的Mask估計(jì)
3.2.1 訓(xùn)練
3.2.1.1 理想二值掩蔽
3.2.1.2 雙向長(zhǎng)度記憶網(wǎng)絡(luò)
3.2.1.3 訓(xùn)練集和交叉驗(yàn)證集的生成
3.2.2 測(cè)試集
3.2.3 實(shí)驗(yàn)結(jié)果和分析
3.3 MWGCC-NMF算法具體介紹
3.3.1 短時(shí)傅里葉變換及其逆變換
3.3.2 非負(fù)矩陣分解
3.3.3 Mask-Weighted的廣義互相關(guān)
3.3.4 Mask-weighted GCC-NMF和系數(shù)掩蔽
3.4 實(shí)驗(yàn)結(jié)果與分析
3.4.1 窗口閾值對(duì)分離性能的影響
3.4.2 字典矩陣的列數(shù)對(duì)分離性能的影響
3.4.3 估計(jì)的信噪比閾值對(duì)分離性能的影響
3.4.4 MWGCC-NMF整體性能的分析和對(duì)比
第四章 基于Logistic回歸選擇策略的GCC-NMF
4.1 基于Logistic回歸選擇策略的GCC-NMF系統(tǒng)架構(gòu)
4.2 多說(shuō)話人分離的GCC-NMF
4.2.1 非線性補(bǔ)償?shù)膹V義互相關(guān)
4.2.2 系數(shù)掩蔽
4.3 訓(xùn)練Logistic回歸模型
4.3.1 Logistic回歸
4.3.2 訓(xùn)練數(shù)據(jù)
4.3.3 特征選擇
4.3.4 訓(xùn)練模型
4.4 實(shí)驗(yàn)結(jié)果與分析
4.4.1 仿真實(shí)驗(yàn)
4.4.2 實(shí)采數(shù)據(jù)
4.5 可視化的基于麥克風(fēng)陣列的語(yǔ)音分離系統(tǒng)
第五章 總結(jié)與展望
5.1 總結(jié)
5.2 展望
致謝
參考文獻(xiàn)
攻讀學(xué)位期間取得的研究成果
【參考文獻(xiàn)】:
期刊論文
[1]基于聽(tīng)覺(jué)掩蔽效應(yīng)的語(yǔ)音增強(qiáng)算法[J]. 蔡軍,李飛,張毅. 計(jì)算機(jī)工程. 2017(07)
[2]基于環(huán)形麥克風(fēng)陣列的遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別系統(tǒng)[J]. 支艷利,張?jiān)苽? 微型電腦應(yīng)用. 2017(04)
[3]基于正則化約束最小二乘的穩(wěn)健頻率不變波束形成器設(shè)計(jì)方法[J]. 李靜,陳華偉. 數(shù)據(jù)采集與處理. 2012(02)
[4]基于近場(chǎng)波束形成的麥克風(fēng)陣列語(yǔ)音增強(qiáng)方法[J]. 王冬霞,殷福亮. 電子與信息學(xué)報(bào). 2007(01)
碩士論文
[1]語(yǔ)音分離算法的研究與實(shí)現(xiàn)[D]. 李雅婷.西安電子科技大學(xué) 2014
[2]語(yǔ)音盲分離算法研究[D]. 喬永鳳.太原理工大學(xué) 2007
本文編號(hào):3173209
【文章來(lái)源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:70 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景和意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 語(yǔ)音增強(qiáng)
1.2.2 多說(shuō)話人分離
1.3 論文主要工作
1.4 文章結(jié)構(gòu)安排
第二章 麥克風(fēng)陣列和語(yǔ)音分離的相關(guān)理論
2.1 麥克風(fēng)陣列
2.1.1 傳播模型
2.1.1.1 遠(yuǎn)場(chǎng)傳播模型
2.1.1.2 近場(chǎng)傳播模型
2.1.2 陣列拓?fù)浣Y(jié)構(gòu)
2.1.2.1 均勻線性陣列
2.1.2.2 均勻圓形陣列
2.1.2.3 均勻球面陣列
2.2 語(yǔ)音分離
2.2.1 語(yǔ)音信號(hào)的特性
2.2.2 語(yǔ)音分離的數(shù)學(xué)模型
2.2.3 信息理論
2.2.3.1 KL散度
2.2.3.2 交叉熵
2.2.4 傳統(tǒng)語(yǔ)音分離算法
2.2.4.1 基于信號(hào)處理的語(yǔ)音增強(qiáng)
2.2.4.2 基于模型的語(yǔ)音分離方法
2.2.5 語(yǔ)音信號(hào)分離性能評(píng)價(jià)準(zhǔn)則
2.2.5.1 PEASS準(zhǔn)則
2.2.5.2 PESQ準(zhǔn)則
2.2.5.3 SNR準(zhǔn)則
2.2.5.4 BSS Eval準(zhǔn)則
第三章 基于MWGCC-NMF的語(yǔ)音分離
3.1 MWGCC-NMF系統(tǒng)架構(gòu)
3.2 基于BLSTM的Mask估計(jì)
3.2.1 訓(xùn)練
3.2.1.1 理想二值掩蔽
3.2.1.2 雙向長(zhǎng)度記憶網(wǎng)絡(luò)
3.2.1.3 訓(xùn)練集和交叉驗(yàn)證集的生成
3.2.2 測(cè)試集
3.2.3 實(shí)驗(yàn)結(jié)果和分析
3.3 MWGCC-NMF算法具體介紹
3.3.1 短時(shí)傅里葉變換及其逆變換
3.3.2 非負(fù)矩陣分解
3.3.3 Mask-Weighted的廣義互相關(guān)
3.3.4 Mask-weighted GCC-NMF和系數(shù)掩蔽
3.4 實(shí)驗(yàn)結(jié)果與分析
3.4.1 窗口閾值對(duì)分離性能的影響
3.4.2 字典矩陣的列數(shù)對(duì)分離性能的影響
3.4.3 估計(jì)的信噪比閾值對(duì)分離性能的影響
3.4.4 MWGCC-NMF整體性能的分析和對(duì)比
第四章 基于Logistic回歸選擇策略的GCC-NMF
4.1 基于Logistic回歸選擇策略的GCC-NMF系統(tǒng)架構(gòu)
4.2 多說(shuō)話人分離的GCC-NMF
4.2.1 非線性補(bǔ)償?shù)膹V義互相關(guān)
4.2.2 系數(shù)掩蔽
4.3 訓(xùn)練Logistic回歸模型
4.3.1 Logistic回歸
4.3.2 訓(xùn)練數(shù)據(jù)
4.3.3 特征選擇
4.3.4 訓(xùn)練模型
4.4 實(shí)驗(yàn)結(jié)果與分析
4.4.1 仿真實(shí)驗(yàn)
4.4.2 實(shí)采數(shù)據(jù)
4.5 可視化的基于麥克風(fēng)陣列的語(yǔ)音分離系統(tǒng)
第五章 總結(jié)與展望
5.1 總結(jié)
5.2 展望
致謝
參考文獻(xiàn)
攻讀學(xué)位期間取得的研究成果
【參考文獻(xiàn)】:
期刊論文
[1]基于聽(tīng)覺(jué)掩蔽效應(yīng)的語(yǔ)音增強(qiáng)算法[J]. 蔡軍,李飛,張毅. 計(jì)算機(jī)工程. 2017(07)
[2]基于環(huán)形麥克風(fēng)陣列的遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別系統(tǒng)[J]. 支艷利,張?jiān)苽? 微型電腦應(yīng)用. 2017(04)
[3]基于正則化約束最小二乘的穩(wěn)健頻率不變波束形成器設(shè)計(jì)方法[J]. 李靜,陳華偉. 數(shù)據(jù)采集與處理. 2012(02)
[4]基于近場(chǎng)波束形成的麥克風(fēng)陣列語(yǔ)音增強(qiáng)方法[J]. 王冬霞,殷福亮. 電子與信息學(xué)報(bào). 2007(01)
碩士論文
[1]語(yǔ)音分離算法的研究與實(shí)現(xiàn)[D]. 李雅婷.西安電子科技大學(xué) 2014
[2]語(yǔ)音盲分離算法研究[D]. 喬永鳳.太原理工大學(xué) 2007
本文編號(hào):3173209
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/3173209.html
最近更新
教材專著