基于深度學習的單通道語音分離

發(fā)布時間：2018-08-25 18:30

【摘要】：語音分離包括人聲與人聲的分離、人聲與噪聲的分離,本文主要的研究工作是人聲與噪聲的分離,也稱為語音增強。隨著人工智能的日益發(fā)展,語音交互技術在現(xiàn)實生活的應用日益廣泛,但是噪聲的干擾往往會嚴重降低語音交互性能,因此語音和噪聲的分離工作就顯得尤為重要,另外由于很多語音交互的場景是基于單麥克風的,所以近年來基于單麥克風的語音分離技術受到越來越多很多科研人員的關注。傳統(tǒng)單通道語音分離算法可分為基于無監(jiān)督的單通道語音分離和基于有監(jiān)督的單通道語音分離兩大類�；跓o監(jiān)督的單通道語音分離技術大多基于數(shù)字信號處理技術,如譜減法、維納濾波等。傳統(tǒng)基于有監(jiān)督的語音分離算法比較常用的有:基于淺層人工神經網絡的語音分離、基于非負矩陣分解(NMF)的語音分離和基于隱馬爾可夫模型(HMM)的語音分離。近年來,隨著深度神經網絡(DNN)技術的不斷發(fā)展,基于DNN的單通道語音分離技術取得了很大進展。DNN強大的非線性建模能力使得基于DNN的語音分離能取得很好的分離效果。基于DNN的單通道語音分離逐漸成為語音分離任務中一個新的發(fā)展趨勢。本文首先分析了傳統(tǒng)語音分離算法和基于DNN的語音分離算法的優(yōu)缺點,然后提出了兩種改進算法:(1)基于DNN和非負矩陣分解(NMF)的聯(lián)合優(yōu)化模型。(2)基于DNN和卷積非負矩陣分解(CNMF)的聯(lián)合優(yōu)化模型。最后通過一系列實驗證明了算法的有效性。
[Abstract]:Speech separation includes the separation of voice and voice, the separation of voice and noise. The main research work in this paper is the separation of voice and noise, also known as speech enhancement. With the development of artificial intelligence, speech interaction technology is widely used in real life, but the noise interference often seriously reduces the interactive performance of speech, so the separation of speech and noise is particularly important. In addition, because many scenes of speech interaction are based on single microphone, the technology of speech separation based on single microphone has been paid more and more attention by many researchers in recent years. Traditional single-channel speech separation algorithms can be divided into two categories: unsupervised single-channel speech separation and supervised single-channel speech separation. Unsupervised single channel speech separation techniques are mostly based on digital signal processing techniques, such as spectral subtraction, Wiener filtering and so on. The traditional speech separation algorithms based on supervised neural network are as follows: speech separation based on shallow artificial neural network, speech separation based on non-negative matrix decomposition (NMF) and speech separation based on hidden Markov model (HMM). In recent years, with the development of deep neural network (DNN) technology, the single-channel speech separation technology based on DNN has made great progress. Single channel speech separation based on DNN is becoming a new trend in speech separation task. This paper first analyzes the advantages and disadvantages of the traditional speech separation algorithm and the speech separation algorithm based on DNN. Then two improved algorithms are proposed: (1) a joint optimization model based on DNN and nonnegative matrix factorization (NMF) and (2) a joint optimization model based on DNN and convolution nonnegative matrix factorization (CNMF). Finally, the validity of the algorithm is proved by a series of experiments.
【學位授予單位】：內蒙古大學
【學位級別】：碩士
【學位授予年份】：2017
【分類號】：TN912.3

【相似文獻】

相關期刊論文前10條

1 李從清;孫立新;龍東;任曉光;;語音分離技術的研究現(xiàn)狀與展望[J];聲學技術;2008年05期

2 施劍;杜利民;;基于麥克陣列的實時盲語音分離系統(tǒng)[J];微計算機應用;2008年05期

3 張磊;劉繼芳;項學智;;基于計算聽覺場景分析的混合語音分離[J];計算機工程;2010年14期

4 楊海濱;張軍;;基于模型的單通道語音分離綜述[J];計算機應用研究;2010年11期

5 虞曉,胡光銳;基于高斯混合密度函數(shù)估計的語音分離[J];上海交通大學學報;2000年01期

6 虞曉,胡光銳;基于高斯混合密度函數(shù)估計的語音分離[J];上海交通大學學報;2000年02期

7 張雪峰,劉建強,馮大政;一種快速的頻域盲語音分離系統(tǒng)[J];信號處理;2005年05期

8 陳鍇;盧晶;徐柏齡;;基于話者狀態(tài)檢測的自適應語音分離方法的研究[J];聲學學報;2006年03期

9 董優(yōu)麗;謝勤嵐;;不確定信號源個數(shù)的語音分離[J];現(xiàn)代電子技術;2008年03期

10 徐方鑫;;瑞米茲交替算法在語音分離上的應用[J];電腦知識與技術;2012年03期

相關會議論文前5條

1 史曉非;王憲峰;黃耀P;劉人杰;;一個推廣參數(shù)矢量算法在語音分離中的應用[A];中國航海學會通信導航專業(yè)委員會2004學術年會論文集[C];2004年

2 劉學觀;陳雪勤;趙鶴鳴;;基于改進遺傳算法的混疊語音分離研究[A];第十屆全國信號處理學術年會（CCSP-2001）論文集[C];2001年

3 林靜然;彭啟琮;邵懷宗;;基于麥克風陣列的雙波束近場定位及語音分離[A];第二屆全國信息獲取與處理學術會議論文集[C];2004年

4 茅泉泉;趙力;;基于MIMO的盲信道語音分離技術[A];2004年全國物理聲學會議論文集[C];2004年

5 李量;杜憶;吳璽宏;Claude Alain;;人類聽皮層在語音分離中對頻率線索和空間線索的線性整合[A];增強心理學服務社會的意識和功能——中國心理學會成立90周年紀念大會暨第十四屆全國心理學學術會議論文摘要集[C];2011年

相關博士學位論文前3條

1 王燕南;基于深度學習的說話人無關單通道語音分離[D];中國科學技術大學;2017年

2 趙立恒;基于計算聽覺場景分析的單聲道語音分離研究[D];中國科學技術大學;2012年

3 王雨;基于計算聽覺場景分析的單通道語音分離研究[D];華東理工大學;2013年

相關碩士學位論文前10條

1 趙訓川;基于計算聽覺場景分析和麥克風陣列的語音分離的研究[D];燕山大學;2015年

2 何求知;單通道語音分離關鍵技術研究[D];電子科技大學;2015年

3 曹猛;基于計算聽覺場景分析和深度神經網絡的混響語音分離[D];太原理工大學;2016年

4 李梟雄;基于雙耳空間信息的語音分離研究[D];東南大學;2015年

5 王瑜;基于計算聽覺場景分析的三通道語音分離研究[D];燕山大學;2016年

6 王菁;基于計算聽覺場景分析的混合語音分離[D];燕山大學;2016年

7 束佳明;基于雙耳聲源定位的魯棒語音分離研究[D];東南大學;2016年

8 陳麟琳;基于機器學習的欠定語音分離方法研究[D];大連理工大學;2016年

9 李號;基于深度學習的單通道語音分離[D];內蒙古大學;2017年

10 夏莎莎;監(jiān)督性語音分離中訓練目標的研究[D];內蒙古大學;2017年

，

本文編號：2203740

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/shoufeilunwen/xixikjs/2203740.html

上一篇：基于特征的運動目標視頻檢測與跟蹤方法研究
下一篇：時域延時寬帶波束形成與通道均衡技術研究與實現(xiàn)

論文發(fā)表

·知網|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度學習的單通道語音分離