基于盲源分離的語音音樂信號分離算法的研究
本文選題:語音音樂分離 + 牛頓下山法; 參考:《江南大學(xué)》2014年碩士論文
【摘要】:語音音樂分離就是將音頻中混合的語音信號和音樂信號分離開來,分離后的信號可用于語音識別、樂器識別、音樂旋律提取和音樂流派分類等音頻分析過程,盲源分離算法是解決從混合信號中提取各個原始信號的問題的有效方法,為語音和音樂信號的分離提供了有效途徑。本文在線性瞬時混合的情況下研究了負熵最大化方法、基于時頻比的盲源分離方法和信息最大化方法,并用于語音音樂信號分離,主要工作如下: 第一,研究了基于負熵最大化改進的算法,用于適定語音音樂分離。針對負熵最大化方法中分離性能依賴于初始矩陣選取的問題,采用牛頓下山法代替牛頓迭代法做為優(yōu)化算法尋找最優(yōu)矩陣,通過改變下山因子,使目標函數(shù)呈下降趨勢,降低算法對初始值的依賴性。仿真實驗結(jié)果表明,算法在不同初始值下均能較好的分離出源信號,改進后算法平均迭代時間比改進前減少26.44%,迭代次數(shù)減少69.15%,并且迭代時間和迭代次數(shù)均在較小范圍內(nèi)波動,較好地解決了初始值敏感的問題。 第二,研究了基于時頻比改進的算法,用于適定語音音樂分離。針對基于時頻比的盲源分離將信號變換到時頻域后計算量大且對算法有效的時頻點較少的問題,用重復(fù)結(jié)構(gòu)周期內(nèi)的時頻點代替整個時頻域進行單源點的檢測。重復(fù)結(jié)構(gòu)內(nèi)的時頻點在每個周期內(nèi)都有相似的值,通過對一個周期內(nèi)時頻點的檢測,得到單源點的時頻比,對這些比值構(gòu)成的矩陣求逆就可得到對源信號的估計。仿真實驗結(jié)果表明,在達到幾乎相同相似系數(shù)的情況下,,改進后算法檢測的時頻窗減少了51.90%,運行時間減少了56.72%,降低了運算量。 第三,研究了結(jié)合經(jīng)驗?zāi)B(tài)分解和互信息最大化方法的盲分離算法,用于欠定語音音樂信號分離。針對信息最大化方法只能應(yīng)用于觀測數(shù)不少于源信號數(shù)的情況,采用經(jīng)驗?zāi)B(tài)分解和互信息最大化相結(jié)合的算法。根據(jù)重構(gòu)信號與原混合信號的相似度選取固有模態(tài)函數(shù)構(gòu)造新的信號,并與原混合信號組成新的觀測信號,將欠定盲源分離轉(zhuǎn)化為適定盲源分離,再以輸出與輸入信號之間的互信息為目標函數(shù),自然梯度法為優(yōu)化算法分離信號。仿真實驗結(jié)果表明,經(jīng)驗?zāi)B(tài)分解和互信息最大化相結(jié)合的方法能有效的解決欠定盲源分離問題。
[Abstract]:The separation of speech and music is the separation of the mixed audio signal from the music signal. The separated signal can be used in the audio analysis process such as speech recognition, musical instrument recognition, music melody extraction and music genre classification. Blind source separation (BSS) algorithm is an effective method to solve the problem of extracting the original signals from mixed signals, which provides an effective way for the separation of speech and music signals. In this paper, the negative entropy maximization method, the blind source separation method based on time-frequency ratio and the information maximization method are studied in the case of linear instantaneous mixing. The main work is as follows: Firstly, an improved algorithm based on negative entropy maximization is studied to separate speech and music. In order to solve the problem that separation performance depends on the selection of initial matrix in negative entropy maximization method, Newton downhill method is used instead of Newton iteration method to find the optimal matrix. By changing the downhill factor, the objective function presents a downward trend. The dependence of the algorithm on the initial value is reduced. The simulation results show that the algorithm can separate the source signal well under different initial values. The average iteration time of the improved algorithm is 26.44 less than that before the improvement, the iteration number is reduced 69.15, and the iteration time and number of iterations are fluctuated in a small range. The problem of sensitivity of initial value is well solved. Secondly, an improved algorithm based on time-frequency ratio is studied, which can be used to separate speech and music. In order to solve the problem that blind source separation based on time-frequency ratio can transform signals into time-frequency domain with a large amount of computation and less time frequency points which are effective to the algorithm, the time-frequency points in the cycle of repetitive structure are used instead of the whole time-frequency domain to detect the single source points. The time-frequency points in the repetitive structure have similar values in each period. By detecting the time-frequency points in a period, the time-frequency ratio of a single source point is obtained, and the estimation of the source signal can be obtained by inverse the matrix formed by these ratios. The simulation results show that the time-frequency window of the improved algorithm is reduced by 51.90, the running time is reduced by 56.72, and the computation amount is reduced. Thirdly, a blind separation algorithm combining empirical mode decomposition and mutual information maximization is proposed to separate underdetermined speech and music signals. For the information maximization method can only be applied to the case where the number of observations is not less than the number of source signals, the combination of empirical mode decomposition and mutual information maximization is adopted. According to the similarity between the reconstructed signal and the original mixed signal, the inherent mode function is selected to construct the new signal, and the new observation signal is formed with the original mixed signal. The under-determined blind source separation is transformed into the suitably blind source separation. Then the mutual information between the output and the input signal is taken as the objective function, and the natural gradient method is used as the optimization algorithm to separate the signal. Simulation results show that the combination of empirical mode decomposition and mutual information maximization can effectively solve the problem of under-determined blind source separation.
【學(xué)位授予單位】:江南大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TN912.3
【共引文獻】
相關(guān)會議論文 前2條
1 梅玉龍;陶桂蘭;;換填法墊層厚度優(yōu)化設(shè)計[A];第十二屆中國海岸工程學(xué)術(shù)討論會論文集[C];2005年
2 王婧;陳振乾;施明恒;;房間空調(diào)系統(tǒng)的動態(tài)特性及控制分析[A];中國制冷學(xué)會2007學(xué)術(shù)年會論文集[C];2007年
相關(guān)博士學(xué)位論文 前10條
1 康鋒;基于視覺特征的早期農(nóng)林火災(zāi)檢測方法的基礎(chǔ)研究[D];浙江大學(xué);2010年
2 陳聆;地球化學(xué)礦致異常非線性分析方法研究[D];成都理工大學(xué);2011年
3 金江明;活塞式壓縮機排氣量無級調(diào)節(jié)系統(tǒng)關(guān)鍵技術(shù)的研究[D];浙江大學(xué);2010年
4 陳建國;基于獨立分量分析的機械故障特征提取及分類方法研究[D];大連理工大學(xué);2011年
5 程常桂;氣膜軟接觸連鑄技術(shù)的基礎(chǔ)研究[D];上海大學(xué);2003年
6 邵振峰;基于航空立體影像對的人工目標三維提取與重建[D];武漢大學(xué);2004年
7 陳娟;長輸原油管道設(shè)計方案優(yōu)化研究[D];西南石油學(xué)院;2004年
8 孟宏睿;生態(tài)輕質(zhì)水泥基墻體材料性能及密肋復(fù)合墻體彈塑性分析模型研究[D];西安建筑科技大學(xué);2007年
9 楊燕;基于主分量和獨立分量分析的結(jié)構(gòu)信號處理和損傷識別研究[D];武漢理工大學(xué);2008年
10 王子云;長江水源熱泵換熱器研究[D];重慶大學(xué);2008年
相關(guān)碩士學(xué)位論文 前10條
1 劉繼芳;基于計算聽覺場景分析的混合語音分離研究[D];哈爾濱工程大學(xué);2009年
2 王沛;基于小波變換和EMD去噪的含噪混疊語音盲分離[D];昆明理工大學(xué);2009年
3 秦軍;Runge-Kutta法在求解微分方程模型中的應(yīng)用[D];安徽大學(xué);2010年
4 殷華;低截獲概率雷達抗同頻干擾方法研究[D];江南大學(xué);2010年
5 朱會平;機載激光雷達測量系統(tǒng)檢校與精度評價[D];河南理工大學(xué);2011年
6 高巧玲;改進的快速獨立分量分析及其在語音盲分離的應(yīng)用研究[D];湖南師范大學(xué);2011年
7 羅飛雪;基于EMD與ICA的GPS動態(tài)變形監(jiān)測數(shù)據(jù)處理方法研究[D];中南大學(xué);2011年
8 何大志;基于ARM11的便攜式伽瑪能譜儀應(yīng)用軟件開發(fā)[D];成都理工大學(xué);2011年
9 李斌;軸承腔內(nèi)油氣兩相流動與換熱特性研究[D];南京航空航天大學(xué);2010年
10 彭璇;二維波達方向估計算法及其DSP實現(xiàn)[D];華中科技大學(xué);2011年
本文編號:1975541
本文鏈接:http://sikaile.net/kejilunwen/wltx/1975541.html