天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于計(jì)算聽(tīng)覺(jué)場(chǎng)景分析的單信道語(yǔ)言分離

發(fā)布時(shí)間:2018-06-23 15:23

  本文選題:盲源分離 + 單信道語(yǔ)音分離。 參考:《北京交通大學(xué)》2014年博士論文


【摘要】:摘要:?jiǎn)涡诺勒Z(yǔ)音分離(Single-channel speech separation, SCSS)指在無(wú)法預(yù)知聲源先驗(yàn)信息的情況下,僅根據(jù)觀測(cè)到的單路混合信號(hào)恢復(fù)原聲源的過(guò)程。計(jì)算聽(tīng)覺(jué)場(chǎng)景分析(Computational auditory scene analysis, CASA)是解決該問(wèn)題的一種新方法。它通過(guò)尋找語(yǔ)音中感知相關(guān)的區(qū)分性特征實(shí)現(xiàn)語(yǔ)音分離,并避免了對(duì)噪聲特性的過(guò)多假設(shè)。 當(dāng)前,CASA的研究主要集中于兩個(gè)方向:1)數(shù)據(jù)驅(qū)動(dòng)型CASA;2)基于模型的CASA。前者主要對(duì)應(yīng)于生物快速的、本能的條件反射;而后者主要針對(duì)相對(duì)緩慢的、高層的推理過(guò)程。在應(yīng)對(duì)復(fù)雜聲場(chǎng)景時(shí),生物所具備的迅速反應(yīng)能力預(yù)示著聲源分離的工作很大程度是在底層完成的。有鑒于此,本文對(duì)數(shù)據(jù)驅(qū)動(dòng)型CASA進(jìn)行了較為深入的研究,其中主要的工作和貢獻(xiàn)如下: 1.針對(duì)短時(shí)幅度調(diào)制譜(Amplitude modulation spectrum, AMS)分辨率低的特點(diǎn),提出了一種重分配(reassignment)策略的雙話者(Co-channel)語(yǔ)音分離算法。該算法通過(guò)可變截止頻率的低通濾波器抽取出依子帶變化的幅度調(diào)制信號(hào)(Amplitude Modulation, AM);接著,將抽取出的AM信號(hào)譜(spectrum)上的每一能量點(diǎn)重新放置,有效實(shí)現(xiàn)了信號(hào)成分的會(huì)聚,并緩解了時(shí)間分辨率和頻率分辨率的矛盾。實(shí)驗(yàn)結(jié)果表明,基于重分配AMS的語(yǔ)音分離方法具有明顯改善的性能。 2.受Schroeder直方圖、Goldstein聽(tīng)覺(jué)感知理論以及Meddis'‘相關(guān)圖”(Correlo-gram)的啟發(fā),提出了一種基于“高斯圖”(Gaussgram)的多基音(multi-pitch)檢測(cè)算法。“高斯圖”通過(guò)采用可變帶寬的高斯函數(shù)修正“相關(guān)圖”得到,具有抑制次諧波(sub-harmonics)的特點(diǎn)。將其用于檢測(cè)基音,單幀基音檢測(cè)的半頻錯(cuò)誤明顯減少。另一方面,該方法采用檢測(cè)得到的主基音軌跡消除其次諧波軌跡,進(jìn)一步抑制了半頻錯(cuò)誤。系統(tǒng)評(píng)估表明,提出的多基音檢測(cè)算法具有更少的倍/半頻錯(cuò)誤。 3.提出了一種多層感知器的量化門限自適應(yīng)新方法,從而給出一種改進(jìn)的多層感知器(Multi-layer perceptron,MLP)。將該MLP嵌入CASA計(jì)算框架,可以提高系統(tǒng)在訓(xùn)練和測(cè)試信噪比(Signal-to-noise ratio, SNR)不匹配條件下的魯棒性,減少性能的下滑。對(duì)比實(shí)驗(yàn)表明,該方法可以改善分離系統(tǒng)在不同SNR下的性能。
[Abstract]:Absrtact: Single-channel speech separation (SCSs) refers to the process of recovering the original sound source only according to the observed single-channel mixed signal when the prior information of the sound source cannot be predicted. Computational auditory scene analysis, analysis is a new method to solve this problem. It realizes speech separation by looking for perceptual related distinguishing features in speech and avoids too many assumptions about noise characteristics. The current research on CASA is mainly focused on two directions: 1) Data-driven CASASA2) Model-based CASAA. The former mainly corresponds to the biological quick, instinctive conditioned reflex, while the latter is mainly aimed at the relatively slow, high-level reasoning process. When dealing with complex sound scenes, the rapid response ability of organisms indicates that the separation of sound sources is largely done at the bottom. In this paper, the data driven CASA is studied in depth. The main work and contributions are as follows: 1. Aiming at the low resolution of short time amplitude Modulation Spectral (Amplitude modulation spectrum, AMS), a Co-channel speech separation algorithm based on reallocation of (reassignment) strategy is proposed. In this algorithm, the Amplitude modulation (AM) signal is extracted by low-pass filter with variable cutoff frequency, and then every energy point on the extracted AM signal spectrum (spectrum) is repositioned to realize the convergence of the signal components. The contradiction between time resolution and frequency resolution is alleviated. The experimental results show that the speech separation method based on rescheduled AMS has significantly improved performance. 2. Inspired by the Schroeder histogram Goldstein auditory perception theory and the Correlo-gram, a multi-pitch detection algorithm based on Gao Si graph is proposed. The "Gao Si diagram" is obtained by modifying the "correlation diagram" by using the Gao Si function with variable bandwidth, which is characterized by subharmonic suppression (sub-harmonics). When used to detect pitch, the half-frequency error of single-frame pitch detection is obviously reduced. On the other hand, the detected principal pitch track is used to eliminate the second harmonic track and further suppress the half-frequency error. The system evaluation shows that the proposed multi-pitch detection algorithm has less multiple / half frequency errors. A new quantization threshold adaptive method for multilayer perceptron is proposed, and an improved multi-layer perceptron (MLP) is presented. By embedding the MLP into CASA framework, the robustness of the system can be improved under the condition of signal to noise ratio (SNR) mismatch, and the performance decline can be reduced. The experimental results show that the proposed method can improve the performance of the separation system under different SNR conditions.
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2014
【分類號(hào)】:TN912.3

【共引文獻(xiàn)】

相關(guān)期刊論文 前10條

1 孫升陽(yáng);沈新玉;胡柯;戴小華;孫建華;;基于粒子群算法的單機(jī)架冷軋硅鋼負(fù)荷分配的優(yōu)化方法[J];安徽冶金;2010年01期

2 張四方;;兼顧板形的單機(jī)架UCM冷軋機(jī)負(fù)荷分配的優(yōu)化方法[J];安徽冶金;2010年04期

3 張清華;周玉蘭;滕海濤;;基于粒計(jì)算的認(rèn)知模型[J];重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年04期

4 陳思;;BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)率參數(shù)改進(jìn)方法[J];長(zhǎng)春師范學(xué)院學(xué)報(bào)(自然科學(xué)版);2010年02期

5 高紅;;BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)率的優(yōu)化方法[J];長(zhǎng)春師范學(xué)院學(xué)報(bào)(自然科學(xué)版);2010年04期

6 陳思;;一種BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)率的改進(jìn)方法[J];長(zhǎng)春師范學(xué)院學(xué)報(bào)(自然科學(xué)版);2010年08期

7 劉芳;姚東泳;侯璇;錢海忠;;在線地圖的空間認(rèn)知研究[J];測(cè)繪科學(xué);2009年05期

8 段曉東;劉霞;馬艷準(zhǔn);閆帥;;基于群智能的信息認(rèn)知機(jī)制研究[J];大連民族學(xué)院學(xué)報(bào);2011年05期

9 葉炳煜;;計(jì)算機(jī)會(huì)不會(huì)有情感?[J];電腦知識(shí)與技術(shù);2009年02期

10 陳虹;湯明月;簡(jiǎn)易;;智能性網(wǎng)絡(luò)故障診斷[J];福建電腦;2010年04期

相關(guān)會(huì)議論文 前7條

1 吳強(qiáng);王煦法;;“數(shù)字水利”及其關(guān)鍵技術(shù)[A];2005年“數(shù)字安徽”博士科技論壇論文集[C];2005年

2 秦昆;孔令橋;許凱;;智能空間信息處理課程體系研究[A];2009`中國(guó)地理信息產(chǎn)業(yè)論壇暨第二屆教育論壇就業(yè)洽談會(huì)論文集[C];2009年

3 劉幺和;陳睿;彭偉;周蕾;;一種BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)率的優(yōu)化設(shè)計(jì)[A];湖北省機(jī)械工程學(xué)會(huì)機(jī)械設(shè)計(jì)與傳動(dòng)專業(yè)委員會(huì)第十五屆學(xué)術(shù)年會(huì)論文集(一)[C];2007年

4 張育銘;;思維內(nèi)涵之辨析[A];《思維科學(xué)與21世紀(jì)》學(xué)術(shù)研討會(huì)論文集[C];2010年

5 孫升陽(yáng);沈新玉;胡柯;戴小華;孫建華;;基于粒子群算法的單機(jī)架冷軋硅鋼負(fù)荷分配優(yōu)化[A];2009年全國(guó)冷軋板帶生產(chǎn)技術(shù)交流會(huì)論文集[C];2009年

6 劉艷驕;;思維科學(xué)研究方法概說(shuō)[A];首屆中醫(yī)思維科學(xué)學(xué)術(shù)研討會(huì)文集[C];2008年

7 胡旭琰;鄒月嫻;王文敏;;一種基于MDT特征補(bǔ)償?shù)脑肼曯敯粽Z(yǔ)音識(shí)別算法[A];第十二屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議(NCMMSC'2013)論文集[C];2013年

相關(guān)博士學(xué)位論文 前10條

1 王作為;具有認(rèn)知能力的智能機(jī)器人行為學(xué)習(xí)方法研究[D];哈爾濱工程大學(xué);2010年

2 勾軼;基于免疫算法和多傳感器信息融合的電機(jī)故障綜合診斷方法研究[D];沈陽(yáng)工業(yè)大學(xué);2010年

3 魏龍生;視覺(jué)信息處理中注意機(jī)制計(jì)算模型研究[D];華中科技大學(xué);2011年

4 石振國(guó);資源網(wǎng)絡(luò)的精化學(xué)習(xí)及應(yīng)用研究[D];上海大學(xué);2011年

5 任新意;1420冷連軋機(jī)板形板厚控制數(shù)理建模與仿真[D];燕山大學(xué);2012年

6 馮銳;基于案例推理的經(jīng)驗(yàn)學(xué)習(xí)研究[D];華東師范大學(xué);2011年

7 黃秀軒;混疊語(yǔ)音的計(jì)算聽(tīng)覺(jué)場(chǎng)景分析研究[D];華南理工大學(xué);2004年

8 章熙春;翹曲離散傅立葉變換算法與語(yǔ)音處理新方法研究[D];華南理工大學(xué);2005年

9 方小玲;基于非線性與復(fù)雜網(wǎng)絡(luò)方法的腦和血流動(dòng)力學(xué)研究[D];上海交通大學(xué);2007年

10 陳劍濤;認(rèn)知的自然起源與演化研究[D];華中師范大學(xué);2008年



本文編號(hào):2057573

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/wltx/2057573.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶e746a***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com