語(yǔ)音信號(hào)端點(diǎn)檢測(cè)算法的研究
本文選題:語(yǔ)音識(shí)別 + 語(yǔ)音端點(diǎn)檢測(cè); 參考:《鄭州大學(xué)》2016年碩士論文
【摘要】:在當(dāng)前信息科技時(shí)代,語(yǔ)音信號(hào)識(shí)別(ASR)技術(shù)、語(yǔ)音信號(hào)編碼(ASC)技術(shù)、及語(yǔ)音信號(hào)增強(qiáng)(ASE)技術(shù)[1]將會(huì)在安防領(lǐng)域、人機(jī)交互領(lǐng)域、通信領(lǐng)域以及未來(lái)的消費(fèi)電子產(chǎn)品領(lǐng)域[2]產(chǎn)生強(qiáng)有力的技術(shù)支撐作用。通過(guò)語(yǔ)音信號(hào)端點(diǎn)檢測(cè)技術(shù),可以準(zhǔn)確地分析出一段語(yǔ)音信號(hào)中的純語(yǔ)音信號(hào)和靜音段[3],該技術(shù)直接對(duì)ASR、ASE技術(shù)的性能和ASC技術(shù)的效率產(chǎn)生決定性影響[4]?梢杂萌齻(gè)環(huán)節(jié)來(lái)表征一個(gè)完整的語(yǔ)音端點(diǎn)檢測(cè)模型:首先,語(yǔ)音信號(hào)預(yù)處理環(huán)節(jié),包括信號(hào)濾波、語(yǔ)音流分幀以及信號(hào)加窗等[5]。其次,提取整個(gè)語(yǔ)音流的特征向量,小波分析(WA)技術(shù)的多分辨率解析特性是提取語(yǔ)音信號(hào)特征向量的極好方法[6]。最后,語(yǔ)音端點(diǎn)判別模型的建立[7]。傳統(tǒng)的語(yǔ)音端點(diǎn)檢測(cè)算法有基于時(shí)域的雙門(mén)限法、基于頻域的普熵法以及基于倒普特征的檢測(cè)方法等。針對(duì)在低信噪比和復(fù)雜的噪聲環(huán)境下,為了得到滿意的端點(diǎn)檢測(cè)效果,本文提出了基于優(yōu)化極限學(xué)習(xí)機(jī)(ELM)的端點(diǎn)檢測(cè)模型,通過(guò)優(yōu)化網(wǎng)絡(luò)連接參數(shù)以彌補(bǔ)算法本身的不足。(1)為了優(yōu)化ELM神經(jīng)網(wǎng)絡(luò)的輸入權(quán)值和隱含層偏差,結(jié)合粒子群優(yōu)化(PSO)算法,形成了粒子群優(yōu)化極限學(xué)習(xí)機(jī)(PSO-ELM)端點(diǎn)檢測(cè)模型。依靠ELM神經(jīng)網(wǎng)絡(luò)的快速學(xué)習(xí)能力,瞬間完成端點(diǎn)檢測(cè)并輸出預(yù)測(cè)結(jié)果。該算法在一定程度上優(yōu)化了網(wǎng)絡(luò)連接結(jié)構(gòu),但是仍然存在一定的缺陷。(2)為了更好的優(yōu)化ELM神經(jīng)網(wǎng)絡(luò)的連接參數(shù),最后采用自適應(yīng)步長(zhǎng)果蠅(FOAMR)算法優(yōu)化極限學(xué)習(xí)機(jī),并將優(yōu)化后算法應(yīng)用于語(yǔ)音端點(diǎn)判別模型中。在Matlab輔助軟件環(huán)境中做了大量的仿真實(shí)驗(yàn),通過(guò)實(shí)驗(yàn)結(jié)果可以得出結(jié)論,單純的ELM模型具有最好的快速性和較高的準(zhǔn)確率;PSO-ELM模型的準(zhǔn)確率有所提升但是訓(xùn)練時(shí)間最長(zhǎng);而最終基于自適應(yīng)果蠅優(yōu)化ELM模型具有最高的準(zhǔn)確率,同時(shí)具備了很好的快速性,達(dá)到了實(shí)際應(yīng)用的要求。
[Abstract]:In the age of information technology, the technology of speech signal recognition (ASR), speech signal coding (ASC) and speech signal Enhancement (ASE) will be used in the field of security and human-computer interaction.The communication field and the future consumer electronics field [2] have strong technical support function.The pure speech signal and mute segment in a speech signal can be accurately analyzed by the endpoint detection technique of speech signal. This technique has a decisive effect on the performance of ASR ASE technology and the efficiency of ASC technology [4].A complete speech endpoint detection model can be represented by three links: first, the speech signal preprocessing, including signal filtering, speech stream framing and signal windowing, etc.Secondly, extracting the feature vector of the whole speech stream and the multi-resolution analytical characteristic of the wavelet analysis (WAW) technique is an excellent method to extract the feature vector of the speech signal [6].Finally, the establishment of speech endpoint discriminant model [7].The traditional speech endpoint detection algorithms include dual threshold method based on time domain, general entropy method based on frequency domain and detection method based on inverted features.In order to obtain satisfactory endpoint detection effect in low SNR and complex noise environment, an endpoint detection model based on Elm, an optimized extreme learning machine, is proposed in this paper.In order to optimize the input weights and hidden layer deviations of the ELM neural network and combine the particle swarm optimization (PSO) algorithm, a PSO extreme learning machine (PSO ELM) endpoint detection model is formed by optimizing the network connection parameters to make up the deficiency of the algorithm.Based on the fast learning ability of ELM neural network, the endpoint detection is completed and the prediction results are output.The algorithm optimizes the network connection structure to a certain extent, but there are still some defects. In order to better optimize the connection parameters of ELM neural network, the adaptive step size FOAMR-based algorithm is used to optimize the ultimate learning machine.The optimized algorithm is applied to the speech endpoint discrimination model.A large number of simulation experiments have been done in the environment of Matlab aided software. It can be concluded from the experimental results that the pure ELM model has the best rapidity and higher accuracy. The accuracy of PSO-ELM model has been improved but the training time is the longest.Finally, the ELM model based on adaptive Drosophila optimization has the highest accuracy and rapidity, which meets the requirements of practical application.
【學(xué)位授予單位】:鄭州大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類(lèi)號(hào)】:TN912.3
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 王亞濤,樸春俊,權(quán)花紫;強(qiáng)噪音情況下的多種端點(diǎn)檢測(cè)方法研究[J];信息技術(shù);2005年02期
2 鄺航宇,張軍,韋崗;一種基于檢測(cè)元音的孤立詞端點(diǎn)檢測(cè)算法[J];電聲技術(shù);2005年03期
3 方杰;李英;錢(qián)紅;;一種連續(xù)詞端點(diǎn)檢測(cè)的改進(jìn)方法[J];電聲技術(shù);2006年08期
4 李晉;王玲;;一種改進(jìn)的孤立詞端點(diǎn)檢測(cè)方法[J];計(jì)算機(jī)工程與應(yīng)用;2006年30期
5 何清波;孔凡讓;王建平;劉永斌;;基于獨(dú)立分量分析特征提取的帶噪信號(hào)端點(diǎn)檢測(cè)[J];數(shù)據(jù)采集與處理;2007年01期
6 董胡;錢(qián)盛友;;一種基于小波和時(shí)頻分解的端點(diǎn)檢測(cè)方法[J];微計(jì)算機(jī)信息;2007年30期
7 李亦佳;趙淳;;嵌入式平臺(tái)的復(fù)雜環(huán)境下端點(diǎn)檢測(cè)[J];電腦編程技巧與維護(hù);2008年17期
8 周娜;趙振東;張瑩;;背景噪聲下的端點(diǎn)檢測(cè)算法的研究[J];通信技術(shù);2008年07期
9 張亞歌;張?zhí)?夏川;;噪聲評(píng)估在端點(diǎn)檢測(cè)中的應(yīng)用[J];計(jì)算機(jī)技術(shù)與發(fā)展;2010年09期
10 張春雷;曾向陽(yáng);王曙光;;基于臨界帶功率譜方差的端點(diǎn)檢測(cè)[J];聲學(xué)技術(shù);2012年02期
相關(guān)會(huì)議論文 前8條
1 賈川;張健;陳振標(biāo);徐波;;噪聲環(huán)境下的端點(diǎn)檢測(cè)算法研究[A];第六屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];2001年
2 王卓;李鵬;蘇牧;徐波;;噪音環(huán)境下基于高階譜的端點(diǎn)檢測(cè)算法[A];第七屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議(NCMMSC7)論文集[C];2003年
3 王月;屈百達(dá);李金寶;蔣純剛;;一種改進(jìn)的基于頻帶方差的端點(diǎn)檢測(cè)算法[A];2007中國(guó)控制與決策學(xué)術(shù)年會(huì)論文集[C];2007年
4 尹巧萍;吳海寧;趙力;;含噪語(yǔ)音信號(hào)端點(diǎn)檢測(cè)方法的研究[A];2008’促進(jìn)中西部發(fā)展聲學(xué)學(xué)術(shù)交流會(huì)論文集[C];2008年
5 尹洪兵;秦斌;張凡;黃云森;;一種基于能量-過(guò)零率比的端點(diǎn)檢測(cè)方法[A];計(jì)算機(jī)技術(shù)與應(yīng)用進(jìn)展——全國(guó)第17屆計(jì)算機(jī)科學(xué)與技術(shù)應(yīng)用(CACIS)學(xué)術(shù)會(huì)議論文集(上冊(cè))[C];2006年
6 國(guó)雁萌;潘接林;顏永紅;韓疆;張建平;;基于子帶能量的自適應(yīng)端點(diǎn)檢測(cè)[A];第七屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議(NCMMSC7)論文集[C];2003年
7 李曼曼;楊鴻武;洪寧;楊碩;劉亞麗;;基于EMD的帶噪語(yǔ)音端點(diǎn)檢測(cè)[A];第十一屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集(一)[C];2011年
8 朱杰;韋曉東;;采用HMM模型方法進(jìn)行語(yǔ)音信號(hào)的端點(diǎn)檢測(cè)[A];1999年中國(guó)神經(jīng)網(wǎng)絡(luò)與信號(hào)處理學(xué)術(shù)會(huì)議論文集[C];1999年
相關(guān)重要報(bào)紙文章 前1條
1 中國(guó)科學(xué)院聲學(xué)研究所研究員 俞鐵城;語(yǔ)音的端點(diǎn)檢測(cè)和系統(tǒng)的打斷功能[N];通信產(chǎn)業(yè)報(bào);2005年
相關(guān)博士學(xué)位論文 前1條
1 周文君;艦船VDR人聲識(shí)別技術(shù)研究[D];哈爾濱工程大學(xué);2009年
相關(guān)碩士學(xué)位論文 前10條
1 楊喜敬;帶噪漢、彝語(yǔ)孤立詞的端點(diǎn)檢測(cè)方法對(duì)比研究[D];昆明理工大學(xué);2015年
2 邢立釗;語(yǔ)音信號(hào)端點(diǎn)檢測(cè)算法的研究[D];鄭州大學(xué);2016年
3 沈蓉;智能門(mén)禁系統(tǒng)聲紋識(shí)別中端點(diǎn)檢測(cè)算法研究[D];西安科技大學(xué);2015年
4 石海燕;基于小波變換的汽車(chē)語(yǔ)音特征指令逼近與端點(diǎn)檢測(cè)方法[D];浙江工業(yè)大學(xué);2009年
5 劉艷輝;帶噪語(yǔ)音信號(hào)端點(diǎn)檢測(cè)算法的研究及實(shí)現(xiàn)[D];河南理工大學(xué);2014年
6 馬靜霞;帶噪語(yǔ)音端點(diǎn)檢測(cè)方法的研究[D];燕山大學(xué);2007年
7 雷文鈿;復(fù)雜環(huán)境下高效端點(diǎn)檢測(cè)算法研究及應(yīng)用[D];廈門(mén)大學(xué);2014年
8 楊超;背景噪聲下的端點(diǎn)檢測(cè)技術(shù)研究[D];華北電力大學(xué)(河北);2008年
9 董胡;強(qiáng)噪聲環(huán)境下語(yǔ)音信號(hào)端點(diǎn)檢測(cè)方法研究[D];湖南師范大學(xué);2008年
10 張徽強(qiáng);帶噪語(yǔ)音信號(hào)的端點(diǎn)檢測(cè)和聲韻分離[D];國(guó)防科學(xué)技術(shù)大學(xué);2005年
,本文編號(hào):1773498
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/1773498.html