當(dāng)前位置：主頁(yè) > 科技論文 > 網(wǎng)絡(luò)通信論文 >

基于深度神經(jīng)網(wǎng)絡(luò)的連續(xù)語(yǔ)音識(shí)別研究

發(fā)布時(shí)間：2020-12-10 14:33

　　語(yǔ)音識(shí)別是模式識(shí)別的重要研究分支,也是當(dāng)下人工智能時(shí)代人們重點(diǎn)關(guān)注的一項(xiàng)交互技術(shù)。近50多年來(lái),傳統(tǒng)語(yǔ)音識(shí)別技術(shù)逐漸地趨于穩(wěn)定,而隨著21世紀(jì)初深度神經(jīng)網(wǎng)絡(luò)理論的廣泛關(guān)注,語(yǔ)音識(shí)別技術(shù)也隨之有了迅猛的發(fā)展。從理論研究到產(chǎn)品應(yīng)用,多樣的深度神經(jīng)網(wǎng)絡(luò)模型在復(fù)雜的語(yǔ)音識(shí)別任務(wù)中取得了不俗的成果。本文的研究初衷是探討在連續(xù)語(yǔ)音識(shí)別任務(wù)中應(yīng)用不同的深度神經(jīng)網(wǎng)絡(luò)模型,完成的主要工作有兩點(diǎn):（1）研究了基于自動(dòng)編碼器結(jié)構(gòu)的聲學(xué)特征提取方法,針對(duì)現(xiàn)實(shí)應(yīng)用場(chǎng)景中存在的噪聲污染、多聲源干擾等復(fù)雜環(huán)境下的語(yǔ)音識(shí)別任務(wù),提出了一種堆疊式壓縮降噪自動(dòng)編碼器模型,使得提取出的聲學(xué)特征具有更強(qiáng)的抗干擾能力和表征能力。在2個(gè)標(biāo)準(zhǔn)語(yǔ)料庫(kù)上進(jìn)行的對(duì)比實(shí)驗(yàn)中,分別驗(yàn)證了網(wǎng)絡(luò)模型深度以及使用不同編碼器結(jié)構(gòu)對(duì)提取聲學(xué)特征的影響。經(jīng)實(shí)驗(yàn)結(jié)果表明,堆疊式壓縮降噪自動(dòng)編碼器模型能夠通過自身的泛化能力,提取出更能代表語(yǔ)音信號(hào)本身的深層次特征,且在識(shí)別率指標(biāo)上較其他的編碼器網(wǎng)絡(luò)模型結(jié)構(gòu)有2%--4%的絕對(duì)提升。（2）研究了基于循環(huán)神經(jīng)網(wǎng)絡(luò)的端到端語(yǔ)音識(shí)別過程,分別使用CTC訓(xùn)練準(zhǔn)則和注意力機(jī)制訓(xùn)練準(zhǔn)則,在雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,建立了...

【文章來(lái)源】：吉林大學(xué)吉林省 211工程院校 985工程院校教育部直屬院校

【文章頁(yè)數(shù)】：63 頁(yè)

【學(xué)位級(jí)別】：碩士

【部分圖文】：

語(yǔ)音識(shí)別流程

分幀,幀長(zhǎng),對(duì)語(yǔ),頻譜特征

圖 2.2 分幀操作中的幀長(zhǎng)與幀移對(duì)語(yǔ)音信號(hào)進(jìn)行分幀操作之后，每一幀都當(dāng)成平穩(wěn)信號(hào)來(lái)處理，隨后就葉展開每一項(xiàng)以獲取頻譜特征，在這一過程中需要進(jìn)行加窗操作，即模

流程圖,特征提取,流程,感知能力

圖 2.3 MFCC 特征提取流程通過研究發(fā)現(xiàn)，人耳對(duì)不同頻率的敏感程度不同，對(duì)相對(duì)低頻率信號(hào)的感知能力較強(qiáng)，而相對(duì)高頻率信號(hào)的感知能力較低。梅爾頻率分析就是基于人類聽覺的特性感知實(shí)驗(yàn)，

本文編號(hào)：2908860

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/wltx/2908860.html

上一篇：相干分布源角度參數(shù)估計(jì)算法研究
下一篇：耦合隨機(jī)森林和遷移學(xué)習(xí)的Quad-PolSAR建設(shè)用地提取

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度神經(jīng)網(wǎng)絡(luò)的連續(xù)語(yǔ)音識(shí)別研究