天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 信息工程論文 >

基于深度學(xué)習(xí)的語音分離算法研究與設(shè)計(jì)

發(fā)布時(shí)間:2021-02-02 12:57
  經(jīng)過幾十年的發(fā)展語音分離技術(shù)已經(jīng)取得了長足進(jìn)步,目前深度學(xué)習(xí)的興起,極大地推動(dòng)語音分離技術(shù)的進(jìn)一步發(fā)展。本文對單通道情況下語音分離算法進(jìn)行了研究,即從單個(gè)麥克風(fēng)采集到的混合語音中分離出目標(biāo)人聲語音。本文主要研究利用深度學(xué)習(xí)技術(shù)對語音分離算法進(jìn)行改進(jìn),在對當(dāng)前語音分離算法的建模思想進(jìn)行深入分析后,主要發(fā)現(xiàn)了兩點(diǎn)可以進(jìn)行改進(jìn)的地方:第一,在人聲和噪聲分離場景下,多層感知機(jī)在處理語音具有強(qiáng)大的特征提取能力,但一般采用固定有限的上下窗口對語音數(shù)據(jù)進(jìn)行建模,不僅增加了輸入數(shù)據(jù)的維度,還忽視了語音的時(shí)序相關(guān)性關(guān)系,對混合語音信號(hào)中所包含的特征信息利用不夠充分;第二,在分離兩人同時(shí)發(fā)聲的混合語音時(shí),目前分離算法大多需要同時(shí)追蹤到混合語音中的兩類語音特征,對于人耳來說其實(shí)很難同時(shí)聽清兩個(gè)人的語音,與常見的人類聽覺認(rèn)知的方式不同,難以設(shè)計(jì)出有效的分離模型。本文針對上述問題進(jìn)行研究,提出了相應(yīng)的解決方案,主要貢獻(xiàn)如下:1.深入研究了語音分離算法的建模方式,對不同神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)特性進(jìn)行了探討,提出了一種基于深度循環(huán)神經(jīng)網(wǎng)絡(luò)的人聲和噪聲分離算法。在使用復(fù)合神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,設(shè)計(jì)實(shí)現(xiàn)了一種基于注意力機(jī)制的特征幀拼... 

【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校

【文章頁數(shù)】:75 頁

【學(xué)位級(jí)別】:碩士

【文章目錄】:
摘要
ABSTRACT
第一章 緒論
    1.1 研究背景與意義
        1.1.1 研究背景
        1.1.2 研究意義
    1.2 研究歷史與現(xiàn)狀
        1.2.1 傳統(tǒng)語音分離方法
        1.2.2 深度學(xué)習(xí)語音分離
    1.3 擬解決的關(guān)鍵問題
    1.4 本文的主要貢獻(xiàn)與創(chuàng)新
    1.5 本論文的結(jié)構(gòu)安排
第二章 相關(guān)技術(shù)背景及算法
    2.1 語音的產(chǎn)生與感知
        2.1.1 語音產(chǎn)生原理
        2.1.2 頻域轉(zhuǎn)換方法
    2.2 有監(jiān)督語音分離框架
        2.2.1 語音特征
        2.2.2 學(xué)習(xí)模型
        2.2.3 訓(xùn)練目標(biāo)
        2.2.4 評估指標(biāo)
    2.3 本章小結(jié)
第三章 基于深度循環(huán)神經(jīng)網(wǎng)絡(luò)的語音分離算法
    3.1 問題描述
    3.2 算法描述
        3.2.1 算法設(shè)計(jì)思路
        3.2.2 算法實(shí)現(xiàn)細(xì)節(jié)
    3.3 實(shí)驗(yàn)與討論
        3.3.1 實(shí)驗(yàn)環(huán)境
        3.3.2 實(shí)驗(yàn)數(shù)據(jù)
        3.3.3 實(shí)驗(yàn)方法與評估指標(biāo)
        3.3.4 循環(huán)連接層結(jié)構(gòu)有效性分析
        3.3.5 注意力機(jī)制中感知機(jī)層數(shù)有效性分析
        3.3.6 不同注意力計(jì)算范圍的分析
        3.3.7 已知噪聲條件下的模型性能分析
        3.3.8 未知噪聲條件下模型泛化性分析
    3.4 本章小結(jié)
第四章 基于多層注意力機(jī)制的語音分離算法
    4.1 問題描述
    4.2 算法描述
        4.2.1 算法設(shè)計(jì)思路
        4.2.2 算法實(shí)現(xiàn)細(xì)節(jié)
    4.3 實(shí)驗(yàn)與討論
        4.3.1 實(shí)驗(yàn)環(huán)境
        4.3.2 實(shí)驗(yàn)數(shù)據(jù)
        4.3.3 實(shí)驗(yàn)方法與評估指標(biāo)
        4.3.4 模型多層結(jié)構(gòu)的有效性分析
        4.3.5 兩個(gè)說話人混合場景下的分離結(jié)果分析
        4.3.6 三個(gè)說話人混合場景下的分離結(jié)果分析
    4.4 本章小結(jié)
第五章 總結(jié)與展望
    5.1 全文總結(jié)
    5.2 工作展望
致謝
參考文獻(xiàn)
攻讀碩士學(xué)位期間取得的成果


【參考文獻(xiàn)】:
期刊論文
[1]雞尾酒會(huì)問題與相關(guān)聽覺模型的研究現(xiàn)狀與展望[J]. 黃雅婷,石晶,許家銘,徐波.  自動(dòng)化學(xué)報(bào). 2019(02)
[2]Recent Progresses in Deep Learning Based Acoustic Models[J]. Dong Yu,Jinyu Li.  IEEE/CAA Journal of Automatica Sinica. 2017(03)



本文編號(hào):3014734

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/3014734.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶3c13a***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com