復(fù)雜場(chǎng)景下基于深度學(xué)習(xí)的魯棒性語(yǔ)音識(shí)別的研究
發(fā)布時(shí)間:2020-12-02 12:52
從古至今,語(yǔ)音一直是人類最常使用的交流方式,人們可以通過語(yǔ)音高效而且便捷地表達(dá)內(nèi)心的情感。因此,人類社會(huì)的進(jìn)步離不開語(yǔ)音的推動(dòng)。而語(yǔ)音識(shí)別就是讓機(jī)器能夠“聽懂”人們?cè)谡f什么,將語(yǔ)音信號(hào)轉(zhuǎn)化為文本信息,從而讓機(jī)器能夠根據(jù)人的語(yǔ)音指令做出相應(yīng)的反饋。語(yǔ)音識(shí)別是實(shí)現(xiàn)人機(jī)交互的窗口,對(duì)機(jī)器的智能化起到至關(guān)重要的作用。在當(dāng)今社會(huì),隨著人工智能技術(shù)的快速發(fā)展,人們的生活和工作方式也發(fā)生了巨大的改變。人們?cè)絹?lái)越不滿足于依靠鍵盤和鼠標(biāo)的文本和指令的人機(jī)交互模式,更加傾向于語(yǔ)音折中方便快捷的方式。但是語(yǔ)音信號(hào)的產(chǎn)生,傳播和收集是一個(gè)十分復(fù)雜的過程。語(yǔ)音是由人類的不同發(fā)音器官協(xié)同作用下產(chǎn)生的,由于不同的人發(fā)音器官存在差異性,因此同一文本內(nèi)容,不同人之間的語(yǔ)音頻譜特性也存在很大差異性。在日常生活中,一般使用麥克風(fēng)陣列對(duì)語(yǔ)音信號(hào)進(jìn)行采集。由于語(yǔ)音信號(hào)、各種的環(huán)境噪聲和干擾人聲都是以聲波的形式借助空氣等相同的媒介傳播,從而會(huì)對(duì)我們所需要的語(yǔ)音信號(hào)產(chǎn)生影響,造成語(yǔ)音信號(hào)的破壞。在更加復(fù)雜的噪聲環(huán)境中,還會(huì)把目標(biāo)語(yǔ)音完全掩蓋。這就對(duì)我們的語(yǔ)音識(shí)別系統(tǒng)在真實(shí)場(chǎng)景中的應(yīng)用提出了巨大的挑戰(zhàn)。根據(jù)麥克風(fēng)的數(shù)量可分為多通道語(yǔ)...
【文章來(lái)源】:中國(guó)科學(xué)技術(shù)大學(xué)安徽省 211工程院校 985工程院校
【文章頁(yè)數(shù)】:111 頁(yè)
【學(xué)位級(jí)別】:博士
【部分圖文】:
圖1.2神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖??
第2章魯棒性語(yǔ)音識(shí)別??2.1?前言??根據(jù)第一章的介紹,如今的語(yǔ)音識(shí)別系統(tǒng)通過強(qiáng)大的聲學(xué)模型、語(yǔ)言模型和??大量訓(xùn)練數(shù)據(jù)在非復(fù)雜場(chǎng)景下己經(jīng)實(shí)用化甚至商用化。但是當(dāng)識(shí)別系統(tǒng)處在復(fù)??雜的場(chǎng)景下,語(yǔ)音信號(hào)便會(huì)被背景噪聲和干擾人聲覆蓋,這將直接導(dǎo)致訓(xùn)練聲學(xué)??模型的數(shù)據(jù)和真實(shí)復(fù)雜場(chǎng)景下測(cè)試數(shù)據(jù)差異性變大,從而降低識(shí)別系統(tǒng)的識(shí)別??準(zhǔn)確率。魯棒性語(yǔ)音識(shí)別要解決的就是語(yǔ)音識(shí)別系統(tǒng)在復(fù)雜場(chǎng)景下噪聲魯棒性??問題。本文將從語(yǔ)音識(shí)別前端系統(tǒng)(即信號(hào)域語(yǔ)音增強(qiáng))和后端系統(tǒng)(基于深度學(xué)??習(xí)的聲學(xué)模型優(yōu)化)優(yōu)化角度,探宄如何在真實(shí)復(fù)雜場(chǎng)景下解決語(yǔ)音識(shí)別魯棒性??問題。??2.2魯棒性語(yǔ)音識(shí)別方法??
傳統(tǒng)的聲學(xué)場(chǎng)景分析方法是基于時(shí)頻掩蔽信號(hào)得到目標(biāo)語(yǔ)音,其中時(shí)頻蔽用來(lái)表示在每個(gè)時(shí)頻點(diǎn)上語(yǔ)音存在概率,取值范圍0到1之間。汪德亮團(tuán)隊(duì)次使用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)帶噪信號(hào)特征和時(shí)頻掩蔽之間的映射關(guān)系,從而實(shí)語(yǔ)音增強(qiáng)?梢园l(fā)現(xiàn)基于時(shí)頻掩蔽和特征映射的方法唯一區(qū)別是學(xué)習(xí)目標(biāo)的同。最早被利用的掩蔽信號(hào)為理想二值掩蔽(Ideal?Ratio?Mask,?IBM),其定義下:??USNR(kJ)>?LC??IBM{k,l)?=?\?(2.37)0;else??其中LC是預(yù)設(shè)門限值。首先通過每個(gè)頻點(diǎn)的噪聲功率和其對(duì)應(yīng)的干凈語(yǔ)的功率計(jì)算出SNRJiV/iOt,/)。其次,通過比較每個(gè)時(shí)頻點(diǎn)iWitOt,/)和LC值如果/)的值大于LC,表示帶噪語(yǔ)音在該時(shí)頻點(diǎn)上語(yǔ)音占主導(dǎo),/)值設(shè)為1;如果SA^ROt,/)的值小于LC,表示帶噪語(yǔ)音在該時(shí)頻點(diǎn)上噪聲占導(dǎo),值設(shè)為。由此IBM可以看成在每個(gè)時(shí)頻點(diǎn)上的而分類問題。雖
【參考文獻(xiàn)】:
博士論文
[1]復(fù)雜環(huán)境下基于深度學(xué)習(xí)的語(yǔ)音信號(hào)預(yù)處理方法研究[D]. 高天.中國(guó)科學(xué)技術(shù)大學(xué) 2018
本文編號(hào):2895341
【文章來(lái)源】:中國(guó)科學(xué)技術(shù)大學(xué)安徽省 211工程院校 985工程院校
【文章頁(yè)數(shù)】:111 頁(yè)
【學(xué)位級(jí)別】:博士
【部分圖文】:
圖1.2神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖??
第2章魯棒性語(yǔ)音識(shí)別??2.1?前言??根據(jù)第一章的介紹,如今的語(yǔ)音識(shí)別系統(tǒng)通過強(qiáng)大的聲學(xué)模型、語(yǔ)言模型和??大量訓(xùn)練數(shù)據(jù)在非復(fù)雜場(chǎng)景下己經(jīng)實(shí)用化甚至商用化。但是當(dāng)識(shí)別系統(tǒng)處在復(fù)??雜的場(chǎng)景下,語(yǔ)音信號(hào)便會(huì)被背景噪聲和干擾人聲覆蓋,這將直接導(dǎo)致訓(xùn)練聲學(xué)??模型的數(shù)據(jù)和真實(shí)復(fù)雜場(chǎng)景下測(cè)試數(shù)據(jù)差異性變大,從而降低識(shí)別系統(tǒng)的識(shí)別??準(zhǔn)確率。魯棒性語(yǔ)音識(shí)別要解決的就是語(yǔ)音識(shí)別系統(tǒng)在復(fù)雜場(chǎng)景下噪聲魯棒性??問題。本文將從語(yǔ)音識(shí)別前端系統(tǒng)(即信號(hào)域語(yǔ)音增強(qiáng))和后端系統(tǒng)(基于深度學(xué)??習(xí)的聲學(xué)模型優(yōu)化)優(yōu)化角度,探宄如何在真實(shí)復(fù)雜場(chǎng)景下解決語(yǔ)音識(shí)別魯棒性??問題。??2.2魯棒性語(yǔ)音識(shí)別方法??
傳統(tǒng)的聲學(xué)場(chǎng)景分析方法是基于時(shí)頻掩蔽信號(hào)得到目標(biāo)語(yǔ)音,其中時(shí)頻蔽用來(lái)表示在每個(gè)時(shí)頻點(diǎn)上語(yǔ)音存在概率,取值范圍0到1之間。汪德亮團(tuán)隊(duì)次使用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)帶噪信號(hào)特征和時(shí)頻掩蔽之間的映射關(guān)系,從而實(shí)語(yǔ)音增強(qiáng)?梢园l(fā)現(xiàn)基于時(shí)頻掩蔽和特征映射的方法唯一區(qū)別是學(xué)習(xí)目標(biāo)的同。最早被利用的掩蔽信號(hào)為理想二值掩蔽(Ideal?Ratio?Mask,?IBM),其定義下:??USNR(kJ)>?LC??IBM{k,l)?=?\?(2.37)0;else??其中LC是預(yù)設(shè)門限值。首先通過每個(gè)頻點(diǎn)的噪聲功率和其對(duì)應(yīng)的干凈語(yǔ)的功率計(jì)算出SNRJiV/iOt,/)。其次,通過比較每個(gè)時(shí)頻點(diǎn)iWitOt,/)和LC值如果/)的值大于LC,表示帶噪語(yǔ)音在該時(shí)頻點(diǎn)上語(yǔ)音占主導(dǎo),/)值設(shè)為1;如果SA^ROt,/)的值小于LC,表示帶噪語(yǔ)音在該時(shí)頻點(diǎn)上噪聲占導(dǎo),值設(shè)為。由此IBM可以看成在每個(gè)時(shí)頻點(diǎn)上的而分類問題。雖
【參考文獻(xiàn)】:
博士論文
[1]復(fù)雜環(huán)境下基于深度學(xué)習(xí)的語(yǔ)音信號(hào)預(yù)處理方法研究[D]. 高天.中國(guó)科學(xué)技術(shù)大學(xué) 2018
本文編號(hào):2895341
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2895341.html
最近更新
教材專著