面向聲學(xué)信號(hào)處理的深度學(xué)習(xí)模型優(yōu)化研究
發(fā)布時(shí)間:2022-05-08 16:23
聲學(xué)信號(hào)作為人類生產(chǎn)活動(dòng)過程中的主要信息載體,一直備受關(guān)注和研究。進(jìn)入物聯(lián)網(wǎng)時(shí)代,讓機(jī)器更好的服務(wù)人類社會(huì)成了目前熱門的話題,通過聲學(xué)信號(hào)進(jìn)行人機(jī)交互也因此成為當(dāng)下的研究熱點(diǎn)。隨著計(jì)算機(jī)以及人工智能的快速發(fā)展,基于深度學(xué)習(xí)的方法成為了當(dāng)下聲學(xué)信號(hào)處理的主流研究方法。機(jī)器接收的聲學(xué)信號(hào)主要來自人類的語音指令和周圍的環(huán)境聲音。目前相關(guān)的研究主要集中在自動(dòng)語音識(shí)別、音素識(shí)別和聲學(xué)環(huán)境場(chǎng)景分類等任務(wù)。本文針對(duì)聲學(xué)環(huán)境場(chǎng)景分類和語音音素識(shí)別任務(wù)進(jìn)行了研究,探討聲學(xué)信號(hào)在人機(jī)交互過程中面臨的一些問題:針對(duì)聲學(xué)環(huán)境場(chǎng)景分類問題,本文提出了高度聚合時(shí)頻域聲學(xué)特征的混合神經(jīng)網(wǎng)絡(luò)模型。我們觀察到現(xiàn)有的模型在處理音頻時(shí)域特性和頻域特性的過程中存在以下問題:1)單一的模型結(jié)構(gòu)只學(xué)習(xí)到了音頻的時(shí)域特性或頻域特性;2)混合的模型結(jié)構(gòu)丟失或破壞了音頻原本的時(shí)序信息;3)混合的模型結(jié)構(gòu)對(duì)音頻時(shí)域和頻域信息利用不到位,無法發(fā)揮混合模型的最優(yōu)性能。根據(jù)以上的觀察和分析,本文設(shè)計(jì)了一個(gè)LCNN網(wǎng)絡(luò)結(jié)構(gòu)有效的避免的音頻原有的時(shí)序信息丟失的問題,以及時(shí)序增強(qiáng)的多通道特征融合機(jī)制(MCFF)增加了混合模型對(duì)時(shí)頻域特性的有效利用,...
【文章頁數(shù)】:84 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
聲音信號(hào)波形圖
國(guó)防科技大學(xué)研究生院碩士學(xué)位論文一直到今天,聲學(xué)環(huán)境場(chǎng)景分類的研究一直處于火熱的階段,相信在未來也同樣會(huì)受到關(guān)注和研究,也期待人們開發(fā)出更多的聲學(xué)應(yīng)用,并更好的為人類服務(wù)[22]。圖1.2聲學(xué)環(huán)境場(chǎng)景分類系統(tǒng)1.1.2語音音素識(shí)別信息能夠被我們接受和學(xué)習(xí),是因?yàn)樾畔⑼ㄟ^載體媒介進(jìn)行傳播,所有的外在表現(xiàn)形式可以總結(jié)為文字、圖像和聲音[23]。隨著計(jì)算機(jī)信息科學(xué)的快速發(fā)展,越來越多的聲音信號(hào)被存儲(chǔ)記錄和分析,并通過各種聲學(xué)儀器揭露聲音的本質(zhì)內(nèi)容。聲音作為一種無處不在的自然現(xiàn)象,它帶給人類的不僅是有聲世界的豐富多彩,更多的通過聲音進(jìn)行交流和學(xué)習(xí),通過研究和分析聲音信號(hào)能讓我們更好的理解發(fā)聲的機(jī)制,從而更好的認(rèn)知世界各種聲音并與之進(jìn)行溝通交流。語音音素作為發(fā)音系統(tǒng)的重要組成部分,通過對(duì)語音音素識(shí)別的研究,能幫助我們更好的理解發(fā)音系統(tǒng)以及它與文字系統(tǒng)的相互關(guān)系。特別的,人類通過聲帶振動(dòng)發(fā)出聲音的同時(shí),也改變著嘴型以及嘴巴附近的面部肌肉的形狀,語音音素識(shí)別的研究也能幫助人們學(xué)習(xí)發(fā)音與嘴型變化之間的關(guān)系。進(jìn)一步,不同語言間的發(fā)音與嘴型變換是相似的,通過對(duì)語音音素識(shí)別的研究,對(duì)語言的理解和發(fā)展有著至關(guān)重要的意義。語音領(lǐng)域的研究總是跟隨著時(shí)代穩(wěn)步前進(jìn),從最早的隱馬爾科夫模型(HMM[24,25])研究到基于統(tǒng)計(jì)學(xué)原理的模式識(shí)別研究方法(如SVM[26]、MLP[27]、CRF[28]),再到目前主流的基于深度學(xué)習(xí)的學(xué)習(xí)模型(如圖1.3)以及混合深度神經(jīng)網(wǎng)絡(luò)和隱馬爾可夫模型的聲學(xué)模型[29],語音識(shí)別總能在各個(gè)階段都能受到持續(xù)的關(guān)注和研究。到目前為止,機(jī)器識(shí)別出人類語音的準(zhǔn)確率已經(jīng)較上個(gè)世紀(jì)獲得了極大的提升,普遍達(dá)到了90%以上的識(shí)別精度,人機(jī)交互變得流暢,魯棒性也第3頁
國(guó)防科技大學(xué)研究生院碩士學(xué)位論文越高。同時(shí),基于這些研究也產(chǎn)生了許多實(shí)際產(chǎn)品,其中智能音箱[30]和對(duì)話機(jī)器人[31]作為最典型的與聲學(xué)領(lǐng)域相關(guān)的產(chǎn)品極大地豐富和便利了人們的日常生活。圖1.3基于深度學(xué)習(xí)的自動(dòng)語音識(shí)別流程圖語音音素作為自動(dòng)語音識(shí)別的重要研究組成部分,發(fā)揮著至關(guān)重要的作用[32]。早期,語音音素識(shí)別的任務(wù)并不會(huì)被拿出來單獨(dú)作為一個(gè)研究點(diǎn),而是因?yàn)樽詣?dòng)語音識(shí)別的任務(wù)需求才考慮它。一個(gè)字的發(fā)音由三個(gè)左右的音素組成,因此通過語音序列對(duì)文字的識(shí)別實(shí)際上也是對(duì)語音音素的識(shí)別。自動(dòng)語音識(shí)別的發(fā)展到目前為止已經(jīng)經(jīng)歷了近六十年了,也就是說自計(jì)算機(jī)應(yīng)用以來,就一直有著對(duì)自動(dòng)語音識(shí)別技術(shù)的研究,語音作為信息交流的載體,基于自動(dòng)語音識(shí)別技術(shù)產(chǎn)生了很多實(shí)際的應(yīng)用和成果[33]。20世紀(jì)50年代,著名的Bell實(shí)驗(yàn)室的研究人員根據(jù)人類聲帶振動(dòng)發(fā)音的原理以及不同語種的語言語法規(guī)則提出語音音素系統(tǒng),并基于此系統(tǒng)研發(fā)了一個(gè)經(jīng)典的語音識(shí)別系統(tǒng)——孤立詞語音識(shí)別系統(tǒng)[34]。雖然該系統(tǒng)僅針對(duì)英語發(fā)音的阿拉伯?dāng)?shù)字,而且是同一個(gè)人的語音發(fā)音,但是其系統(tǒng)模式和研究方法仍然被后序研究者借鑒和完善。隨后,在語音領(lǐng)域興起了聲紋識(shí)別的研究熱情,基于高斯混合模型及其改進(jìn)的模型被應(yīng)用在了聲紋識(shí)別中[35–37]。因?yàn)槁暭y識(shí)別與語音音素識(shí)別具有很高的相似性,所以聲紋識(shí)別的模型和方法也被用在了語音音素識(shí)別上,高斯混合模型成了這一階段音素識(shí)別的代表模型。再之后,人們對(duì)語音音素的理解不僅僅是語音的組成單位這么簡(jiǎn)單了,同時(shí),也隨著深度學(xué)習(xí)的到來,基于時(shí)序神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的模型都被用在了語音音素識(shí)別上[38–41],也基于此開發(fā)了許多實(shí)際應(yīng)用,比較典型的就是通過提高語音音素識(shí)別的精度進(jìn)?
本文編號(hào):3651982
【文章頁數(shù)】:84 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
聲音信號(hào)波形圖
國(guó)防科技大學(xué)研究生院碩士學(xué)位論文一直到今天,聲學(xué)環(huán)境場(chǎng)景分類的研究一直處于火熱的階段,相信在未來也同樣會(huì)受到關(guān)注和研究,也期待人們開發(fā)出更多的聲學(xué)應(yīng)用,并更好的為人類服務(wù)[22]。圖1.2聲學(xué)環(huán)境場(chǎng)景分類系統(tǒng)1.1.2語音音素識(shí)別信息能夠被我們接受和學(xué)習(xí),是因?yàn)樾畔⑼ㄟ^載體媒介進(jìn)行傳播,所有的外在表現(xiàn)形式可以總結(jié)為文字、圖像和聲音[23]。隨著計(jì)算機(jī)信息科學(xué)的快速發(fā)展,越來越多的聲音信號(hào)被存儲(chǔ)記錄和分析,并通過各種聲學(xué)儀器揭露聲音的本質(zhì)內(nèi)容。聲音作為一種無處不在的自然現(xiàn)象,它帶給人類的不僅是有聲世界的豐富多彩,更多的通過聲音進(jìn)行交流和學(xué)習(xí),通過研究和分析聲音信號(hào)能讓我們更好的理解發(fā)聲的機(jī)制,從而更好的認(rèn)知世界各種聲音并與之進(jìn)行溝通交流。語音音素作為發(fā)音系統(tǒng)的重要組成部分,通過對(duì)語音音素識(shí)別的研究,能幫助我們更好的理解發(fā)音系統(tǒng)以及它與文字系統(tǒng)的相互關(guān)系。特別的,人類通過聲帶振動(dòng)發(fā)出聲音的同時(shí),也改變著嘴型以及嘴巴附近的面部肌肉的形狀,語音音素識(shí)別的研究也能幫助人們學(xué)習(xí)發(fā)音與嘴型變化之間的關(guān)系。進(jìn)一步,不同語言間的發(fā)音與嘴型變換是相似的,通過對(duì)語音音素識(shí)別的研究,對(duì)語言的理解和發(fā)展有著至關(guān)重要的意義。語音領(lǐng)域的研究總是跟隨著時(shí)代穩(wěn)步前進(jìn),從最早的隱馬爾科夫模型(HMM[24,25])研究到基于統(tǒng)計(jì)學(xué)原理的模式識(shí)別研究方法(如SVM[26]、MLP[27]、CRF[28]),再到目前主流的基于深度學(xué)習(xí)的學(xué)習(xí)模型(如圖1.3)以及混合深度神經(jīng)網(wǎng)絡(luò)和隱馬爾可夫模型的聲學(xué)模型[29],語音識(shí)別總能在各個(gè)階段都能受到持續(xù)的關(guān)注和研究。到目前為止,機(jī)器識(shí)別出人類語音的準(zhǔn)確率已經(jīng)較上個(gè)世紀(jì)獲得了極大的提升,普遍達(dá)到了90%以上的識(shí)別精度,人機(jī)交互變得流暢,魯棒性也第3頁
國(guó)防科技大學(xué)研究生院碩士學(xué)位論文越高。同時(shí),基于這些研究也產(chǎn)生了許多實(shí)際產(chǎn)品,其中智能音箱[30]和對(duì)話機(jī)器人[31]作為最典型的與聲學(xué)領(lǐng)域相關(guān)的產(chǎn)品極大地豐富和便利了人們的日常生活。圖1.3基于深度學(xué)習(xí)的自動(dòng)語音識(shí)別流程圖語音音素作為自動(dòng)語音識(shí)別的重要研究組成部分,發(fā)揮著至關(guān)重要的作用[32]。早期,語音音素識(shí)別的任務(wù)并不會(huì)被拿出來單獨(dú)作為一個(gè)研究點(diǎn),而是因?yàn)樽詣?dòng)語音識(shí)別的任務(wù)需求才考慮它。一個(gè)字的發(fā)音由三個(gè)左右的音素組成,因此通過語音序列對(duì)文字的識(shí)別實(shí)際上也是對(duì)語音音素的識(shí)別。自動(dòng)語音識(shí)別的發(fā)展到目前為止已經(jīng)經(jīng)歷了近六十年了,也就是說自計(jì)算機(jī)應(yīng)用以來,就一直有著對(duì)自動(dòng)語音識(shí)別技術(shù)的研究,語音作為信息交流的載體,基于自動(dòng)語音識(shí)別技術(shù)產(chǎn)生了很多實(shí)際的應(yīng)用和成果[33]。20世紀(jì)50年代,著名的Bell實(shí)驗(yàn)室的研究人員根據(jù)人類聲帶振動(dòng)發(fā)音的原理以及不同語種的語言語法規(guī)則提出語音音素系統(tǒng),并基于此系統(tǒng)研發(fā)了一個(gè)經(jīng)典的語音識(shí)別系統(tǒng)——孤立詞語音識(shí)別系統(tǒng)[34]。雖然該系統(tǒng)僅針對(duì)英語發(fā)音的阿拉伯?dāng)?shù)字,而且是同一個(gè)人的語音發(fā)音,但是其系統(tǒng)模式和研究方法仍然被后序研究者借鑒和完善。隨后,在語音領(lǐng)域興起了聲紋識(shí)別的研究熱情,基于高斯混合模型及其改進(jìn)的模型被應(yīng)用在了聲紋識(shí)別中[35–37]。因?yàn)槁暭y識(shí)別與語音音素識(shí)別具有很高的相似性,所以聲紋識(shí)別的模型和方法也被用在了語音音素識(shí)別上,高斯混合模型成了這一階段音素識(shí)別的代表模型。再之后,人們對(duì)語音音素的理解不僅僅是語音的組成單位這么簡(jiǎn)單了,同時(shí),也隨著深度學(xué)習(xí)的到來,基于時(shí)序神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的模型都被用在了語音音素識(shí)別上[38–41],也基于此開發(fā)了許多實(shí)際應(yīng)用,比較典型的就是通過提高語音音素識(shí)別的精度進(jìn)?
本文編號(hào):3651982
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3651982.html
最近更新
教材專著