面向聲學(xué)信號處理的深度學(xué)習(xí)模型優(yōu)化研究
發(fā)布時間:2022-05-08 16:23
聲學(xué)信號作為人類生產(chǎn)活動過程中的主要信息載體,一直備受關(guān)注和研究。進(jìn)入物聯(lián)網(wǎng)時代,讓機(jī)器更好的服務(wù)人類社會成了目前熱門的話題,通過聲學(xué)信號進(jìn)行人機(jī)交互也因此成為當(dāng)下的研究熱點。隨著計算機(jī)以及人工智能的快速發(fā)展,基于深度學(xué)習(xí)的方法成為了當(dāng)下聲學(xué)信號處理的主流研究方法。機(jī)器接收的聲學(xué)信號主要來自人類的語音指令和周圍的環(huán)境聲音。目前相關(guān)的研究主要集中在自動語音識別、音素識別和聲學(xué)環(huán)境場景分類等任務(wù)。本文針對聲學(xué)環(huán)境場景分類和語音音素識別任務(wù)進(jìn)行了研究,探討聲學(xué)信號在人機(jī)交互過程中面臨的一些問題:針對聲學(xué)環(huán)境場景分類問題,本文提出了高度聚合時頻域聲學(xué)特征的混合神經(jīng)網(wǎng)絡(luò)模型。我們觀察到現(xiàn)有的模型在處理音頻時域特性和頻域特性的過程中存在以下問題:1)單一的模型結(jié)構(gòu)只學(xué)習(xí)到了音頻的時域特性或頻域特性;2)混合的模型結(jié)構(gòu)丟失或破壞了音頻原本的時序信息;3)混合的模型結(jié)構(gòu)對音頻時域和頻域信息利用不到位,無法發(fā)揮混合模型的最優(yōu)性能。根據(jù)以上的觀察和分析,本文設(shè)計了一個LCNN網(wǎng)絡(luò)結(jié)構(gòu)有效的避免的音頻原有的時序信息丟失的問題,以及時序增強的多通道特征融合機(jī)制(MCFF)增加了混合模型對時頻域特性的有效利用,...
【文章頁數(shù)】:84 頁
【學(xué)位級別】:碩士
【部分圖文】:
聲音信號波形圖
國防科技大學(xué)研究生院碩士學(xué)位論文一直到今天,聲學(xué)環(huán)境場景分類的研究一直處于火熱的階段,相信在未來也同樣會受到關(guān)注和研究,也期待人們開發(fā)出更多的聲學(xué)應(yīng)用,并更好的為人類服務(wù)[22]。圖1.2聲學(xué)環(huán)境場景分類系統(tǒng)1.1.2語音音素識別信息能夠被我們接受和學(xué)習(xí),是因為信息通過載體媒介進(jìn)行傳播,所有的外在表現(xiàn)形式可以總結(jié)為文字、圖像和聲音[23]。隨著計算機(jī)信息科學(xué)的快速發(fā)展,越來越多的聲音信號被存儲記錄和分析,并通過各種聲學(xué)儀器揭露聲音的本質(zhì)內(nèi)容。聲音作為一種無處不在的自然現(xiàn)象,它帶給人類的不僅是有聲世界的豐富多彩,更多的通過聲音進(jìn)行交流和學(xué)習(xí),通過研究和分析聲音信號能讓我們更好的理解發(fā)聲的機(jī)制,從而更好的認(rèn)知世界各種聲音并與之進(jìn)行溝通交流。語音音素作為發(fā)音系統(tǒng)的重要組成部分,通過對語音音素識別的研究,能幫助我們更好的理解發(fā)音系統(tǒng)以及它與文字系統(tǒng)的相互關(guān)系。特別的,人類通過聲帶振動發(fā)出聲音的同時,也改變著嘴型以及嘴巴附近的面部肌肉的形狀,語音音素識別的研究也能幫助人們學(xué)習(xí)發(fā)音與嘴型變化之間的關(guān)系。進(jìn)一步,不同語言間的發(fā)音與嘴型變換是相似的,通過對語音音素識別的研究,對語言的理解和發(fā)展有著至關(guān)重要的意義。語音領(lǐng)域的研究總是跟隨著時代穩(wěn)步前進(jìn),從最早的隱馬爾科夫模型(HMM[24,25])研究到基于統(tǒng)計學(xué)原理的模式識別研究方法(如SVM[26]、MLP[27]、CRF[28]),再到目前主流的基于深度學(xué)習(xí)的學(xué)習(xí)模型(如圖1.3)以及混合深度神經(jīng)網(wǎng)絡(luò)和隱馬爾可夫模型的聲學(xué)模型[29],語音識別總能在各個階段都能受到持續(xù)的關(guān)注和研究。到目前為止,機(jī)器識別出人類語音的準(zhǔn)確率已經(jīng)較上個世紀(jì)獲得了極大的提升,普遍達(dá)到了90%以上的識別精度,人機(jī)交互變得流暢,魯棒性也第3頁
國防科技大學(xué)研究生院碩士學(xué)位論文越高。同時,基于這些研究也產(chǎn)生了許多實際產(chǎn)品,其中智能音箱[30]和對話機(jī)器人[31]作為最典型的與聲學(xué)領(lǐng)域相關(guān)的產(chǎn)品極大地豐富和便利了人們的日常生活。圖1.3基于深度學(xué)習(xí)的自動語音識別流程圖語音音素作為自動語音識別的重要研究組成部分,發(fā)揮著至關(guān)重要的作用[32]。早期,語音音素識別的任務(wù)并不會被拿出來單獨作為一個研究點,而是因為自動語音識別的任務(wù)需求才考慮它。一個字的發(fā)音由三個左右的音素組成,因此通過語音序列對文字的識別實際上也是對語音音素的識別。自動語音識別的發(fā)展到目前為止已經(jīng)經(jīng)歷了近六十年了,也就是說自計算機(jī)應(yīng)用以來,就一直有著對自動語音識別技術(shù)的研究,語音作為信息交流的載體,基于自動語音識別技術(shù)產(chǎn)生了很多實際的應(yīng)用和成果[33]。20世紀(jì)50年代,著名的Bell實驗室的研究人員根據(jù)人類聲帶振動發(fā)音的原理以及不同語種的語言語法規(guī)則提出語音音素系統(tǒng),并基于此系統(tǒng)研發(fā)了一個經(jīng)典的語音識別系統(tǒng)——孤立詞語音識別系統(tǒng)[34]。雖然該系統(tǒng)僅針對英語發(fā)音的阿拉伯?dāng)?shù)字,而且是同一個人的語音發(fā)音,但是其系統(tǒng)模式和研究方法仍然被后序研究者借鑒和完善。隨后,在語音領(lǐng)域興起了聲紋識別的研究熱情,基于高斯混合模型及其改進(jìn)的模型被應(yīng)用在了聲紋識別中[35–37]。因為聲紋識別與語音音素識別具有很高的相似性,所以聲紋識別的模型和方法也被用在了語音音素識別上,高斯混合模型成了這一階段音素識別的代表模型。再之后,人們對語音音素的理解不僅僅是語音的組成單位這么簡單了,同時,也隨著深度學(xué)習(xí)的到來,基于時序神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的模型都被用在了語音音素識別上[38–41],也基于此開發(fā)了許多實際應(yīng)用,比較典型的就是通過提高語音音素識別的精度進(jìn)?
本文編號:3651982
【文章頁數(shù)】:84 頁
【學(xué)位級別】:碩士
【部分圖文】:
聲音信號波形圖
國防科技大學(xué)研究生院碩士學(xué)位論文一直到今天,聲學(xué)環(huán)境場景分類的研究一直處于火熱的階段,相信在未來也同樣會受到關(guān)注和研究,也期待人們開發(fā)出更多的聲學(xué)應(yīng)用,并更好的為人類服務(wù)[22]。圖1.2聲學(xué)環(huán)境場景分類系統(tǒng)1.1.2語音音素識別信息能夠被我們接受和學(xué)習(xí),是因為信息通過載體媒介進(jìn)行傳播,所有的外在表現(xiàn)形式可以總結(jié)為文字、圖像和聲音[23]。隨著計算機(jī)信息科學(xué)的快速發(fā)展,越來越多的聲音信號被存儲記錄和分析,并通過各種聲學(xué)儀器揭露聲音的本質(zhì)內(nèi)容。聲音作為一種無處不在的自然現(xiàn)象,它帶給人類的不僅是有聲世界的豐富多彩,更多的通過聲音進(jìn)行交流和學(xué)習(xí),通過研究和分析聲音信號能讓我們更好的理解發(fā)聲的機(jī)制,從而更好的認(rèn)知世界各種聲音并與之進(jìn)行溝通交流。語音音素作為發(fā)音系統(tǒng)的重要組成部分,通過對語音音素識別的研究,能幫助我們更好的理解發(fā)音系統(tǒng)以及它與文字系統(tǒng)的相互關(guān)系。特別的,人類通過聲帶振動發(fā)出聲音的同時,也改變著嘴型以及嘴巴附近的面部肌肉的形狀,語音音素識別的研究也能幫助人們學(xué)習(xí)發(fā)音與嘴型變化之間的關(guān)系。進(jìn)一步,不同語言間的發(fā)音與嘴型變換是相似的,通過對語音音素識別的研究,對語言的理解和發(fā)展有著至關(guān)重要的意義。語音領(lǐng)域的研究總是跟隨著時代穩(wěn)步前進(jìn),從最早的隱馬爾科夫模型(HMM[24,25])研究到基于統(tǒng)計學(xué)原理的模式識別研究方法(如SVM[26]、MLP[27]、CRF[28]),再到目前主流的基于深度學(xué)習(xí)的學(xué)習(xí)模型(如圖1.3)以及混合深度神經(jīng)網(wǎng)絡(luò)和隱馬爾可夫模型的聲學(xué)模型[29],語音識別總能在各個階段都能受到持續(xù)的關(guān)注和研究。到目前為止,機(jī)器識別出人類語音的準(zhǔn)確率已經(jīng)較上個世紀(jì)獲得了極大的提升,普遍達(dá)到了90%以上的識別精度,人機(jī)交互變得流暢,魯棒性也第3頁
國防科技大學(xué)研究生院碩士學(xué)位論文越高。同時,基于這些研究也產(chǎn)生了許多實際產(chǎn)品,其中智能音箱[30]和對話機(jī)器人[31]作為最典型的與聲學(xué)領(lǐng)域相關(guān)的產(chǎn)品極大地豐富和便利了人們的日常生活。圖1.3基于深度學(xué)習(xí)的自動語音識別流程圖語音音素作為自動語音識別的重要研究組成部分,發(fā)揮著至關(guān)重要的作用[32]。早期,語音音素識別的任務(wù)并不會被拿出來單獨作為一個研究點,而是因為自動語音識別的任務(wù)需求才考慮它。一個字的發(fā)音由三個左右的音素組成,因此通過語音序列對文字的識別實際上也是對語音音素的識別。自動語音識別的發(fā)展到目前為止已經(jīng)經(jīng)歷了近六十年了,也就是說自計算機(jī)應(yīng)用以來,就一直有著對自動語音識別技術(shù)的研究,語音作為信息交流的載體,基于自動語音識別技術(shù)產(chǎn)生了很多實際的應(yīng)用和成果[33]。20世紀(jì)50年代,著名的Bell實驗室的研究人員根據(jù)人類聲帶振動發(fā)音的原理以及不同語種的語言語法規(guī)則提出語音音素系統(tǒng),并基于此系統(tǒng)研發(fā)了一個經(jīng)典的語音識別系統(tǒng)——孤立詞語音識別系統(tǒng)[34]。雖然該系統(tǒng)僅針對英語發(fā)音的阿拉伯?dāng)?shù)字,而且是同一個人的語音發(fā)音,但是其系統(tǒng)模式和研究方法仍然被后序研究者借鑒和完善。隨后,在語音領(lǐng)域興起了聲紋識別的研究熱情,基于高斯混合模型及其改進(jìn)的模型被應(yīng)用在了聲紋識別中[35–37]。因為聲紋識別與語音音素識別具有很高的相似性,所以聲紋識別的模型和方法也被用在了語音音素識別上,高斯混合模型成了這一階段音素識別的代表模型。再之后,人們對語音音素的理解不僅僅是語音的組成單位這么簡單了,同時,也隨著深度學(xué)習(xí)的到來,基于時序神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的模型都被用在了語音音素識別上[38–41],也基于此開發(fā)了許多實際應(yīng)用,比較典型的就是通過提高語音音素識別的精度進(jìn)?
本文編號:3651982
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3651982.html
最近更新
教材專著