基于卷積神經(jīng)網(wǎng)絡(luò)的不同口音對話自適應(yīng)識別研究
發(fā)布時間:2021-01-15 19:25
近年來,計算機與互聯(lián)網(wǎng)引領(lǐng)了整個世界的發(fā)展潮流,在這個信息爆炸的大數(shù)據(jù)時代,每天來自各個領(lǐng)域的音頻文件不計其數(shù),語音識別技術(shù)也隨之越來越受到學(xué)術(shù)研究和工業(yè)生產(chǎn)的青睞。然而在語音識別的過程中難免會遇到在一段語音中包含有不止一個說話人的音頻文件,也難免會有帶有不同口音的說話人聲音存在,這兩種客觀問題的存在勢必會影響語音識別的效果,很大程度上降低了識別系統(tǒng)的性能。因此本文針對這兩個問題展開研究和討論。本文首先提出一種基于美爾頻率倒普參數(shù)(Mel-Frequency Cepstral Coefficients,MFCC)和語譜圖(SPECTROGRAM)的融合特征MFCCSPECTROGRAM。由于人耳對聲音的感知系統(tǒng)是一種特殊的非線性系統(tǒng),美爾頻率倒普參數(shù)就是從人耳聽覺角度出發(fā)著重描述語音信號的隱含特征,而語譜圖則是從人體對語音信號的生成系統(tǒng)角度出發(fā)著重描述語音信號的本質(zhì)特征,本文結(jié)合MFCC和SPECTROGRAM兩種特征各自帶有的特性,提出MFCCSPECTROGRAM語音融合特征參數(shù),作為后續(xù)語音研究的基礎(chǔ)特征。其次本文引入CALL-CENT...
【文章來源】:重慶大學(xué)重慶市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:61 頁
【學(xué)位級別】:碩士
【部分圖文】:
人體發(fā)聲系統(tǒng)結(jié)構(gòu)圖
圖 2.2 人體聽覺系統(tǒng)結(jié)構(gòu)圖Fig. 2.2 Structure diagram of human auditory system如圖 2.2 所示,人耳一般包括內(nèi)耳、中耳、外耳三個部分。其中外耳由耳廓和道構(gòu)成,在耳道的末端是鼓膜,它位于外耳和中耳之間,也是中耳的起點。包含三根聽骨分別是錘骨、砧骨和鐙骨。內(nèi)耳包括耳蝸、前庭、半規(guī)管、歐和聽覺神經(jīng)等部分。在人體聽覺系統(tǒng)中,外耳在對聲音感知的過程中主要起聲源進行定位并將聲音放大的作用。中耳的作用主要是為了平衡中耳與外耳的氣壓,保證鼓膜的正常振動;對比較強的聲音起到發(fā)射作用,降低傳入內(nèi)聲音強度,起到保護作用;使聲音可以有效地從外耳傳入到內(nèi)耳,起阻抗匹用。內(nèi)耳是聽覺的接收器,把聲音通過機械變換產(chǎn)生神經(jīng)脈沖,內(nèi)耳也是連腦聽覺中樞的起點。聲音經(jīng)過外耳部的耳廓傳入耳道,從而引起鼓膜的振動。通過聽骨傳入內(nèi)耳,引起耳蝸內(nèi)的淋巴液體振動,從而使內(nèi)耳里的毛細胞感振動,發(fā)出神經(jīng)脈沖,神經(jīng)脈沖沿著神經(jīng)通路傳入大腦的聽覺神經(jīng)中樞,人腦接收到外界的聲音信號,最后使人產(chǎn)生聽覺。至此,就完成了語音信號感
語音信號產(chǎn)生模型如圖2.3 所示:它的傳遞函數(shù)可以表示為:(2.1)圖 2.3 語音信號產(chǎn)生模型Fig. 2.3 Speech signal generation model激勵模型主要是通過肺部氣流和聲帶共同作用形成的激勵,激勵可以分為準周期脈沖和隨即噪聲兩種。準周期脈沖的激勵聲道產(chǎn)生濁音,此時圖 2.3 中的清音/濁音“開關(guān)”向上, 是聲門脈沖即三角形脈沖序列的 z 變換,另一種隨即噪聲的激勵聲道產(chǎn)生清音,這種情況下圖中的清音/濁音“開關(guān)”向下, 是隨機噪聲z 的變換。 和 分別為濁音和清音的幅度控制信號。聲道模型的主要作用是進行調(diào)音運動,當(dāng)聲波經(jīng)過聲道的時候,受到聲腔共振影響,在一些特定頻率的附近形成諧振。 是聲道傳輸函數(shù)。其數(shù)學(xué)模型可采用將 N 段短聲管的級聯(lián)結(jié)構(gòu)模擬,每級的聲管截面積不變,傳輸函數(shù)全極點模型可表示為:(2.2)輻射模型主要是指嘴唇和鼻子的輻射作用,令 是輻射模型函數(shù)。從聲道聲門波模型隨機噪聲發(fā)生器
【參考文獻】:
期刊論文
[1]基于基頻的朝鮮語方言辨識方法的研究[J]. 劉雙君,金小峰,崔榮一. 中文信息學(xué)報. 2017(02)
[2]基于聯(lián)合多樣性密度的漢語方言辨識[J]. 顧明亮,張世形,張浩,張寧. 計算機工程與應(yīng)用. 2016(10)
[3]基于卷積神經(jīng)網(wǎng)絡(luò)的多字體字符識別[J]. 呂剛. 浙江師范大學(xué)學(xué)報(自然科學(xué)版). 2011(04)
[4]基于預(yù)分割的說話人分割方法[J]. 鄭鐵然,李海峰,劉先,韓紀慶. 通信學(xué)報. 2009(02)
[5]一種兩層次無監(jiān)督的音頻分割算法[J]. 張世磊,張樹武,徐波. 中文信息學(xué)報. 2007(02)
[6]基于高斯混合模型的漢語方言辨識系統(tǒng)[J]. 顧明亮,馬勇. 計算機工程與應(yīng)用. 2007(03)
[7]基于語音配列的漢語方言自動辨識[J]. 顧明亮,沈兆勇. 中文信息學(xué)報. 2006(05)
博士論文
[1]說話人識別中語音特征參數(shù)提取方法的研究[D]. 王玥.吉林大學(xué) 2009
碩士論文
[1]基于GMM-UBM的快速說話人識別方法[D]. 王秋雯.哈爾濱工業(yè)大學(xué) 2011
本文編號:2979381
【文章來源】:重慶大學(xué)重慶市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:61 頁
【學(xué)位級別】:碩士
【部分圖文】:
人體發(fā)聲系統(tǒng)結(jié)構(gòu)圖
圖 2.2 人體聽覺系統(tǒng)結(jié)構(gòu)圖Fig. 2.2 Structure diagram of human auditory system如圖 2.2 所示,人耳一般包括內(nèi)耳、中耳、外耳三個部分。其中外耳由耳廓和道構(gòu)成,在耳道的末端是鼓膜,它位于外耳和中耳之間,也是中耳的起點。包含三根聽骨分別是錘骨、砧骨和鐙骨。內(nèi)耳包括耳蝸、前庭、半規(guī)管、歐和聽覺神經(jīng)等部分。在人體聽覺系統(tǒng)中,外耳在對聲音感知的過程中主要起聲源進行定位并將聲音放大的作用。中耳的作用主要是為了平衡中耳與外耳的氣壓,保證鼓膜的正常振動;對比較強的聲音起到發(fā)射作用,降低傳入內(nèi)聲音強度,起到保護作用;使聲音可以有效地從外耳傳入到內(nèi)耳,起阻抗匹用。內(nèi)耳是聽覺的接收器,把聲音通過機械變換產(chǎn)生神經(jīng)脈沖,內(nèi)耳也是連腦聽覺中樞的起點。聲音經(jīng)過外耳部的耳廓傳入耳道,從而引起鼓膜的振動。通過聽骨傳入內(nèi)耳,引起耳蝸內(nèi)的淋巴液體振動,從而使內(nèi)耳里的毛細胞感振動,發(fā)出神經(jīng)脈沖,神經(jīng)脈沖沿著神經(jīng)通路傳入大腦的聽覺神經(jīng)中樞,人腦接收到外界的聲音信號,最后使人產(chǎn)生聽覺。至此,就完成了語音信號感
語音信號產(chǎn)生模型如圖2.3 所示:它的傳遞函數(shù)可以表示為:(2.1)圖 2.3 語音信號產(chǎn)生模型Fig. 2.3 Speech signal generation model激勵模型主要是通過肺部氣流和聲帶共同作用形成的激勵,激勵可以分為準周期脈沖和隨即噪聲兩種。準周期脈沖的激勵聲道產(chǎn)生濁音,此時圖 2.3 中的清音/濁音“開關(guān)”向上, 是聲門脈沖即三角形脈沖序列的 z 變換,另一種隨即噪聲的激勵聲道產(chǎn)生清音,這種情況下圖中的清音/濁音“開關(guān)”向下, 是隨機噪聲z 的變換。 和 分別為濁音和清音的幅度控制信號。聲道模型的主要作用是進行調(diào)音運動,當(dāng)聲波經(jīng)過聲道的時候,受到聲腔共振影響,在一些特定頻率的附近形成諧振。 是聲道傳輸函數(shù)。其數(shù)學(xué)模型可采用將 N 段短聲管的級聯(lián)結(jié)構(gòu)模擬,每級的聲管截面積不變,傳輸函數(shù)全極點模型可表示為:(2.2)輻射模型主要是指嘴唇和鼻子的輻射作用,令 是輻射模型函數(shù)。從聲道聲門波模型隨機噪聲發(fā)生器
【參考文獻】:
期刊論文
[1]基于基頻的朝鮮語方言辨識方法的研究[J]. 劉雙君,金小峰,崔榮一. 中文信息學(xué)報. 2017(02)
[2]基于聯(lián)合多樣性密度的漢語方言辨識[J]. 顧明亮,張世形,張浩,張寧. 計算機工程與應(yīng)用. 2016(10)
[3]基于卷積神經(jīng)網(wǎng)絡(luò)的多字體字符識別[J]. 呂剛. 浙江師范大學(xué)學(xué)報(自然科學(xué)版). 2011(04)
[4]基于預(yù)分割的說話人分割方法[J]. 鄭鐵然,李海峰,劉先,韓紀慶. 通信學(xué)報. 2009(02)
[5]一種兩層次無監(jiān)督的音頻分割算法[J]. 張世磊,張樹武,徐波. 中文信息學(xué)報. 2007(02)
[6]基于高斯混合模型的漢語方言辨識系統(tǒng)[J]. 顧明亮,馬勇. 計算機工程與應(yīng)用. 2007(03)
[7]基于語音配列的漢語方言自動辨識[J]. 顧明亮,沈兆勇. 中文信息學(xué)報. 2006(05)
博士論文
[1]說話人識別中語音特征參數(shù)提取方法的研究[D]. 王玥.吉林大學(xué) 2009
碩士論文
[1]基于GMM-UBM的快速說話人識別方法[D]. 王秋雯.哈爾濱工業(yè)大學(xué) 2011
本文編號:2979381
本文鏈接:http://sikaile.net/kejilunwen/wltx/2979381.html
最近更新
教材專著