當(dāng)前位置：主頁(yè) > 科技論文 > 網(wǎng)絡(luò)通信論文 >

基于卷積神經(jīng)網(wǎng)絡(luò)的不同口音對(duì)話自適應(yīng)識(shí)別研究

發(fā)布時(shí)間：2021-01-15 19:25

　　近年來(lái),計(jì)算機(jī)與互聯(lián)網(wǎng)引領(lǐng)了整個(gè)世界的發(fā)展潮流,在這個(gè)信息爆炸的大數(shù)據(jù)時(shí)代,每天來(lái)自各個(gè)領(lǐng)域的音頻文件不計(jì)其數(shù),語(yǔ)音識(shí)別技術(shù)也隨之越來(lái)越受到學(xué)術(shù)研究和工業(yè)生產(chǎn)的青睞。然而在語(yǔ)音識(shí)別的過(guò)程中難免會(huì)遇到在一段語(yǔ)音中包含有不止一個(gè)說(shuō)話人的音頻文件,也難免會(huì)有帶有不同口音的說(shuō)話人聲音存在,這兩種客觀問(wèn)題的存在勢(shì)必會(huì)影響語(yǔ)音識(shí)別的效果,很大程度上降低了識(shí)別系統(tǒng)的性能。因此本文針對(duì)這兩個(gè)問(wèn)題展開(kāi)研究和討論。本文首先提出一種基于美爾頻率倒普參數(shù)（Mel-Frequency Cepstral Coefficients,MFCC）和語(yǔ)譜圖（SPECTROGRAM）的融合特征MFCC_SPECTROGRAM。由于人耳對(duì)聲音的感知系統(tǒng)是一種特殊的非線性系統(tǒng),美爾頻率倒普參數(shù)就是從人耳聽(tīng)覺(jué)角度出發(fā)著重描述語(yǔ)音信號(hào)的隱含特征,而語(yǔ)譜圖則是從人體對(duì)語(yǔ)音信號(hào)的生成系統(tǒng)角度出發(fā)著重描述語(yǔ)音信號(hào)的本質(zhì)特征,本文結(jié)合MFCC和SPECTROGRAM兩種特征各自帶有的特性,提出MFCC_SPECTROGRAM語(yǔ)音融合特征參數(shù),作為后續(xù)語(yǔ)音研究的基礎(chǔ)特征。其次本文引入CALL-CENT...

【文章來(lái)源】：重慶大學(xué)重慶市 211工程院校 985工程院校教育部直屬院校

【文章頁(yè)數(shù)】：61 頁(yè)

【學(xué)位級(jí)別】：碩士

【部分圖文】：

人體發(fā)聲系統(tǒng)結(jié)構(gòu)圖

結(jié)構(gòu)圖,聽(tīng)覺(jué)系統(tǒng),人體,結(jié)構(gòu)圖

圖 2.2 人體聽(tīng)覺(jué)系統(tǒng)結(jié)構(gòu)圖Fig. 2.2 Structure diagram of human auditory system如圖 2.2 所示，人耳一般包括內(nèi)耳、中耳、外耳三個(gè)部分。其中外耳由耳廓和道構(gòu)成，在耳道的末端是鼓膜，它位于外耳和中耳之間，也是中耳的起點(diǎn)。包含三根聽(tīng)骨分別是錘骨、砧骨和鐙骨。內(nèi)耳包括耳蝸、前庭、半規(guī)管、歐和聽(tīng)覺(jué)神經(jīng)等部分。在人體聽(tīng)覺(jué)系統(tǒng)中，外耳在對(duì)聲音感知的過(guò)程中主要起聲源進(jìn)行定位并將聲音放大的作用。中耳的作用主要是為了平衡中耳與外耳的氣壓，保證鼓膜的正常振動(dòng)；對(duì)比較強(qiáng)的聲音起到發(fā)射作用，降低傳入內(nèi)聲音強(qiáng)度，起到保護(hù)作用；使聲音可以有效地從外耳傳入到內(nèi)耳，起阻抗匹用。內(nèi)耳是聽(tīng)覺(jué)的接收器，把聲音通過(guò)機(jī)械變換產(chǎn)生神經(jīng)脈沖，內(nèi)耳也是連腦聽(tīng)覺(jué)中樞的起點(diǎn)。聲音經(jīng)過(guò)外耳部的耳廓傳入耳道，從而引起鼓膜的振動(dòng)。通過(guò)聽(tīng)骨傳入內(nèi)耳，引起耳蝸內(nèi)的淋巴液體振動(dòng)，從而使內(nèi)耳里的毛細(xì)胞感振動(dòng)，發(fā)出神經(jīng)脈沖，神經(jīng)脈沖沿著神經(jīng)通路傳入大腦的聽(tīng)覺(jué)神經(jīng)中樞，人腦接收到外界的聲音信號(hào)，最后使人產(chǎn)生聽(tīng)覺(jué)。至此，就完成了語(yǔ)音信號(hào)感

模型圖,語(yǔ)音信號(hào),模型,聲道

語(yǔ)音信號(hào)產(chǎn)生模型如圖2.3 所示：它的傳遞函數(shù)可以表示為：(2.1)圖 2.3 語(yǔ)音信號(hào)產(chǎn)生模型Fig. 2.3 Speech signal generation model激勵(lì)模型主要是通過(guò)肺部氣流和聲帶共同作用形成的激勵(lì)，激勵(lì)可以分為準(zhǔn)周期脈沖和隨即噪聲兩種。準(zhǔn)周期脈沖的激勵(lì)聲道產(chǎn)生濁音，此時(shí)圖 2.3 中的清音/濁音“開(kāi)關(guān)”向上，是聲門(mén)脈沖即三角形脈沖序列的 z 變換，另一種隨即噪聲的激勵(lì)聲道產(chǎn)生清音，這種情況下圖中的清音/濁音“開(kāi)關(guān)”向下，是隨機(jī)噪聲z 的變換。和分別為濁音和清音的幅度控制信號(hào)。聲道模型的主要作用是進(jìn)行調(diào)音運(yùn)動(dòng)，當(dāng)聲波經(jīng)過(guò)聲道的時(shí)候，受到聲腔共振影響，在一些特定頻率的附近形成諧振。是聲道傳輸函數(shù)。其數(shù)學(xué)模型可采用將 N 段短聲管的級(jí)聯(lián)結(jié)構(gòu)模擬，每級(jí)的聲管截面積不變，傳輸函數(shù)全極點(diǎn)模型可表示為：(2.2)輻射模型主要是指嘴唇和鼻子的輻射作用，令是輻射模型函數(shù)。從聲道聲門(mén)波模型隨機(jī)噪聲發(fā)生器

【參考文獻(xiàn)】：
期刊論文
[1]基于基頻的朝鮮語(yǔ)方言辨識(shí)方法的研究[J]. 劉雙君,金小峰,崔榮一.  中文信息學(xué)報(bào). 2017(02)
[2]基于聯(lián)合多樣性密度的漢語(yǔ)方言辨識(shí)[J]. 顧明亮,張世形,張浩,張寧.  計(jì)算機(jī)工程與應(yīng)用. 2016(10)
[3]基于卷積神經(jīng)網(wǎng)絡(luò)的多字體字符識(shí)別[J]. 呂剛.  浙江師范大學(xué)學(xué)報(bào)(自然科學(xué)版). 2011(04)
[4]基于預(yù)分割的說(shuō)話人分割方法[J]. 鄭鐵然,李海峰,劉先,韓紀(jì)慶.  通信學(xué)報(bào). 2009(02)
[5]一種兩層次無(wú)監(jiān)督的音頻分割算法[J]. 張世磊,張樹(shù)武,徐波.  中文信息學(xué)報(bào). 2007(02)
[6]基于高斯混合模型的漢語(yǔ)方言辨識(shí)系統(tǒng)[J]. 顧明亮,馬勇.  計(jì)算機(jī)工程與應(yīng)用. 2007(03)
[7]基于語(yǔ)音配列的漢語(yǔ)方言自動(dòng)辨識(shí)[J]. 顧明亮,沈兆勇.  中文信息學(xué)報(bào). 2006(05)

博士論文
[1]說(shuō)話人識(shí)別中語(yǔ)音特征參數(shù)提取方法的研究[D]. 王玥.吉林大學(xué) 2009

碩士論文
[1]基于GMM-UBM的快速說(shuō)話人識(shí)別方法[D]. 王秋雯.哈爾濱工業(yè)大學(xué) 2011

本文編號(hào)：2979381

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/wltx/2979381.html

上一篇：大規(guī)模天線系統(tǒng)中的導(dǎo)頻污染抑制方案研究
下一篇：空地一體化網(wǎng)絡(luò)的高效組網(wǎng)理論研究

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于卷積神經(jīng)網(wǎng)絡(luò)的不同口音對(duì)話自適應(yīng)識(shí)別研究