天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

噪聲環(huán)境下孤立詞語音識別研究

發(fā)布時間:2020-10-31 10:52
   通常人類可以在背景音樂、引擎聲音和其他聲學噪音環(huán)境中識別語音,但自動語音識別(Automatic Speech Recognition,ASR)系統(tǒng)在這種環(huán)境中表現(xiàn)不佳。最近在神經(jīng)科學方面的實驗和理論工作已經(jīng)發(fā)現(xiàn)了許多可以用來解決這個問題的方法。本文基于生物啟發(fā)的ASR方法在噪聲環(huán)境下進行對ASR穩(wěn)健性的研究。首先本文對譜時響應(yīng)野(Spectrotemporal Receptive Field,STRF)進行理論研究,通過對比基于STRF的目標函數(shù)和ETSI在不同信噪比環(huán)境下的識別率,實驗結(jié)果證明以聽覺神經(jīng)元STRF為模型的ASR在噪聲環(huán)境下穩(wěn)健性有所提高,但其整體性能沒有明顯改善。其次,本文使用基于尖峰模型神經(jīng)元的語音表征方法,該方法中的神經(jīng)元是特征檢測器,其在語音的短時間窗口內(nèi)選擇性地響應(yīng)時間特征。并且提出一種基于支持向量機(Upport Vector Machine,SVM)的訓練神經(jīng)元響應(yīng)特性的方法,將STRF中的神經(jīng)元計算結(jié)果與先前無輔助手段下的神經(jīng)響應(yīng)結(jié)果進行比較,發(fā)現(xiàn)神經(jīng)元中的尖峰序列能夠提高系統(tǒng)穩(wěn)健性。本文使用兩種方法對基于尖峰的語音表征進行解碼,第一種方法使用基于隱馬爾可夫模型的經(jīng)典ASR技術(shù);第二種方法是一種改進的基于模板的識別方法,該方法是基于尖峰序列之間最長公共子序列的語音相似性度量。在不同信噪比環(huán)境下進行正交優(yōu)化實驗,實驗結(jié)果表明性能最優(yōu)的組合為基于尖峰模型神經(jīng)元的語音表征和改進的基于模板的識別方法。最后,應(yīng)用標記音節(jié)核心位置的音節(jié)檢測方法來解碼連續(xù)語音的尖峰表征,該方法通過將音節(jié)信息并入ASR系統(tǒng),并結(jié)合基于SVM的訓練與峰值選擇算法。使用該方法與傳統(tǒng)方法在不同信噪比環(huán)境下進行連續(xù)語音解碼,實驗結(jié)果表明該方法有效提高在噪聲條件下的識別率。然而,該方法在無噪聲條件下的識別率低于傳統(tǒng)方法。
【學位單位】:長春理工大學
【學位級別】:碩士
【學位年份】:2018
【中圖分類】:TN912.34
【部分圖文】:

聽覺,差距,語音識別


果差距仍然很大。2005 年,Sroka 和 Braida 在音識別結(jié)果與人類聽覺結(jié)果進行比較,其信噪]。2011 年一項類似研究中也發(fā)現(xiàn)了 15 dB 的差足[3]。2013 年基于神經(jīng)科學啟發(fā)方法的研究中語音識別會有 10 dB 的性能差距(圖 1.2)[4]。

聽覺,數(shù)字識別,人類,差距


結(jié)果差距仍然很大。2005 年,Sroka 和 Braida 在加性 的輔音識別結(jié)果與人類聽覺結(jié)果進行比較,其信噪比(1)[2]。2011 年一項類似研究中也發(fā)現(xiàn)了 15 dB 的差距,不足[3]。2013 年基于神經(jīng)科學啟發(fā)方法的研究中發(fā)現(xiàn)用語音識別會有 10 dB 的性能差距(圖 1.2)[4]。圖 1ASR 輔音識別與人類聽覺相比較

聽覺通路


1.2.2 大腦中的聽覺表示和編碼大腦處理語音和其他聲音如圖1.3所示,進入耳朵的聲音通過中耳骨傳遞到耳蝸。耳蝸的基底膜與語音中的各種頻率分量共振,將這些振動轉(zhuǎn)換成通過聽覺神經(jīng)發(fā)送到大腦的電信號。在腦干中,耳蝸核中的各種細胞類型對電信號進行歸一化和調(diào)制檢測,并將信號分離成“流”用于源定位和模式識別[19,21]。信息通過上橄欖體兩耳信號合并繼續(xù)到下丘(Inferior Colliculus, IC)。IC開始識別基本的時頻調(diào)制,并通過丘腦的內(nèi)側(cè)膝狀體核(Medial Geniculate Nucleus, MGN)將信號發(fā)送到皮層[19,22,23],研究重點在聽覺皮層上。圖 1.3 聽覺通路圖系統(tǒng)神經(jīng)科學最近的工作揭示了有關(guān)神經(jīng)反應(yīng)及其在該領(lǐng)域信息處理中的作用的見解。這些見解幾乎沒有涉及到 ASR,因此為新的基于生物學啟發(fā)的方法提供了豐富的想法。1.2.2.1 譜時響應(yīng)野(Spectrotemporal Receptive Field, STRF)30 年前首先由 Aertsen 和 Johannesma 提出聽覺神經(jīng)元的 STRF,這些研究的結(jié)果
【參考文獻】

相關(guān)期刊論文 前1條

1 麥麥提艾力·吐爾遜;戴禮榮;;深度神經(jīng)網(wǎng)絡(luò)在維吾爾語大詞匯量連續(xù)語音識別中的應(yīng)用[J];數(shù)據(jù)采集與處理;2015年02期


相關(guān)博士學位論文 前2條

1 張仕良;基于深度神經(jīng)網(wǎng)絡(luò)的語音識別模型研究[D];中國科學技術(shù)大學;2017年

2 游大濤;基于聽覺機理的魯棒特征提取及在說話人識別中的應(yīng)用[D];哈爾濱工業(yè)大學;2013年


相關(guān)碩士學位論文 前5條

1 劉勝江;連續(xù)數(shù)字語音識別系統(tǒng)的研究及應(yīng)用[D];浙江工業(yè)大學;2016年

2 朱曉明;序列的公共特征提取算法研究[D];大連理工大學;2016年

3 王一蒙;語音識別關(guān)鍵技術(shù)研究[D];電子科技大學;2015年

4 王真真;改進的稀疏最小二乘支持向量機在語音識別中的應(yīng)用[D];太原理工大學;2014年

5 郭偉;基于聽覺神經(jīng)原理的語音信號處理[D];上海交通大學;2009年



本文編號:2863849

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/wltx/2863849.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶8c108***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
制服丝袜美腿美女一区二区| 欧美日韩久久精品一区二区| 精品视频一区二区三区不卡| 欧美大胆女人的大胆人体| 亚洲国产成人精品一区刚刚| 精产国品一二三区麻豆| 欧美黄色成人真人视频| 国产av乱了乱了一区二区三区| 色婷婷视频免费在线观看| 在线视频免费看你懂的| 区一区二区三中文字幕| 成人精品欧美一级乱黄| 中文字幕不卡欧美在线| 中文字幕乱码一区二区三区四区| 精品国产亚洲免费91| 91人妻人人澡人人人人精品| 久草热视频这里只有精品| 日本人妻精品中文字幕不卡乱码| 亚洲中文字幕三区四区| 精品视频一区二区三区不卡| 欧美日韩亚洲国产精品| 国产偷拍盗摄一区二区| 国产精品久久精品毛片| 久久精品中文扫妇内射| 欧美一区二区三区播放| 91日韩欧美在线视频| 欧美丰满大屁股一区二区三区| 欧美精品女同一区二区| 国产麻豆一区二区三区在| 亚洲伦理中文字幕在线观看| 熟女体下毛荫荫黑森林自拍| 日韩女优精品一区二区三区| 日本女人亚洲国产性高潮视频| 日本午夜福利视频免费观看| 国产不卡的视频在线观看| 丁香六月婷婷基地伊人| 国产精品欧美一级免费| 欧美av人人妻av人人爽蜜桃| 国产又色又爽又黄又大| 日韩一级欧美一级久久| 国产国产精品精品在线|