天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 信息工程論文 >

基于深度神經(jīng)網(wǎng)絡(luò)的安多藏語語音識別

發(fā)布時間:2020-10-26 20:40
   語音識別是模式識別領(lǐng)域中重要的研究分支,其目的是將人類語音信息轉(zhuǎn)換為文本信息。在漢語和英語語音識別中,相比于傳統(tǒng)的高斯混合模型-隱馬爾科夫模型,深度神經(jīng)網(wǎng)絡(luò)的識別性能實現(xiàn)了質(zhì)的飛躍。但目前有關(guān)藏語語音識別的研究較少,特別是藏語屬于低資源語言且存在濁輔音趨于清化、元音有長短區(qū)別、單元音增多等特點,使得藏語的語音識別仍面臨諸多挑戰(zhàn)。在藏語的衛(wèi)藏、康巴與安多三大方言中,針對衛(wèi)藏方言的語音識別研究相對較多,有關(guān)安多方言與康巴方言的研究相對較少,特別是深度神經(jīng)網(wǎng)絡(luò)在安多藏語語音識別中的應(yīng)用尚未深入研究。因此,本文從安多藏語聲學(xué)模型結(jié)構(gòu)出發(fā),探討了端對端雙向長短時記憶網(wǎng)絡(luò)在安多藏語語音識別中的應(yīng)用。本文研究內(nèi)容如下:1)語料庫建立。收集了安多藏語中出現(xiàn)頻率最高的1278個單音節(jié)詞匯,對每個詞匯采集藏語安多方言的語音樣本,采樣頻率為16KHZ、量化精度為16bit且通過Cool Edit Pro軟件在噪聲不高于50dB的室內(nèi)錄制。2)預(yù)處理。對藏語安多方言語音信號進行預(yù)加重、分幀、加窗、預(yù)處理操作,消除由于人類本身發(fā)聲器官和語音信號采集設(shè)備所帶來的混疊、高次諧波失真、高頻等因素對語音信號質(zhì)量的影響。預(yù)處理操作使語音信號更均勻、平滑,確保在特征提取階段提取更優(yōu)質(zhì)的參數(shù),從而提高語音識別性能。3)特征提取。在安多藏語語音識別任務(wù)中,考慮藏語發(fā)音的特點,探討了不同特征提取方法對系統(tǒng)性能的影響。本文分別采用傳統(tǒng)梅爾頻率倒譜系數(shù)和卷積神經(jīng)網(wǎng)絡(luò)兩種方式提取特征。實驗結(jié)果表明,應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)提取的特征效果優(yōu)于梅爾頻率倒譜系數(shù)特征。4)聲學(xué)建模。雙向長短期網(wǎng)絡(luò)適合處理序列問題,鏈接時序分類技術(shù)不需要預(yù)先對數(shù)據(jù)進行標注、對齊處理以及后處理操作。因此將鏈接時序分類技術(shù)與雙向長短時記憶網(wǎng)絡(luò)相結(jié)合,實現(xiàn)了端對端的安多藏語聲學(xué)建模。實驗證明,基于雙向長短時記憶網(wǎng)絡(luò)端對端的安多藏語聲學(xué)模型獲得了較好的性能。
【學(xué)位單位】:青海師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2019
【中圖分類】:TN912.34;TP183
【部分圖文】:

語音識別,原理框圖,語音特征,特征提取


研究現(xiàn)狀包括兩個階段:設(shè)計階段和決策階段,語料庫建設(shè)、預(yù)處理、特征提取、模型訓(xùn)獲取、預(yù)處理、特征提取、分類決策等。環(huán)節(jié),因此,下文主要介紹特征提取和模語音信號 語音特征知語音信號 語音特征分類決策模型訓(xùn)練

藏語,地理分布,安多方言,范圍


圖 1-1 藏語三大方言的地理分布范圍間的發(fā)音差異較大,但文字是統(tǒng)一的。藏文字母和 4 個元音字母。30 個輔音字母為: ,4個元音字母為: 。按照下組合構(gòu)成字符;字符通過左右組合構(gòu)成音最小的語音單位,也是最小的語義單位。音節(jié)以及句子。書寫時,用專門的分隔符― ‖把相鄰 。音主要有以下幾方面的特點:1)安多方言復(fù)沒有聲調(diào);3)安多方言有送氣清擦音聲母;方言無復(fù)元音;6)安多方言無長元音;7)安言在發(fā)音上有較多獨特的地方。因此,本文的

函數(shù),工神經(jīng)網(wǎng)絡(luò),訓(xùn)練樣本集,非線性函數(shù)


能在訓(xùn)練樣本集中觀測到它們的值,因此工神經(jīng)網(wǎng)絡(luò)具有非常重要的作用,目的是將網(wǎng)絡(luò)可以任意逼近任何非線性函數(shù)。常見數(shù)將取值為 的數(shù)映射到 之如圖 2-2 所示:
【參考文獻】

相關(guān)期刊論文 前10條

1 王山海;景新幸;楊海燕;;基于深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的孤立詞語音識別的研究[J];計算機應(yīng)用研究;2015年08期

2 王一;楊俊安;劉輝;柳林;;基于層次稀疏DBN的瓶頸特征提取方法[J];模式識別與人工智能;2015年02期

3 張晴晴;劉勇;王智超;潘接林;顏永紅;;卷積神經(jīng)網(wǎng)絡(luò)在語音識別中的應(yīng)用[J];網(wǎng)絡(luò)新媒體技術(shù);2014年06期

4 普次仁;頓珠次仁;;基于LDA-MFCC的藏語語音特征提取技術(shù)研究[J];西藏大學(xué)學(xué)報(自然科學(xué)版);2014年01期

5 陳斌;張連海;牛銅;屈丹;李弼程;;基于MCE準則的語音識別特征線性判別分析[J];自動化學(xué)報;2014年06期

6 蔡尚;金鑫;高圣翔;潘接林;顏永紅;;用于噪聲魯棒性語音識別的子帶能量規(guī)整感知線性預(yù)測系數(shù)[J];聲學(xué)學(xué)報;2012年06期

7 黃浩;李兵虎;吾守爾·斯拉木;;區(qū)分性模型組合中基于決策樹的聲學(xué)上下文建模方法[J];自動化學(xué)報;2012年09期

8 王彪;;基于LPCC參數(shù)的語音識別系統(tǒng)[J];電子設(shè)計工程;2012年07期

9 伊·達瓦;匂坂芳典;中村哲;;語料資源缺乏的連續(xù)語音識別方法的研究[J];自動化學(xué)報;2010年04期

10 劉雅琴;智愛娟;;幾種語音識別特征參數(shù)的研究[J];計算機技術(shù)與發(fā)展;2009年12期


相關(guān)碩士學(xué)位論文 前5條

1 周楠;基于深度學(xué)習(xí)的藏語非特定人連續(xù)語音識別研究[D];中央民族大學(xué);2017年

2 劉曉鳳;藏語語音深度特征提取及語音識別研究[D];中央民族大學(xué);2016年

3 張宇聰;基于深度學(xué)習(xí)的藏語拉薩方言語音識別的研究[D];西北師范大學(xué);2016年

4 崔天宇;基于HMM的語音識別系統(tǒng)的研究與實現(xiàn)[D];吉林大學(xué);2016年

5 德慶卓瑪;基于特定人小詞匯量藏語語音特征值提取的研究[D];西藏大學(xué);2010年



本文編號:2857502

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/2857502.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶bded2***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com