藏語語音深度特征提取及語音識別研究
本文關鍵詞:藏語語音深度特征提取及語音識別研究
更多相關文章: 語音識別 隱馬爾科夫模型 稀疏自動編碼器 深度置信網(wǎng) 聲學模型
【摘要】:隨著對語言信息處理研究工作的不斷深入,藏文信息處理技術也從文字處理逐步轉向語言信息處理。藏文自動分詞和詞性標注是進行藏語語義理解、藏文信息檢索、藏語與其他語種之間的機器翻譯等的首要問題。藏語是我國一支重要的少數(shù)民族語種,藏語語音識別技術的研究與發(fā)展不僅可以使得不同民族之間的語言進行無障礙的溝通交流,也可以促使藏區(qū)經(jīng)濟、文化、教育等各領域的發(fā)展。而目前藏語語音識別研究仍處于初期階段。進入21世紀,深度學習逐漸成為語音特征提取的新的研究方向。深度學習采取多層非線性變換技術從原始數(shù)據(jù)中提取由低到高、由具體到抽象、由一般到特征語義的特征。本文將深度學習應用到藏語語音識別研究當中,首先介紹藏語語音識別的研究現(xiàn)狀、語音識別的基本原理及其深度學習的相關理論,并著重闡述了深度特征提取模型在藏語語音識別的中的應用。1.基于深度學習的藏語語音特征提取研究深度學習能夠克服人工設計特征會使原始語音數(shù)據(jù)特征丟失的缺點,學習出人工無法定義的特征。因此,基于大數(shù)據(jù)和深度學習來學習特征,更能反映數(shù)據(jù)的豐富內(nèi)在特征信息。本文主要使用稀疏自動編碼器和深度置信網(wǎng)兩種模型來提取藏語語音特征。從模型原理展開,就藏語特征提取模型的無監(jiān)督預訓練和有監(jiān)督的微調(diào)方法做了詳細描述。2.基于深度特征的藏語語音識別聲學模型研究基于深度學習提取的特征,使用GMM-HMM方法建立聲學模型分別對音素和音節(jié)識別。實驗證明,與MFCC特征相比,基于SA+MFCC特征的音素識別率最高為69.05%,提高10.22%,音節(jié)識別率為48.54%,提高了24.6個百分點;基于DBN+MFCC特征的音素識別率最高為69.46%,提高10.63%,音節(jié)識別率為49.04%,提高了25.1%,并且DBN模型使用更少的迭代次數(shù),因此,DBN模型效率更高。在以后的藏語語音識別研究工作中,我們可以采用DBN模型進行藏語連續(xù)語音識別的深度特征提取。
【關鍵詞】:語音識別 隱馬爾科夫模型 稀疏自動編碼器 深度置信網(wǎng) 聲學模型
【學位授予單位】:中央民族大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TN912.3
【目錄】:
- 摘要3-5
- ABSTRACT5-11
- 第一章 緒論11-15
- 1.1 研究背景與意義11-12
- 1.2 藏語語音識別技術的發(fā)展現(xiàn)狀12-13
- 1.3 論文創(chuàng)新點13
- 1.4 本文主要內(nèi)容及結構13-15
- 第二章 語音識別基本原理和相關理論15-27
- 2.1 人腦語音識別機理15-16
- 2.2 數(shù)字語音信號預處理16
- 2.3 數(shù)字語音信號的特征提取16-17
- 2.3.1 時域特征16-17
- 2.3.2 頻域特征17
- 2.4 聲學模型17-23
- 2.4.1 隱馬爾科夫模型(HMM)18-22
- 2.4.2 GMM-HMM聲學模型22-23
- 2.5 語言模型23-24
- 2.6 藏語語音基本特點24-27
- 第三章 基于深度學習的藏語語音特征提取研究27-37
- 3.1 深度學習的基本思想和常用方法27-28
- 3.1.1 深度學習的基本思想27
- 3.1.2 深度學習的常用模型27-28
- 3.2 稀疏自動編碼器模型28-32
- 3.2.1 稀疏自動編碼器原理28-31
- 3.2.2 基于稀疏自動編碼器的藏語深度特征提取模型31-32
- 3.3 深度置信網(wǎng)模型32-37
- 3.3.1 深度置信網(wǎng)模型原理32-35
- 3.3.2 基于深度置信網(wǎng)的藏語深度特征提取模型35-37
- 第四章 基于深度特征的藏語語音識別聲學模型研究37-41
- 4.1 建模單元的選擇37-38
- 4.2 HMM模型訓練38
- 4.2.1 triphones模型訓練38
- 4.3 基于深度特征的聲學建模38-39
- 4.4 基于深度特征和人工特征相結合的聲學建模39-41
- 第五章 仿真與實驗41-48
- 5.1 語音樣本庫的建立41-42
- 5.1.1 語音信號預處理41-42
- 5.2 基于MFCC特征的聲學模型實驗結果42
- 5.2.1 音素、音節(jié)識別結果42
- 5.3 基于深度特征的聲學模型實驗結果42-48
- 5.3.1 基于SA的音素、音節(jié)識別結果42-44
- 5.3.1.1 實驗設置42
- 5.3.1.2 實驗結果42-44
- 5.3.2 基于DBN的音素、音節(jié)識別結果44-48
- 5.3.2.1 實驗設置44-45
- 5.3.2.2 實驗結果45-48
- 第六章 總結與展望48-50
- 6.1 總結48
- 6.2 展望48-50
- 參考文獻50-52
- 致謝52-53
- 攻讀學位期間發(fā)表的學術論文目錄53
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 郭遠瓊;提高語音識別率點滴[J];電腦技術;2000年03期
2 邢文;語音識別[J];個人電腦;2000年02期
3 ;語音識別的真相[J];個人電腦;2001年12期
4 ;語音識別漸入佳境[J];個人電腦;2002年03期
5 ;微軟語音識別軟件可與人直接對話[J];自動化博覽;2003年04期
6 ;語音識別[J];印刷世界;2004年01期
7 杰里米·瓦格斯塔夫;讓語音識別軟件 解放你的雙手[J];農(nóng)業(yè)圖書情報學刊;2004年03期
8 韓紀慶,王歡良,李海峰,鄭鐵然;基于語音識別的發(fā)音學習技術[J];電聲技術;2004年09期
9 陳孝強;語音識別擬起新潮[J];微電腦世界;2005年07期
10 韓紀慶;張磊;鄭鐵然;;網(wǎng)絡環(huán)境下的語音識別方法[J];計算機科學;2005年01期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 張歆奕;吳今培;張其善;;語音的共性特征及其在語音識別中的應用[A];第十屆全國信號處理學術年會(CCSP-2001)論文集[C];2001年
2 杜樹木;何良華;;一種新的基于段長分布的語音識別模型[A];2009年通信理論與信號處理學術年會論文集[C];2009年
3 李楨;高萬林;歐文浩;徐山川;;基于關鍵詞語音識別的農(nóng)業(yè)信息語音服務系統(tǒng)的研究與實現(xiàn)[A];中國農(nóng)業(yè)工程學會電氣信息與自動化專業(yè)委員會、中國電機工程學會農(nóng)村電氣化分會科技與教育專委會2010年學術年會論文摘要[C];2010年
4 張冰;龍長才;羅海風;;熟悉掩蔽音背景下的目標語音識別[A];泛在信息社會中的聲學——中國聲學學會2010年全國會員代表大會暨學術會議論文集[C];2010年
5 王承發(fā);趙德彬;金山;苗百利;朱志瑩;;語音識別應用中抗噪聲干擾方法的初步探討[A];第二屆全國人機語音通訊學術會議論文集[C];1992年
6 杜笑平;楊啟綱;楊家沅;;過零周期轉移概率矩陣語音識別部件的研制[A];第二屆全國人機語音通訊學術會議論文集[C];1992年
7 季宏;劉志文;杜燕玲;黃曾陽;;語音識別中的音字轉換[A];第三屆全國人機語音通訊學術會議論文集[C];1994年
8 葛余博;楊大利;曾德超;;噪聲環(huán)境下語音識別的幾個問題(一)[A];第三屆全國人機語音通訊學術會議論文集[C];1994年
9 朱奇峰;俞鐵城;;聽覺中的協(xié)同現(xiàn)象和其對語音識別影響的探討[A];第四屆全國人機語音通訊學術會議論文集[C];1996年
10 姚磊;黃泰翼;陳景東;;一種高魯棒性語音識別的通用自適應方法研究[A];第四屆全國人機語音通訊學術會議論文集[C];1996年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 黃夢;方案商積極切入語音識別市場[N];電腦商報;2006年
2 閆婷;語音識別 理想與現(xiàn)實的距離[N];計算機世界;2007年
3 劉喜喜;語音識別將把鼠標鍵盤打入冷宮?[N];中國計算機報;2008年
4 樂天;語音識別:讓你的手機更聰明[N];計算機世界;2011年
5 特約作者 王佳彬;語音識別漸入佳境[N];電腦報;2002年
6 雨夏;語音識別重在應用[N];計算機世界;2001年
7 ;語音識別企業(yè)應用前景光明[N];計算機世界;2003年
8 王向東 欒煥博 林守勛 錢躍良;語音識別:抗噪音能力有待加強[N];計算機世界;2006年
9 上海 高博;讓電腦“聽懂”人話[N];電腦報;2008年
10 張彤;語音識別融入統(tǒng)一通信[N];網(wǎng)絡世界;2008年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 許金普;農(nóng)產(chǎn)品市場信息采集的語音識別魯棒性方法研究[D];中國農(nóng)業(yè)科學院;2015年
2 包希日莫;面向蒙古語的語音識別聲學建模研究[D];內(nèi)蒙古大學;2016年
3 吳斌;語音識別中的后處理技術研究[D];北京郵電大學;2008年
4 奉小慧;音頻噪聲環(huán)境下唇動信息在語音識別中的應用技術研究[D];華南理工大學;2010年
5 孫f,
本文編號:1001385
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/1001385.html