面向儀表校驗機器人的自然語言理解研究
本文選題:語音識別 切入點:儀表校驗 出處:《哈爾濱工業(yè)大學》2017年碩士論文
【摘要】:語音指令的識別與理解是儀表校驗機器人智能化控制的前提,本課題針對常見商用語音識別軟件對校驗術語識別效果差的問題,進行面向儀表校驗機器人的自然語言理解研究。從聲學模型和語言模型兩方面入手,分析影響語音識別系統(tǒng)性能的關鍵指標,并對指令語句進行理解。同時考慮到應用過程中控制語句的擴充需求,引入說話人自適應模塊,解決訓練過程中數(shù)據(jù)稀疏的問題。首先,基于短時分析技術實現(xiàn)對語音信號的預處理,包括預加重與短時加窗運算,減少采集和傳輸過程中的衰減與干擾,并獲取若干用于后續(xù)計算的短時準穩(wěn)態(tài)過程。采用MFCC參數(shù)基礎上的特征向量,提取了包含12維MFCC系數(shù)、對數(shù)能量值、以及它們的一階、二階差分系數(shù),共39維的特征向量,將無法直接處理的語音信號抽象成數(shù)學形式。然后,針對識別基元建立HMM(隱馬爾可夫模型)聲學模型,采用輸出為連續(xù)5維混合高斯分布的5狀態(tài)自左向右的拓撲結(jié)構。利用Baum-Welch算法進行嵌入式訓練,在上下文無關的monophone模型的基礎上訓練識別性能更優(yōu)的上下文相關triphone模型,通過基于Viterbi算法的令牌傳遞法進行解碼,獲取語音識別結(jié)果,識別率達到90.2%。打破單純使用聲學模型的局限性,融合二元文法統(tǒng)計語言模型規(guī)定字詞的上下文依存關系,令識別率提升至98.9%。為每條指令賦予唯一ID編號,實現(xiàn)自然語言的簡單理解,將語音指令識別結(jié)果轉(zhuǎn)化機器可以處理的形式。最后,針對儀表校驗機器人實際應用過程中擴展詞條時可能出現(xiàn)的訓練數(shù)據(jù)稀疏問題,在MAP、MLLR算法的基礎上,利用MAP/MLLR混合算法進行說話人自適應計算,將自適應前15.5%的識別率提升至85.0%,進而實現(xiàn)只需少量目標說話人的訓練數(shù)據(jù)即可穩(wěn)健匹配新說話人語音特征的自適應設計。
[Abstract]:The recognition and understanding of speech instructions is the premise of intelligent control of instrument verification robot. In this paper, the natural language understanding of instrumentation verification robot is studied. The key indexes affecting the performance of speech recognition system are analyzed from two aspects: acoustic model and language model. At the same time, the speaker adaptive module is introduced to solve the problem of sparse data in the process of training. Based on the short-time analysis technology, the speech signal preprocessing is realized, including pre-weighting and short-time windowing operation, which can reduce the attenuation and interference in the process of acquisition and transmission. Some short-time quasi-steady-state processes for subsequent computation are obtained. Using the eigenvector based on MFCC parameters, the eigenvectors including 12-dimensional MFCC coefficients, logarithmic energy values, their first-order, second-order difference coefficients, and common 39-dimensional eigenvectors are extracted. Abstract the speech signal which can not be processed directly into mathematical form. Then, the HMMM (Hidden Markov Model) acoustic model is established for the recognition primitive. A 5-state topology with output of continuous 5-dimensional mixed Gao Si distribution from left to right is adopted. Based on the context-independent monophone model, a context-dependent triphone model with better performance is trained by using the Baum-Welch algorithm. The method of token passing based on Viterbi algorithm is used to decode, and the result of speech recognition is obtained. The recognition rate is 90.2. The limitation of pure acoustic model is broken, and the context-dependent relation of words stipulated by the statistical language model of binary grammar is fused. Increase the recognition rate to 98.9. Assign a unique ID number to each instruction, achieve a simple understanding of the natural language, and convert the result of speech instruction recognition into a form that the machine can handle. Finally, In order to solve the problem of sparse training data in the practical application of instrumentation verification robot, the MAP/MLLR hybrid algorithm is used to solve the problem of sparse training data. The recognition rate of the first 15.5% of the adaptive speaker is raised to 85.0%, and then the adaptive design of matching the new speaker's speech features with only a small amount of target speaker's training data is realized.
【學位授予單位】:哈爾濱工業(yè)大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:TN912.3
【參考文獻】
相關期刊論文 前10條
1 蔣泰;張林軍;;語音識別自適應算法在智能家居中的應用[J];計算機系統(tǒng)應用;2017年03期
2 惠益龍;張?zhí)t;呂蓮花;王蓓蓓;;語音識別中的統(tǒng)計語言模型研究[J];信息技術;2017年01期
3 姜姝姝;;語音識別64年大突破[J];機器人產(chǎn)業(yè);2016年06期
4 徐鑫;;語音識別的未來之路[J];通信世界;2016年16期
5 李軼南;張雄偉;李治中;吳海佳;孫久皓;;第1講 深度學習:開啟人工智能的新紀元[J];軍事通信技術;2015年04期
6 銀珠;;百度漢語語音識別獲重大突破[J];計算機與網(wǎng)絡;2015年20期
7 李寧;徐守坤;馬正華;石林;;自適應語音識別算法仿真研究[J];計算機仿真;2011年08期
8 任杰;;語音識別技術概述[J];大眾科技;2010年08期
9 倪崇嘉;劉文舉;徐波;;漢語大詞匯量連續(xù)語音識別系統(tǒng)研究進展[J];中文信息學報;2009年01期
10 詹新明;黃南山;楊燦;;語音識別技術研究進展[J];現(xiàn)代計算機(專業(yè)版);2008年09期
相關會議論文 前2條
1 李凈;徐明星;張繼勇;鄭方;吳文虎;方棣棠;;漢語連續(xù)語音識別中聲學模型基元比較:音節(jié)、音素、聲韻母[A];第六屆全國人機語音通訊學術會議(NCMMSC6)論文集[C];2001年
2 劉秉權;張凱;王曉龍;;語音識別中基于規(guī)則的語言模型的研究[A];第五屆全國人機語音通訊學術會議論文集[C];1998年
相關博士學位論文 前1條
1 王堅;語音識別中的說話人自適應研究[D];北京郵電大學;2007年
相關碩士學位論文 前4條
1 邱泉;基于令牌傳遞的維特比解碼及其在語音識別中的應用[D];華南理工大學;2016年
2 張強;大詞匯量連續(xù)語音識別系統(tǒng)的統(tǒng)計語言模型應用研究[D];西南交通大學;2009年
3 林立;基于語音識別技術的中文語音路名查詢系統(tǒng)的實現(xiàn)和語言模型的研究[D];上海交通大學;2008年
4 彭荻;語音識別系統(tǒng)的聲學建模研究[D];北京郵電大學;2007年
,本文編號:1672269
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/1672269.html