基于層次化結構的語言模型單元集優(yōu)化
發(fā)布時間:2018-04-19 06:35
本文選題:語音識別 + 語言模型; 參考:《清華大學學報(自然科學版)》2017年03期
【摘要】:對于大詞匯量語音識別系統(tǒng),適當選擇基本單元至關重要。雖然以詞為基本單元時避免了詞邊界的確定等復雜過程,但很多派生類結構中(如黏性語言),詞比較長,而且很多文字(如中文、日文等)不需要詞邊界,因而在自然語言處理應用中沒有選取基本單元集的固定模式。該文以維吾爾語大詞匯量語音識別系統(tǒng)為例,研究基于各個層次化粒度單元的語音識別系統(tǒng)。通過比較各種層次化單元集為基礎的語音識別結果,分析錯誤識別模式,收集被誤判的單元序列作為在2層單元序列結構中擇優(yōu)的訓練樣本庫。比較各種單元集的優(yōu)缺點,提出一種能平衡長單元集和短單元集優(yōu)點的方法。實驗結果表明:該方法不僅可以有效提高語音識別準確率,也大大縮減了詞典容量。
[Abstract]:For large vocabulary speech recognition system, it is very important to select appropriate basic units.Although the word is used as the basic unit to avoid complex processes such as word boundary determination, many derived structures (such as viscous language) have longer words, and many words (such as Chinese, Japanese, etc.) do not need word boundaries.Therefore, the fixed pattern of basic unit set is not selected in natural language processing applications.Taking Uygur large vocabulary speech recognition system as an example, this paper studies a speech recognition system based on hierarchical granularity units.By comparing the results of speech recognition based on various hierarchical unit sets, the error recognition patterns are analyzed, and the misjudged unit sequences are collected as a training sample base to select the best in the two-layer unit sequence structure.By comparing the advantages and disadvantages of various cell sets, a method is proposed to balance the advantages of long and short cell sets.The experimental results show that this method can not only improve the accuracy of speech recognition, but also greatly reduce the dictionary capacity.
【作者單位】: 新疆大學科學與技術學院;新疆大學信息科學與工程學院;
【基金】:國家自然科學基金資助項目(61462085,61662078,61163032) 教育部新世紀優(yōu)秀人才支持計劃資助項目(NCET-10-0969) 新疆維吾爾自治區(qū)高新技術發(fā)展研究計劃項目(201312103)
【分類號】:TN912.34
【相似文獻】
相關重要報紙文章 前3條
1 本報記者 王揚 通訊員 曾慶剛 張文祥;高亞平細分單元要素 力促管理精益[N];中國煤炭報;2010年
2 曹元文 徐忠波 婁純泗;單元集成訓練探要[N];解放軍報;2004年
3 ;六單元集成IGBT模塊[N];計算機世界;2001年
相關博士學位論文 前1條
1 李坦;Mindlin板高階雜交應力單元及其增強型分片檢驗[D];大連理工大學;2015年
相關碩士學位論文 前4條
1 童迪;考慮新任務插入的虛擬單元動態(tài)構建與調度問題研究[D];江蘇科技大學;2015年
2 陸周周;基于枚舉刪除的ESO算法研究[D];重慶大學;2015年
3 朱涵;車聯(lián)網路側單元部署算法研究[D];大連理工大學;2016年
4 楊瑞巖;包裝單元、搬運單元和集裝單元匹配關系建模與優(yōu)化[D];吉林大學;2013年
,本文編號:1771979
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/1771979.html