天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 信息工程論文 >

資源稀少情況下的語音識(shí)別的主動(dòng)學(xué)習(xí)方法研究

發(fā)布時(shí)間:2018-03-25 18:42

  本文選題:資源稀少 切入點(diǎn):主動(dòng)學(xué)習(xí) 出處:《中國科學(xué)技術(shù)大學(xué)》2017年碩士論文


【摘要】:隨著大語種語音識(shí)別技術(shù)的發(fā)展成熟,資源稀少情況下(Low-resource Conditions)的語音識(shí)別逐漸成為重要的研究熱點(diǎn)。本文針對(duì)資源稀少情況下語音識(shí)別(小語種識(shí)別)建模及優(yōu)化問題,采用基于主動(dòng)學(xué)習(xí)的方法對(duì)該領(lǐng)域的一些技術(shù)問題展開研究,集中體現(xiàn)在以下兩個(gè)方面:首先針對(duì)聲學(xué)模型訓(xùn)練數(shù)據(jù)缺乏導(dǎo)致模型參數(shù)估計(jì)不準(zhǔn)的情況,采用困惑度準(zhǔn)則挑選無標(biāo)注的語音數(shù)據(jù)參與訓(xùn)練,并進(jìn)一步在訓(xùn)練過程中采用配套優(yōu)化方法,使模型估計(jì)的參數(shù)更加準(zhǔn)確;其次,在詞典擴(kuò)充及語言模型增強(qiáng)方面,采用字嵌入(word embedding)算法挑選網(wǎng)絡(luò)文本數(shù)據(jù),用來擴(kuò)充詞典和增加語言模型訓(xùn)練語料,進(jìn)一步提升識(shí)別系統(tǒng)性能。首先,搭建了資源稀少情況下的語音識(shí)別系統(tǒng),采用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行聲學(xué)建模;針對(duì)資源稀少情況下語音識(shí)別中專家語言學(xué)知識(shí)缺乏的困境,采用數(shù)據(jù)驅(qū)動(dòng)的方式生成問題集進(jìn)行狀態(tài)綁定,以獲取聲學(xué)建模中所需的最佳建模狀態(tài)數(shù)(三音子,triphone);針對(duì)訓(xùn)練語料不足的現(xiàn)象,通過深度神經(jīng)網(wǎng)絡(luò)具有的隱層共享特性,采用大語種訓(xùn)練得到的網(wǎng)絡(luò)參數(shù)初始化目標(biāo)語種神經(jīng)網(wǎng)絡(luò)模型參數(shù)。其次,在語音識(shí)別的聲學(xué)建模過程中,需要較多有標(biāo)注的數(shù)據(jù)來估計(jì)模型參數(shù),對(duì)于資源稀少的語種(小語種),有標(biāo)注的語料數(shù)據(jù)較少;另一方面,隨著數(shù)據(jù)獲取技術(shù)的成熟,可以獲取大量廉價(jià)的無標(biāo)注語音數(shù)據(jù)。在節(jié)約人工標(biāo)注成本的前提下,本文采用困惑度準(zhǔn)則對(duì)大量無標(biāo)注數(shù)據(jù)進(jìn)行有效選擇,將篩選得到的無標(biāo)注數(shù)據(jù)與原有標(biāo)注數(shù)據(jù)一起參與聲學(xué)模型訓(xùn)練;進(jìn)一步在模型參數(shù)訓(xùn)練過程中,最后一次參數(shù)更新只采用有標(biāo)注數(shù)據(jù)進(jìn)行參數(shù)調(diào)優(yōu),明顯改善語音識(shí)別系統(tǒng)性能。最后,對(duì)于資源稀少情況下的語音識(shí)別任務(wù),往往會(huì)因?yàn)樵~典覆蓋率很差而伴隨出現(xiàn)大量的集外詞,而且用于生成語言模型的文本語料相對(duì)較少,因此難以獲取涵蓋率較好的詞典和區(qū)分性很強(qiáng)的語音模型,這兩個(gè)方面都影響著語音識(shí)別性能的提升。隨著互聯(lián)網(wǎng)技術(shù)的高度發(fā)展,很容易從網(wǎng)上獲取小語種的大量文本語料數(shù)據(jù)(web data),關(guān)鍵是如何篩選匹配的數(shù)據(jù),本文采用基于word embedding的計(jì)算方法從web data中挑選詞匯或句子,著手解決詞典擴(kuò)充和語言模型增強(qiáng)的問題,最終達(dá)到提升資源稀少情況下語音識(shí)別性能的目的。使用上述的改進(jìn)方法,本文在NIST OpenKWS2015的Swahili語和NIST OpenKWS2016的Georgian語兩個(gè)數(shù)據(jù)庫上進(jìn)行了相關(guān)實(shí)驗(yàn)驗(yàn)證,獲得了明顯的識(shí)別性能提升。
[Abstract]:With the development of large language speech recognition technology, the speech recognition of Low-resource conditions has become an important research hotspot. This paper aims at modeling and optimization of speech recognition (small language recognition) in the case of scarcity of resources. Based on active learning, some technical problems in this field are studied, which are mainly reflected in the following two aspects: firstly, the lack of training data for acoustic model leads to the inaccurate estimation of model parameters. The confusion criterion is used to select the untagged voice data to participate in the training, and the matching optimization method is adopted in the training process to make the parameters of the model estimation more accurate. Secondly, in the aspect of dictionary expansion and language model enhancement, Using word embedding algorithm to select network text data is used to expand dictionary and add language model training corpus to further improve the performance of recognition system. Firstly, a speech recognition system with scarce resources is built. The acoustic modeling is based on deep neural network, and the problem set is generated by data-driven method for state binding in view of the lack of expert linguistic knowledge in speech recognition under the condition of scarce resources. In order to obtain the best number of modeling states (triphoneer) required in acoustic modeling, the hidden layer sharing characteristic through depth neural network can be obtained for the phenomenon of insufficient training data. The neural network parameters of the target language are initialized by the network parameters obtained from the large language training. Secondly, in the acoustic modeling process of speech recognition, more annotated data are needed to estimate the model parameters. On the other hand, with the maturity of data acquisition technology, a large amount of cheap unannotated voice data can be obtained. In the premise of saving the cost of manual tagging, there are few tagged data in small languages (small languages), on the other hand, with the maturity of data acquisition technology, a large amount of unannotated speech data can be obtained. In this paper, the confusion criterion is used to select a large number of unlabeled data, and the unlabeled data is selected to participate in the acoustic model training together with the original tagged data; further, in the process of model parameter training, The last parameter update only uses annotated data for parameter tuning, which obviously improves the performance of speech recognition system. Finally, for speech recognition tasks with scarce resources, Because of the poor coverage of dictionaries, a large number of extrinsic words appear, and the text data used to generate language models are relatively few, so it is difficult to obtain a dictionary with better coverage rate and a speech model with strong distinctiveness. With the rapid development of Internet technology, it is easy to obtain a large amount of text data from small languages on the Internet. The key is how to filter the matching data. In this paper, word embedding based computing method is used to select words or sentences from web data, to solve the problems of dictionary expansion and language model enhancement, and finally to improve speech recognition performance in the case of scarce resources. In this paper, experiments are carried out on the Swahili language of NIST OpenKWS2015 and Georgian language of NIST OpenKWS2016, and the recognition performance is improved obviously.
【學(xué)位授予單位】:中國科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TN912.34

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 申建國,王暖臣;語音識(shí)別程序的開發(fā)與應(yīng)用[J];計(jì)算機(jī)應(yīng)用研究;2000年12期

2 郭遠(yuǎn)瓊;提高語音識(shí)別率點(diǎn)滴[J];電腦技術(shù);2000年03期

3 邢文;語音識(shí)別[J];個(gè)人電腦;2000年02期

4 ;語音識(shí)別的真相[J];個(gè)人電腦;2001年12期

5 ;語音識(shí)別漸入佳境[J];個(gè)人電腦;2002年03期

6 ;微軟語音識(shí)別軟件可與人直接對(duì)話[J];自動(dòng)化博覽;2003年04期

7 ;語音識(shí)別[J];印刷世界;2004年01期

8 杰里米·瓦格斯塔夫;讓語音識(shí)別軟件 解放你的雙手[J];農(nóng)業(yè)圖書情報(bào)學(xué)刊;2004年03期

9 韓紀(jì)慶,王歡良,李海峰,鄭鐵然;基于語音識(shí)別的發(fā)音學(xué)習(xí)技術(shù)[J];電聲技術(shù);2004年09期

10 陳孝強(qiáng);語音識(shí)別擬起新潮[J];微電腦世界;2005年07期

相關(guān)會(huì)議論文 前10條

1 張歆奕;吳今培;張其善;;語音的共性特征及其在語音識(shí)別中的應(yīng)用[A];第十屆全國信號(hào)處理學(xué)術(shù)年會(huì)(CCSP-2001)論文集[C];2001年

2 杜樹木;何良華;;一種新的基于段長分布的語音識(shí)別模型[A];2009年通信理論與信號(hào)處理學(xué)術(shù)年會(huì)論文集[C];2009年

3 李楨;高萬林;歐文浩;徐山川;;基于關(guān)鍵詞語音識(shí)別的農(nóng)業(yè)信息語音服務(wù)系統(tǒng)的研究與實(shí)現(xiàn)[A];中國農(nóng)業(yè)工程學(xué)會(huì)電氣信息與自動(dòng)化專業(yè)委員會(huì)、中國電機(jī)工程學(xué)會(huì)農(nóng)村電氣化分會(huì)科技與教育專委會(huì)2010年學(xué)術(shù)年會(huì)論文摘要[C];2010年

4 張冰;龍長才;羅海風(fēng);;熟悉掩蔽音背景下的目標(biāo)語音識(shí)別[A];泛在信息社會(huì)中的聲學(xué)——中國聲學(xué)學(xué)會(huì)2010年全國會(huì)員代表大會(huì)暨學(xué)術(shù)會(huì)議論文集[C];2010年

5 王承發(fā);趙德彬;金山;苗百利;朱志瑩;;語音識(shí)別應(yīng)用中抗噪聲干擾方法的初步探討[A];第二屆全國人機(jī)語音通訊學(xué)術(shù)會(huì)議論文集[C];1992年

6 杜笑平;楊啟綱;楊家沅;;過零周期轉(zhuǎn)移概率矩陣語音識(shí)別部件的研制[A];第二屆全國人機(jī)語音通訊學(xué)術(shù)會(huì)議論文集[C];1992年

7 季宏;劉志文;杜燕玲;黃曾陽;;語音識(shí)別中的音字轉(zhuǎn)換[A];第三屆全國人機(jī)語音通訊學(xué)術(shù)會(huì)議論文集[C];1994年

8 葛余博;楊大利;曾德超;;噪聲環(huán)境下語音識(shí)別的幾個(gè)問題(一)[A];第三屆全國人機(jī)語音通訊學(xué)術(shù)會(huì)議論文集[C];1994年

9 朱奇峰;俞鐵城;;聽覺中的協(xié)同現(xiàn)象和其對(duì)語音識(shí)別影響的探討[A];第四屆全國人機(jī)語音通訊學(xué)術(shù)會(huì)議論文集[C];1996年

10 姚磊;黃泰翼;陳景東;;一種高魯棒性語音識(shí)別的通用自適應(yīng)方法研究[A];第四屆全國人機(jī)語音通訊學(xué)術(shù)會(huì)議論文集[C];1996年

相關(guān)重要報(bào)紙文章 前10條

1 黃夢(mèng);方案商積極切入語音識(shí)別市場(chǎng)[N];電腦商報(bào);2006年

2 閆婷;語音識(shí)別 理想與現(xiàn)實(shí)的距離[N];計(jì)算機(jī)世界;2007年

3 劉喜喜;語音識(shí)別將把鼠標(biāo)鍵盤打入冷宮?[N];中國計(jì)算機(jī)報(bào);2008年

4 樂天;語音識(shí)別:讓你的手機(jī)更聰明[N];計(jì)算機(jī)世界;2011年

5 特約作者 王佳彬;語音識(shí)別漸入佳境[N];電腦報(bào);2002年

6 雨夏;語音識(shí)別重在應(yīng)用[N];計(jì)算機(jī)世界;2001年

7 ;語音識(shí)別企業(yè)應(yīng)用前景光明[N];計(jì)算機(jī)世界;2003年

8 王向東 欒煥博 林守勛 錢躍良;語音識(shí)別:抗噪音能力有待加強(qiáng)[N];計(jì)算機(jī)世界;2006年

9 上海 高博;讓電腦“聽懂”人話[N];電腦報(bào);2008年

10 張彤;語音識(shí)別融入統(tǒng)一通信[N];網(wǎng)絡(luò)世界;2008年

相關(guān)博士學(xué)位論文 前10條

1 許金普;農(nóng)產(chǎn)品市場(chǎng)信息采集的語音識(shí)別魯棒性方法研究[D];中國農(nóng)業(yè)科學(xué)院;2015年

2 包希日莫;面向蒙古語的語音識(shí)別聲學(xué)建模研究[D];內(nèi)蒙古大學(xué);2016年

3 吳斌;語音識(shí)別中的后處理技術(shù)研究[D];北京郵電大學(xué);2008年

4 奉小慧;音頻噪聲環(huán)境下唇動(dòng)信息在語音識(shí)別中的應(yīng)用技術(shù)研究[D];華南理工大學(xué);2010年

5 孫f,

本文編號(hào):1664397


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/1664397.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶5eb54***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com