基于在線的維吾爾語(yǔ)語(yǔ)音語(yǔ)料庫(kù)的建立及應(yīng)用

發(fā)布時(shí)間：2018-03-16 04:21

本文選題：維吾爾語(yǔ)　切入點(diǎn)：語(yǔ)料庫(kù)　出處：《新疆大學(xué)》2017年碩士論文　論文類型：學(xué)位論文

【摘要】：建立豐富的語(yǔ)音語(yǔ)料庫(kù)是研究語(yǔ)音技術(shù)的基礎(chǔ),從工程方面看,語(yǔ)音語(yǔ)料庫(kù)是更加完善語(yǔ)音技術(shù)的重要環(huán)節(jié)之一。針對(duì)現(xiàn)有的維吾爾語(yǔ)語(yǔ)音語(yǔ)料庫(kù)的規(guī)模不大以及發(fā)音人員年齡和地區(qū)方面不平衡等問(wèn)題,面對(duì)深入研究發(fā)展的需求,維吾爾語(yǔ)語(yǔ)料庫(kù)急需擴(kuò)大,尤其是對(duì)語(yǔ)音數(shù)據(jù)的多樣化需要改進(jìn),使其更加實(shí)用化。因此,本文研究了維吾爾語(yǔ)語(yǔ)音語(yǔ)料庫(kù)的建立方法及語(yǔ)料庫(kù)在語(yǔ)音識(shí)別中的應(yīng)用。主要研究?jī)?nèi)容如下:1)對(duì)傳統(tǒng)的語(yǔ)音采集和語(yǔ)音語(yǔ)料的標(biāo)注方法進(jìn)行了改進(jìn)。語(yǔ)音語(yǔ)料的采集需要大量的人力和時(shí)間。為了解決這一問(wèn)題,配合維語(yǔ)語(yǔ)音數(shù)據(jù)采集工作,定制了維語(yǔ)錄音工具,目的是簡(jiǎn)化錄音流程,使其更加方便地進(jìn)行遠(yuǎn)程數(shù)據(jù)采集與異地支持等工作。任何人都可以使用該平臺(tái)進(jìn)行語(yǔ)音采集數(shù)據(jù)。為了提高語(yǔ)音標(biāo)注工作的效率,設(shè)計(jì)了相應(yīng)的語(yǔ)音標(biāo)注平臺(tái)。這些新方法在實(shí)際應(yīng)用中取得了很好的效果。2)根據(jù)維吾爾語(yǔ)的語(yǔ)言和語(yǔ)音特征,構(gòu)建了多樣化的大規(guī)模語(yǔ)音語(yǔ)料庫(kù)。每一種方言中,根據(jù)地區(qū)的不同還包含了一些土語(yǔ)。有些同樣的詞在不同的方言中發(fā)音不一樣。除此之外,不同年齡人的發(fā)音特征,韻律特征有一定的差異。因而,采集各地區(qū)的方言語(yǔ)音和各年齡段不同文化程度的自然人的語(yǔ)音數(shù)據(jù),對(duì)語(yǔ)音識(shí)別中的特征參數(shù)提取和聲學(xué)模型的優(yōu)化有著一定的研究意義。目前影響提高識(shí)別率的關(guān)鍵因素就是語(yǔ)音的多變性問(wèn)題。建立包含盡可能多語(yǔ)言現(xiàn)象的語(yǔ)料對(duì)語(yǔ)音的分析和識(shí)別工作至關(guān)重要。而提高語(yǔ)音語(yǔ)料庫(kù)質(zhì)量的另一個(gè)關(guān)鍵是選取覆蓋盡可能多語(yǔ)言現(xiàn)象的文本。本文我們用常用詞包含程度和三音子包含程度兩種方法進(jìn)行語(yǔ)料的篩選工作并與傳統(tǒng)的隨機(jī)篩選方法做了對(duì)比實(shí)驗(yàn),其中本文提出的三音子篩選方法的覆蓋率達(dá)到了91%。3)最后,利用語(yǔ)音識(shí)別技術(shù)中廣泛應(yīng)用的HMM和DNN兩種方法對(duì)采集的語(yǔ)音語(yǔ)料的一部分進(jìn)行聲學(xué)特征提取和聲學(xué)模型建模并進(jìn)行了連續(xù)語(yǔ)音識(shí)別實(shí)驗(yàn)。實(shí)驗(yàn)中,在語(yǔ)言模型方面,采用了N-gram語(yǔ)言模型,在Linux環(huán)境下借助kaldi語(yǔ)音識(shí)別工具箱進(jìn)行了對(duì)比識(shí)別實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明針對(duì)大規(guī)模的語(yǔ)音數(shù)據(jù)來(lái)說(shuō),DNN聲學(xué)模型的語(yǔ)音識(shí)別結(jié)果更好。本文中基于DNN模型的識(shí)別率達(dá)到了84.49%。相比傳統(tǒng)的模型,系統(tǒng)的識(shí)別率提高了1.77%。
[Abstract]:The establishment of rich speech corpus is the basis of the study of speech technology, from the engineering point of view, The phonetic corpus is one of the most important links to perfect the speech technology. In view of the problems of the existing Uygur speech corpus, such as the small size of the existing Uygur phonetic corpus and the imbalance in the age and region of the pronunciation personnel, the need for further research and development is faced with. The Uygur corpus urgently needs to be expanded, especially the diversity of speech data needs to be improved to make it more practical. In this paper, the establishment method of Uygur speech corpus and the application of corpus in speech recognition are studied. The main research contents are as follows: (1) the traditional methods of speech acquisition and tagging of speech corpus are improved. In order to solve this problem, In conjunction with the acquisition of Uygur voice data, a Uygur recording tool was customized to simplify the recording process. Make it more convenient for remote data acquisition and remote support. Anyone can use this platform for voice data collection. In order to improve the efficiency of voice tagging, The corresponding phonetic tagging platform is designed. These new methods have achieved good results in practical application. 2) according to the language and phonological features of Uygur language, a variety of large-scale speech corpus has been constructed. Some of the same words are pronounced differently in different dialects. In addition, there are some differences in pronunciation and rhythm between people of different ages. To collect phonological data of dialects in different regions and natural persons of all ages and different educational levels, It is of great significance to study the feature parameter extraction and the optimization of acoustic model in speech recognition. At present, the key factor affecting the improvement of recognition rate is the problem of speech variability. Language with as many linguistic phenomena as possible is established. Data is very important for speech analysis and recognition. Another key to improving the quality of speech corpus is to select text that covers as many linguistic phenomena as possible. In this paper, we use common words to include degree of inclusion and triphonetic inclusion. The two methods are compared with the traditional random screening methods. The coverage of the triphonon screening method proposed in this paper has reached 91.3. finally, Two methods, HMM and DNN, which are widely used in speech recognition technology, are used to extract the acoustic features and model the acoustic model of a part of the collected speech corpus, and the experiments of continuous speech recognition are carried out. Using N-gram language model, The contrast recognition experiment is carried out with the help of kaldi speech recognition toolbox in Linux environment. The experimental results show that the speech recognition result of the acoustic model is better for large scale speech data. The recognition rate based on DNN model in this paper is better. Reached 84.49. compared with the traditional model, The recognition rate of the system increased by 1.77.
【學(xué)位授予單位】：新疆大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2017
【分類號(hào)】：TN912.34

【相似文獻(xiàn)】

相關(guān)期刊論文前10條

1 ;中央人民廣播電臺(tái)新疆維吾爾語(yǔ)編輯部開(kāi)工建設(shè)[J];青年記者;2010年15期

2 ;中央電臺(tái)新疆維吾爾語(yǔ)編輯部開(kāi)工建設(shè)[J];中國(guó)廣播;2010年06期

3 盛朝川;;維吾爾語(yǔ)專線廣播[J];新聞?dòng)浾?1984年03期

4 艾山·吾買爾;吐?tīng)柛ひ啦嚼?;基于最大熵的維吾爾語(yǔ)句子邊界識(shí)別模型[J];計(jì)算機(jī)工程;2010年06期

5 王昆侖;張貫虹;吐?tīng)柡榻ぐ⒉级伎肆δ?;維吾爾語(yǔ)元音的聲頻特性分析和識(shí)別[J];中文信息學(xué)報(bào);2010年02期

6 地里木拉提.吐?tīng)栠d;艾斯卡爾.艾木都拉;;維吾爾語(yǔ)中清化元音的實(shí)驗(yàn)語(yǔ)音學(xué)研究[J];中文信息學(xué)報(bào);2010年05期

7 丁玉忠;吾守爾·斯拉木;那斯?fàn)柦ね聽(tīng)栠d;;基于垃圾模型的維吾爾語(yǔ)關(guān)鍵詞識(shí)別[J];現(xiàn)代計(jì)算機(jī)(專業(yè)版);2011年13期

8 塔世根·加帕爾,帕爾哈提·艾孜木,伊力亞斯·吐?tīng)栠d;維吾爾語(yǔ)地理學(xué)術(shù)語(yǔ)規(guī)范表達(dá)的必要性和緊迫性[J];術(shù)語(yǔ)標(biāo)準(zhǔn)化與信息技術(shù);1998年04期

9 阿麗葉.阿布列孜;;中央人民廣播電臺(tái)維吾爾語(yǔ)頻道《生活》欄目探析[J];新聞世界;2014年05期

10 哈妮克孜·伊拉洪;祖麗皮亞·阿曼;艾斯卡爾·艾木都拉;;維吾爾語(yǔ)單音節(jié)詞復(fù)輔音聲學(xué)分析[J];中文信息學(xué)報(bào);2009年04期

相關(guān)會(huì)議論文前10條

1 吾買爾江·庫(kù)爾班;阿里甫·庫(kù)爾班;;維吾爾語(yǔ)框架語(yǔ)義知識(shí)庫(kù)語(yǔ)義角色描述體系研究[A];少數(shù)民族青年自然語(yǔ)言處理技術(shù)研究與進(jìn)展——第三屆全國(guó)少數(shù)民族青年自然語(yǔ)言信息處理、第二屆全國(guó)多語(yǔ)言知識(shí)庫(kù)建設(shè)聯(lián)合學(xué)術(shù)研討會(huì)論文集[C];2010年

2 阿里甫·庫(kù)爾班;吾買爾江·庫(kù)爾班;尼加提·阿不都肉蘇力;;維吾爾語(yǔ)框架語(yǔ)義網(wǎng)的數(shù)據(jù)庫(kù)結(jié)構(gòu)的設(shè)計(jì)[A];少數(shù)民族青年自然語(yǔ)言處理技術(shù)研究與進(jìn)展——第三屆全國(guó)少數(shù)民族青年自然語(yǔ)言信息處理、第二屆全國(guó)多語(yǔ)言知識(shí)庫(kù)建設(shè)聯(lián)合學(xué)術(shù)研討會(huì)論文集[C];2010年

3 古麗娜爾·艾力;買買提玉素甫·蘇來(lái)曼;;維吾爾語(yǔ)語(yǔ)音數(shù)據(jù)自動(dòng)標(biāo)注[A];少數(shù)民族青年自然語(yǔ)言處理技術(shù)研究與進(jìn)展——第三屆全國(guó)少數(shù)民族青年自然語(yǔ)言信息處理、第二屆全國(guó)多語(yǔ)言知識(shí)庫(kù)建設(shè)聯(lián)合學(xué)術(shù)研討會(huì)論文集[C];2010年

4 阿布都熱依木·熱合曼;艾山·吾買爾;吐?tīng)柛ひ啦祭?帕里旦·吐?tīng)栠d;哈里旦木·阿布都克里木;;維吾爾語(yǔ)句法樹(shù)庫(kù)標(biāo)注體系[A];少數(shù)民族青年自然語(yǔ)言處理技術(shù)研究與進(jìn)展——第三屆全國(guó)少數(shù)民族青年自然語(yǔ)言信息處理、第二屆全國(guó)多語(yǔ)言知識(shí)庫(kù)建設(shè)聯(lián)合學(xué)術(shù)研討會(huì)論文集[C];2010年

5 艾斯卡爾·艾木都拉;;維吾爾語(yǔ)鼻音的聲學(xué)特征分析[A];第九屆中國(guó)語(yǔ)音學(xué)學(xué)術(shù)會(huì)議論文集[C];2010年

6 梁潔;楊新璐;;維吾爾語(yǔ)韻律層級(jí)邊界感知及其聲學(xué)特征研究[A];第九屆中國(guó)語(yǔ)音學(xué)學(xué)術(shù)會(huì)議論文集[C];2010年

7 阿依克孜.卡德?tīng)?開(kāi)沙爾.卡德?tīng)?吐?tīng)柛?依布拉音;;面向自然語(yǔ)言信息處理的維吾爾語(yǔ)名詞形態(tài)分析研究[A];第二屆全國(guó)學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2004年

8 吾守爾.斯拉木;馬歡;;維吾爾語(yǔ)文語(yǔ)轉(zhuǎn)換系統(tǒng)的研究[A];第十屆全國(guó)少數(shù)民族語(yǔ)言文字信息處理學(xué)術(shù)研討會(huì)論文集[C];2005年

9 易斌;;維吾爾語(yǔ)元音/y/的聲學(xué)特征分析[A];第十屆全國(guó)少數(shù)民族語(yǔ)言文字信息處理學(xué)術(shù)研討會(huì)論文集[C];2005年

10 艾斯卡爾·艾木都拉;賽爾達(dá)爾·雅力坤;祖麗皮亞·阿曼;地里木拉提·吐?tīng)栠d;;維吾爾語(yǔ)濁塞音的聲學(xué)特征分析[A];第十二屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議（NCMMSC'2013）論文集[C];2013年

相關(guān)重要報(bào)紙文章前10條

1 記者井波、實(shí)習(xí)生郁萌;維吾爾語(yǔ)水平考試系統(tǒng)進(jìn)入研發(fā)階段[N];新疆日?qǐng)?bào)(漢);2010年

2 特約記者藺高峰通訊員武瑞;女法醫(yī)“西日古麗”[N];喀什日?qǐng)?bào)(漢);2010年

3 本報(bào)記者任紅芳;阿克蘇電視臺(tái)維吾爾語(yǔ)譯制中心錄音棚投用[N];阿克蘇日?qǐng)?bào);2010年

4 一東;以多語(yǔ)種服務(wù)打造溝通新渠道[N];亞洲中心時(shí)報(bào)(漢);2011年

5 自治區(qū)地方志編委會(huì)、自治區(qū)黨委駐伽師縣工作隊(duì) 張堅(jiān)義;語(yǔ)言架起溝通心靈的橋梁[N];新疆日?qǐng)?bào)(漢);2012年

6 劉冰;從王蒙流利的維吾爾語(yǔ)想到的[N];中國(guó)民族報(bào);2013年

7 記者江亞平;搞分裂慌不擇言,熱比婭謊話連篇[N];新華每日電訊;2009年

8 陳學(xué)迅;王蒙談維吾爾民族語(yǔ)言文化[N];新疆日?qǐng)?bào)(漢);2005年

9 記者王新紅;中央人民廣播電臺(tái)新疆維吾爾語(yǔ)編輯部工程開(kāi)建[N];新疆日?qǐng)?bào)(漢);2010年

10 記者達(dá)·照日格圖;我國(guó)首部蒙古文字手機(jī)研制成功[N];內(nèi)蒙古日?qǐng)?bào)(漢);2006年

相關(guān)博士學(xué)位論文前10條

1 阿布都那扎爾·阿布都拉;維吾爾語(yǔ)構(gòu)詞詞綴歷時(shí)比較研究[D];中央民族大學(xué);2009年

2 巴克力·阿卜杜熱西提;古代維吾爾語(yǔ)醫(yī)學(xué)文獻(xiàn)的語(yǔ)文學(xué)研究[D];中央民族大學(xué);2013年

3 倪宏鳴;維吾爾語(yǔ)和阿美語(yǔ)語(yǔ)言特征對(duì)比分析[D];中央民族大學(xué);2007年

4 魏玉清;維吾爾語(yǔ)和諧現(xiàn)象的音系學(xué)研究[D];華東師范大學(xué);2010年

5 尼加提·蘇皮;維吾爾語(yǔ)伊犁土語(yǔ)研究[D];中央民族大學(xué);2010年

6 斯迪克江·伊布拉音;現(xiàn)代維吾爾語(yǔ)中的比喻研究[D];華東師范大學(xué);2008年

7 阿克里·先木西;維吾爾語(yǔ)表語(yǔ)—系動(dòng)詞謂語(yǔ)結(jié)構(gòu)[D];中央民族大學(xué);2012年

8 吐?tīng)栠d·卡得;維吾爾語(yǔ)柯坪土語(yǔ)研究[D];中央民族大學(xué);2011年

9 木再帕爾（Muzappar Abdurusul）;論維吾爾語(yǔ)的名詞化短語(yǔ)[D];中央民族大學(xué);2007年

10 席艷玲;維吾爾語(yǔ)失語(yǔ)癥特點(diǎn)及其檢查法的標(biāo)準(zhǔn)化研究和維吾爾族、漢族正常人腦激活區(qū)差異性的fMRI研究[D];新疆醫(yī)科大學(xué);2013年

相關(guān)碩士學(xué)位論文前10條

1 魏文娟;改革開(kāi)放以來(lái)維吾爾語(yǔ)新詞研究[D];新疆大學(xué);2008年

2 阿孜古麗·阿不都熱西提;維吾爾語(yǔ)伊犁土語(yǔ)中的借詞研究[D];西北民族大學(xué);2008年

3 張紅;探析維吾爾語(yǔ)中茶文化[D];新疆師范大學(xué);2012年

4 熱依拉·艾紕漏拉;漢語(yǔ)—維吾爾語(yǔ)顏色詞翻譯對(duì)比研究[D];中央民族大學(xué);2013年

5 孔席梅;維吾爾語(yǔ)和回族話中借詞的分析比較[D];新疆師范大學(xué);2013年

6 吾斯曼·艾買爾(Osman Emer);《五體清文鑒》中的近代維吾爾語(yǔ)動(dòng)物名稱研究[D];伊犁師范學(xué)院;2015年

7 瑪依熱·吾司曼;漢維動(dòng)力情態(tài)對(duì)比研究[D];中央民族大學(xué);2015年

8 錢悅;漢語(yǔ)“V1著V2”結(jié)構(gòu)與維吾爾語(yǔ)相關(guān)表達(dá)方式對(duì)比研究[D];中央民族大學(xué);2015年

9 奇曼古麗·許庫(kù)力;現(xiàn)代維吾爾語(yǔ)同義詞研究[D];中央民族大學(xué);2015年

10 田媛瑋;漢語(yǔ)—維吾爾語(yǔ)五官詞匯的對(duì)比研究[D];中央民族大學(xué);2015年

，

本文編號(hào)：1618311

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/shoufeilunwen/xixikjs/1618311.html

上一篇：云產(chǎn)品數(shù)據(jù)多維分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
下一篇：離散時(shí)間∑△調(diào)制器的設(shè)計(jì)

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于在線的維吾爾語(yǔ)語(yǔ)音語(yǔ)料庫(kù)的建立及應(yīng)用