天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 文藝論文 > 漢語言論文 >

面向信息處理的藏語同形異音詞讀音識別技術(shù)研究

發(fā)布時間:2020-05-17 21:38
【摘要】:現(xiàn)代藏語詞語,從詞的讀音方面可分為異形同音詞和同形異音詞,而從詞的意義方面分為同形異義詞和異形同義詞。其中同形異音詞與多音詞,同形異義詞和多義詞在藏語語言學(xué)界中具有一定的區(qū)別,但這些詞匯在形態(tài)上具有一定的相似性。在經(jīng)過語言本身的發(fā)展過程中,很多藏語詞匯從詞的意義和發(fā)音上都有很大的變化,這對當(dāng)前藏語計算語言學(xué)的發(fā)展和研究帶來了很大的困難。隨著藏文信息處理的不斷發(fā)展和逐步成熟,藏語語音合成方面的研究也開始進(jìn)入深入研究的高峰期,從而藏語同形異音詞的讀音問題成為合成系統(tǒng)自然度和可懂度的主要障礙,而到目前為止鮮有對這方面的研究工作和相關(guān)報告,仍處于研究初級階段。同時,藏語同形異音詞與漢語中多音詞的性質(zhì)有所不同,僅僅依靠詞典不一定能解決藏語同形異音詞的歧義問題。因此,本文從藏語本身獨有的語言規(guī)則和語音特點出發(fā),依據(jù)《藏漢大詞典》,在其所列出的常用藏語同形異音詞的基礎(chǔ)上,共收集整理了465個同形異音詞,根據(jù)同形異音詞在28萬余句藏語文本中出現(xiàn)頻率及不同讀音的使用頻率,最終挑選180個高頻同形異音詞作為本文研究中分析的主要對象。藏語中有不少詞具有兩種不同的讀音,因讀音的不同,有的詞在語義上有細(xì)微的差異,有的詞截然不同,這類詞很容易引起誤讀或語義上的誤解。本文在分析藏語字和詞各種讀法的基礎(chǔ)上,從語音方面研究了同形異音詞產(chǎn)生的原因。首先深度辨析了藏語同形異音詞的構(gòu)詞形式、分類以及在藏語文本中出現(xiàn)的形式,系統(tǒng)地研究了當(dāng)前在藏語TTS系統(tǒng)中同形異音詞的根本來源,并探討了因不同的讀法而產(chǎn)生的語義及用法上的差異。根據(jù)分析結(jié)果,本文最終采用規(guī)則與統(tǒng)計建模相結(jié)合的方法,在實驗條件較為完善的環(huán)境下,對180個高頻同形異音詞進(jìn)行實驗。實驗結(jié)果證明,結(jié)合規(guī)則和統(tǒng)計方法的應(yīng)用能夠使系統(tǒng)取長補(bǔ)短,從而可以高效地解決當(dāng)前在藏語語音合成中同形異音詞的讀音識別難點,并取得了較好的識別效果。同時根據(jù)初始的實驗結(jié)果,對剩下的285個不常用的同形異音詞也進(jìn)行了分析及測試實驗。最終結(jié)果表明,該方法在藏語同形異音詞讀音識別領(lǐng)域具有一定的通用性,為語音合成系統(tǒng)的前端文本分析模塊提供了有力依據(jù)。對其他藏語語言學(xué)理論研究方面也具有一定的借鑒意義。本文針對當(dāng)前在藏語語音合成中的一項突出問題,首次展開研究了藏語TTS系統(tǒng)前端文本分析中藏語同形異音詞的讀音消歧問題,并將基于CRF模型的日本文本分析器Mecab系統(tǒng)首次運用在藏語文本分析中。Mecab系統(tǒng)內(nèi)部的模塊設(shè)計清晰、簡單,同時藏文和日文具有類似的分詞和標(biāo)注需求,因此Mecab系統(tǒng)對于藏文文本處理來說有著很好的借鑒價值。
【圖文】:

音節(jié)結(jié)構(gòu),藏文


音聲韻調(diào)描述體系藏語系-藏緬語族,有衛(wèi)藏、安多、康巴三大方言,但是很多的發(fā)音變化[15]。據(jù)最新分析統(tǒng)計,可覆蓋音變及普通 個聲母,123 個韻母。關(guān)于拉薩話聲調(diào)的分類有多種觀點說”,即 4 個調(diào)型[16]。一個輔音字母“基字”為核心的拼音文字,可視為基本字字符串,,由 30 個輔音字母和 4 個元音字母組成。從信息于“復(fù)雜文字”(Complex Scripts)的范疇[17],Unicode 0x0FFF 。藏文音節(jié)字的組成部件如圖 1-1 所示:

實驗數(shù)據(jù),句子,語料,原始語


2.2 語料來源本文主要在西藏日報(藏文版)和中國西藏新聞網(wǎng)(藏文版)等一些不同文網(wǎng)站上收集了含有法律、新聞類、教育類、醫(yī)學(xué)類、詩歌類、文學(xué)類等不同域中具有代表性的語料共 37 萬多個相對獨立的句子。同時還考慮了文獻(xiàn)的年地域等問題,經(jīng)過自動過濾和人工校對將太長和太短、不完整的句子以及含有常用的梵文的句子去除后剩 28 萬多句子。其中還有一些語料是從詞典例句及常生活中常用的語句,形成了原始語料。然后利用貪婪(greedy)算法進(jìn)行篩選從 28 萬多原始語料中挑選出含有 465 個同形異音詞的句子共 92229 句,最終取最大覆蓋藏語同形異音詞的精煉語料共 35890 句作為訓(xùn)練數(shù)據(jù)及測試集,本實驗數(shù)據(jù)的具體構(gòu)成情況及數(shù)量統(tǒng)計結(jié)果如下圖 2-1 所示。
【學(xué)位授予單位】:西藏大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:H214

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 陳倩;;談?wù)劧碚Z中常見的同形異音詞[J];中學(xué)俄語;2016年10期

2 趙京光;林遠(yuǎn);史久民;;350mW發(fā)電機(jī)異音原因分析及處理[J];科技傳播;2012年12期

3 王洪圖;淺析發(fā)動機(jī)的異音診斷[J];農(nóng)業(yè)機(jī)械化與電氣化;2000年04期

4 ■玉憲和,王冰;發(fā)動機(jī)異音及其改善[J];山東內(nèi)燃機(jī);1998年02期

5 朱泉;滾動軸承異音的故障診斷[J];中國設(shè)備管理;1999年08期

6 姚國柱;怎樣判斷機(jī)動車的異音[J];農(nóng)業(yè)機(jī)械化與電氣化;1994年03期

7 李光輝;發(fā)動機(jī)異音的診斷[J];山東農(nóng)機(jī)化;1995年08期

8 李學(xué)金;;關(guān)于英詞同形異音詞的幾個問題[J];廣西醫(yī)學(xué)院學(xué)報;1993年S1期

9 潘小濤;;輔助電機(jī)軸承異音的原因及處理[J];機(jī)車電傳動;1993年03期

10 黃綺;;異詞異音[J];語文學(xué)習(xí);1954年11期

相關(guān)會議論文 前10條

1 宋瑞春;;機(jī)車螺桿式空氣壓縮機(jī)異音原因分析及改進(jìn)措施[A];鄭州鐵路局“十百千”人才培育助推工程論文集[C];2011年

2 林竹;吳空;;變頻電子膨脹閥空調(diào)冷媒流動異音分析研究[A];第十一屆全國電冰箱(柜)、空調(diào)器及壓縮機(jī)學(xué)術(shù)交流大會論文集[C];2012年

3 林竹;吳空;;變頻電子膨脹閥空調(diào)制冷劑流動異音分析研究[A];2012年中國家用電器技術(shù)大會論文集[C];2012年

4 張軍;李云云;王震;張紅敏;;淺析一起220kVGIS斷路器異音原因[A];山東電機(jī)工程學(xué)會2012年度學(xué)術(shù)年會論文集[C];2012年

5 王鑫;王飛;劉偉彤;周寶娟;;空調(diào)常見噪聲及解決措施的探討[A];2013年中國家用電器技術(shù)大會論文集[C];2013年

6 許延飛;吳建強(qiáng);張明旭;趙紅宇;張華中;;柴油汽車離合器怠速異音的原因分析及應(yīng)對措施[A];自主創(chuàng)新、學(xué)術(shù)交流——第十屆河南省汽車工程科學(xué)技術(shù)研討會論文集[C];2013年

7 李富營;;勵磁變壓器振動及鐵心溫升異常故障的分析及處理[A];廣東省水力發(fā)電工程學(xué)會論文集[C];2009年

8 周啟澄;;中國人應(yīng)對困難的寶貴歷史經(jīng)驗——堅持“中”與“和”[A];2006年上海市科學(xué)技術(shù)史學(xué)術(shù)年會論文集[C];2006年

9 江俊;方忠誠;;時域分析在冰箱異音檢測中的應(yīng)用[A];2013年中國家用電器技術(shù)大會論文集[C];2013年

10 武國良;;直流式手電鉆行星齒輪組的研制[A];安徽省機(jī)械工程學(xué)會成立50周年論文集[C];2014年

相關(guān)重要報紙文章 前3條

1 記者 鄭有勝;阜新“小鋼球”收編韓國老字號[N];遼寧日報;2010年

2 湖南省寧鄉(xiāng)縣縣長 黎石秋;以“不同”促和諧[N];中國社會報;2008年

3 李鵬舟;改革最是檢驗黨性時[N];戰(zhàn)士報;2015年

相關(guān)碩士學(xué)位論文 前10條

1 拉巴頓珠;面向信息處理的藏語同形異音詞讀音識別技術(shù)研究[D];西藏大學(xué);2018年

2 施健升;百龍灘水電廠#1發(fā)電機(jī)組異音測試研究[D];廣西大學(xué);2007年

3 李明超;基于異音檢測的電機(jī)故障診斷方法[D];五邑大學(xué);2014年

4 張建梅;蒙古文同形異音詞的讀音識別研究[D];內(nèi)蒙古大學(xué);2005年

5 劉力源;基于機(jī)器學(xué)習(xí)方法的電機(jī)異音檢測研究[D];五邑大學(xué);2014年

6 羅文潔;《現(xiàn)代漢語詞典》中的多音節(jié)異音同形詞分析[D];曲阜師范大學(xué);2007年

7 續(xù)超;句子語境中漢語同形異音詞的歧義消解[D];遼寧師范大學(xué);2017年

8 關(guān)帥;基于激光測量的揚(yáng)聲器異音故障檢測方法研究[D];天津科技大學(xué);2012年

9 仇漫漫;漢語自閉癥兒童同形異音異義詞識別研究[D];南京師范大學(xué);2015年

10 王青松;基于能量算子解調(diào)法的滾動軸承故障診斷技術(shù)研究[D];重慶大學(xué);2004年



本文編號:2669219

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/wenyilunwen/hanyulw/2669219.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶3de9a***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com