天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

藏文詞性自動(dòng)標(biāo)注系統(tǒng)的研究與實(shí)現(xiàn)

發(fā)布時(shí)間:2020-08-06 18:11
【摘要】:藏文詞性標(biāo)注是藏文信息處理技術(shù)中的一項(xiàng)基礎(chǔ)性課題,它的研究成果不僅為機(jī)器翻譯、搜索引擎、網(wǎng)絡(luò)信息安全等諸多領(lǐng)域的研究奠定基礎(chǔ),也是藏文信息處理后續(xù)句法分析、語義分析及篇章分析必不可少的前提條件。藏文詞性標(biāo)注的研究是自然語言理解的一項(xiàng)重要工作。因此,研究和實(shí)現(xiàn)藏文詞性自動(dòng)標(biāo)注系統(tǒng)具有重要的理論意義和實(shí)用價(jià)值。 本文首先概要地介紹了藏文詞性標(biāo)注的研究意義和目的,回顧了詞性標(biāo)注在國內(nèi)外的研究現(xiàn)狀;作為藏文詞性標(biāo)注的基礎(chǔ),研究了藏文分詞常用的方法、分詞中歧義和未登錄詞識(shí)別問題的處理,并提出了基于“動(dòng)詞優(yōu)先切分”、“拆分+進(jìn)字組合法”等方法,消解藏文分詞中的交集型歧義問題;通過藏文“詞綴歸并”和“分詞碎片整合”及“詞性信息修正分詞法”等方法,解決了藏文分詞中未登錄詞識(shí)別問題,使藏文分詞正確率有了較大的提高。在此基礎(chǔ)上,研究了藏文詞性知識(shí)庫及藏文語料庫的建立;最后采用基于規(guī)則和統(tǒng)計(jì)相結(jié)合的方法設(shè)計(jì)和實(shí)現(xiàn)了一個(gè)藏文詞性自動(dòng)標(biāo)注系統(tǒng)。 為了實(shí)現(xiàn)藏文詞性標(biāo)注系統(tǒng),對(duì)常用的藏文詞典《藏漢大辭典》、《新編藏文詞典》、《藏文動(dòng)詞詞典》九萬余詞條經(jīng)合并、去重、篩選整理后對(duì)七萬余詞條完成詞性標(biāo)注,建立了詞性知識(shí)庫;以藏文文學(xué)、民俗、歷史、小學(xué)藏文教材為取材,整理后精選12萬余字的語料完成人工詞性標(biāo)注,并以此為統(tǒng)計(jì)數(shù)據(jù)信息來源,通過隱馬科夫模型(HMM)訓(xùn)練語料統(tǒng)計(jì),獲取所需的詞匯概率和詞性轉(zhuǎn)移概率建立了語言模型。 本論文采用簡單有效的給定最小值平滑算法解決了統(tǒng)計(jì)中產(chǎn)生的數(shù)據(jù)稀疏問題,有效地避免了因數(shù)據(jù)稀疏問題帶來的正確率下降的問題。最后采用Viterbi算法選取詞性標(biāo)注序列中的最優(yōu)序列。 本論文不僅系統(tǒng)地研究了藏文的分詞及詞性標(biāo)注理論,解決了藏文分詞中未登錄詞的識(shí)別及歧義消解;建立詞性知識(shí)庫和人工標(biāo)注語料;解決了藏文詞性自動(dòng)標(biāo)注中兼類詞的處理,而且用程序設(shè)計(jì)實(shí)現(xiàn)了一個(gè)藏文詞性標(biāo)注系統(tǒng),經(jīng)測(cè)試本系統(tǒng)對(duì)開放語料的詞性標(biāo)注正確率達(dá)89.56%,封閉測(cè)試語料的標(biāo)注正確率達(dá)95.09%。
【學(xué)位授予單位】:西藏大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2012
【分類號(hào)】:H214
【圖文】:

藏文詞性自動(dòng)標(biāo)注系統(tǒng)的研究與實(shí)現(xiàn)


藏文分詞系統(tǒng)處理流程圖

自動(dòng)分詞,藏文,交集型歧義


從表 2-2 中我們可以發(fā)現(xiàn),交集型歧義處理前后比較,分詞的正確率有了大幅度的提高,交集型歧義處理后分詞正確率在原有的基礎(chǔ)上提高了 4.02%。2.7.3 藏文自動(dòng)分詞總體性能測(cè)試1、測(cè)試說明為了更好地評(píng)價(jià)藏文自動(dòng)分詞系統(tǒng)的性能,分詞正確率可用以下公式計(jì)算: 100%語料總詞次數(shù)切分結(jié)果中正確詞次數(shù)分詞正確率測(cè)試2、測(cè)試結(jié)果本論文以藏文文學(xué)、歷史、民俗、網(wǎng)頁新聞、小學(xué)藏文教材為取材,精選 12萬余字的語料完成自動(dòng)分詞測(cè)試,結(jié)果如圖 2-5 所示:分詞正確率 88.61% 92.63%

語料庫,藏文,詞性,兼類詞


3.2.3 本論文使用的語料筆者以藏族文學(xué)、民俗、歷史等為取材整理后精選 12 萬余字的藏文文本,對(duì)其逐詞完成標(biāo)注后形成本論文實(shí)驗(yàn)用的標(biāo)注語料庫。其部分內(nèi)容截圖如圖3-1所示:圖 3-1 語料庫截圖3.3 藏文兼類詞的特點(diǎn)在藏文中,詞性的兼類現(xiàn)象普遍存在,尤其是藏文中出現(xiàn)頻率極高的格助詞兼類給藏文詞性標(biāo)注帶來了很大困難。論文從標(biāo)注語料中對(duì)藏語文本中兼類詞特點(diǎn)及現(xiàn)象做了具體的統(tǒng)計(jì)分析。如:(例子來源《藏漢大詞典》14)(1) ①有 (起立、豎立)之意,例如: (毛發(fā)悚立)②有 (紛亂、不平靜)之意,例如: (心不平靜),上例①中“ ”的詞性為動(dòng)詞,但②中“ ”的詞性為形容詞。所以“ ”14張怡蓀主編.《藏漢大辭典》,北京:民族出版社,1993

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 陳玉忠,俞士汶;藏文信息處理技術(shù)的研究現(xiàn)狀與展望[J];中國藏學(xué);2003年04期

2 龍樹全;趙正文;唐華;;中文分詞算法概述[J];電腦知識(shí)與技術(shù);2009年10期

3 王達(dá);崔蕊;;數(shù)據(jù)平滑技術(shù)綜述[J];電腦知識(shí)與技術(shù);2009年17期

4 蔡勇智;;未登錄詞識(shí)別算法的改進(jìn)[J];福建電腦;2006年03期

5 趙秦怡;王麗珍;;一種基于互信息的串掃描中文文本分詞方法[J];情報(bào)雜志;2010年07期

6 李榮;鄭家恒;;一種改進(jìn)Viterbi算法的應(yīng)用研究[J];計(jì)算機(jī)工程與設(shè)計(jì);2007年03期

7 丁振國;張卓;黎靖;;基于Hash結(jié)構(gòu)的逆向最大匹配分詞算法的改進(jìn)[J];計(jì)算機(jī)工程與設(shè)計(jì);2008年12期

8 董曉華;鄧霞;薄會(huì)娟;劉冀;李英海;;平滑最小值法與數(shù)字濾波法在流域徑流分割中的應(yīng)用比較[J];三峽大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年02期

9 張恒;楊文昭;屈景輝;盧虹冰;張亮;趙飛;;基于詞典和詞頻的中文分詞方法[J];微計(jì)算機(jī)信息;2008年03期

10 祁坤鈺;;信息處理用藏文自動(dòng)分詞研究[J];西北民族大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版);2006年04期

相關(guān)會(huì)議論文 前1條

1 陳玉忠;李保利;俞士汶;蘭措吉;;基于格助詞和接續(xù)特征的藏文自動(dòng)分詞方案[A];第一屆學(xué)生計(jì)算語言學(xué)研討會(huì)論文集[C];2002年

相關(guān)碩士學(xué)位論文 前4條

1 錢揖麗;中文文本分詞及詞性標(biāo)注自動(dòng)校對(duì)方法研究[D];山西大學(xué);2003年

2 張衛(wèi);中文詞性標(biāo)注的研究與實(shí)現(xiàn)[D];南京師范大學(xué);2007年

3 王瑩;基于錯(cuò)誤驅(qū)動(dòng)的漢語詞性標(biāo)注研究[D];北京郵電大學(xué);2007年

4 王敏;基于改進(jìn)的隱馬爾科夫模型漢語詞性標(biāo)注[D];山西大學(xué);2007年



本文編號(hào):2782779

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2782779.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶ce1a9***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com