天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

緬甸語詞性標注語料庫構建方法研究

發(fā)布時間:2018-04-11 17:37

  本文選題:詞性標注 + 詞性標注語料庫; 參考:《昆明理工大學》2017年碩士論文


【摘要】:詞性標注是自然語言信息處理的基礎工作,詞性標注的準確率直接影響自然語言處理的上層應用效果。由于緬甸語在自然語言處理方面基礎較薄弱,國內(nèi)外開展緬語詞性標記方法研究的工作相對較少。緬甸語屬于資源稀缺語言,目前基于統(tǒng)計的詞性標注方法對于缺乏大規(guī)模人工標記樣本作為訓練語料的緬甸語詞性標記而言還不能取得明顯的效果。因此,如何構建一定規(guī)模的緬甸語詞性標注語料庫,對于開展緬甸語詞性標記工作具有非常重要的應用價值。本文圍繞緬甸語語料庫構建,緬甸語詞性標注語料庫的構建展開相關工作并取得以下成果:(1)由于目前沒有開放的緬甸語語料庫資源,所以本文圍繞緬甸語語料庫構建展開工作。通過收集緬甸語新聞網(wǎng)站,分析網(wǎng)頁結構,爬取緬甸語新聞,獲得緬甸語新聞文本;收集英緬詞典,英緬漢詞典,構建一定規(guī)模的緬甸語詞典庫;通過漢緬雙語新聞網(wǎng)站,爬取漢緬雙語可比文檔,構建緬甸語語料庫。(2)提出基于雙語可比語料的緬甸語詞性標注語料庫構建方法。利用基于漢-緬雙語詞典及WordNet雙語詞語上下文向量相似度計算方法抽取漢-緬互譯詞,并利用雙語詞性映射的方法,實現(xiàn)緬甸語詞性標注,構建緬甸語詞性標注語料庫。(3)提出一種融合詞典知識的緬甸語詞性標注語料庫構建方法。首先在上一種方法獲取的詞性標注語料庫中提取詞語擴充英緬詞典,利用英緬詞典對緬甸語單語新聞分詞文本進行詞性粗標注,同時構建一些規(guī)則庫對未登錄詞和兼類詞的詞性標注的規(guī)則支持,同時利用貝葉斯模型對兼類詞進行詞性消歧;通過這種方法,完成緬甸語的詞性標注工作,構建出緬甸語詞性標注語料庫,完成預期目標。
[Abstract]:POS tagging is the basic work of natural language information processing, the application accuracy of POS tagging directly affected Natural Language Processing. Due to the Burmese Language Based on Natural Language Processing is weak, on the Burmese POS tagging methods at home and abroad to carry out the work is relatively less. Burmese language belongs to the scarcity of resources, the current statistical tagging method for Burmese the lack of large-scale labeled POS tagging samples as the training corpus is not achieved significant results. Based on the result, Burmese speech how to construct certain scale labeled corpus, for it has very important application value to carry out the Burmese Language part of speech tagging work. This paper focuses on the Burmese Language Corpus Construction, Burmese construction related corpus tagging the work and research results are as follows: (1) the Burmese language corpus is not currently open This paper focuses on the resources, so the Burmese language corpus construction work. Through the collection of Burmese news website, web page structure analysis, crawling Burmese news, get Burmese news text; collection of British Burma dictionary, Yingmianhan dictionary, construction of a certain scale of the Burmese Language Dictionary; the Chinese Burmese Bilingual News website, crawling bilingual Chinese and Burmese comparable documents, construction of the Burmese Language Corpus. (2) propose bilingual comparable corpus annotation Burmese speech corpus based on the construction method. Based on the Han - Burma bilingual dictionary and WordNet bilingual word context vector similarity method to extract Chinese translation of Burma words, and use the method of bilingual speech mapping, implementation of Burmese tagging the construction of part of speech tagging corpus. (3) proposed a Burmese speech fusion dictionary knowledge corpus construction method. Firstly, a method of obtaining the POS tagging language British Burma dictionary expansion extraction corpora, part of speech tagging on crude Burmese monolingual news text by British Burma dictionary, and construct some rules on the part of speech of unknown words and POS tagging rules support, at the same time using the Bias model of words for word disambiguation; by this method, completed in Myanmar part of speech tagging, construct the corpus of Burmese speech tagging, the target.

【學位授予單位】:昆明理工大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:TP391.1

【參考文獻】

相關期刊論文 前10條

1 謝春麗;;緬甸語句型分析技巧的價值及意義[J];時代教育;2016年17期

2 ;國家發(fā)展改革委、外交部、商務部聯(lián)合發(fā)布《推動共建絲綢之路經(jīng)濟帶和21世紀海上絲綢之路的愿景與行動》[J];城市規(guī)劃通訊;2015年07期

3 龐偉;;雙語語料庫構建研究綜述[J];信息技術與信息化;2015年03期

4 陳霞楓;;緬甸改革對中緬關系的影響及中國的對策[J];東南亞研究;2013年01期

5 王達;張坤;;貝葉斯模型在詞義消歧中的應用[J];計算機時代;2009年07期

6 韋紅萍;;我國培養(yǎng)東南亞語種人才的發(fā)展道路[J];東南亞縱橫;2008年05期

7 梁妍;朱耀庭;;錯誤驅(qū)動學習在未登錄詞詞性標注中的應用[J];計算機工程與設計;2008年06期

8 連樂新;胡仁龍;楊翠麗;袁春風;;基于中文賓州樹庫的淺層語義分析[J];計算機應用研究;2008年03期

9 盧志茂,劉挺,張剛,李生;基于依存分析改進貝葉斯模型的詞義消歧[J];高技術通訊;2003年05期

10 常寶寶,詹衛(wèi)東,張華瑞;面向漢英機器翻譯的雙語語料庫的建設及其管理[J];術語標準化與信息技術;2003年01期

相關碩士學位論文 前5條

1 高天宏;互聯(lián)網(wǎng)輿情分析中信息采集技術的研究與設計[D];北京郵電大學;2015年

2 吳耶瓦達(ASHIN REVATA);緬文《轉法輪經(jīng)》中的巴利語借詞研究[D];云南大學;2012年

3 朱穎;基于HMM的漢語詞性標注及其改進[D];太原理工大學;2011年

4 孫靜;基于平行語料庫的無監(jiān)督中文詞性標注研究[D];蘇州大學;2010年

5 梁以敏;基于統(tǒng)計的漢語詞性標注方法的研究[D];大連理工大學;2004年



本文編號:1736996

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1736996.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶85181***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com