“自下而上”的傳統(tǒng)蒙古文簡單句句法分析研究與實現(xiàn)
本文選題:句法分析 + 傳統(tǒng)蒙古文簡單句; 參考:《內(nèi)蒙古大學》2017年碩士論文
【摘要】:句法分析(SyntacticParsing)是自然語言處理的一個關鍵技術(shù),其基本任務是確定句子的成分。因為句法分析需要結(jié)合復雜的句法結(jié)構(gòu),所以該領域一直是自然語言處理的一個難點且發(fā)展較為緩慢。蒙古文是我國少數(shù)民族地區(qū)使用的語言文字之一,而且由于其蒙古文語言特點的復雜性,蒙古文句法分析研究一直處于緩慢發(fā)展的階段。本文結(jié)合蒙古文簡單句的特點,采用基于規(guī)則的自下而上的方法對蒙古文簡單句進行句法分析。本文的主要研究內(nèi)容有以下幾點:(1)格與主語標志詞還原規(guī)則的建立。蒙古文簡單句中經(jīng)常會出現(xiàn)省略格與主語標志詞的情況。通過對省略格與主語標志詞的句型進行研究,制定了格與主語標志詞還原規(guī)則,進而達到了更好地分析句子成分的目的。(2)自下而上的傳統(tǒng)蒙古文簡單句句法分析算法。本文根據(jù)傳統(tǒng)蒙古文的特點提出了自下而上的句法分析的方法,同時設計了該方法的算法并加以實現(xiàn)。實驗結(jié)果表明,格與主語標志詞的還原明顯地提高了句子成分劃分的準確率。(3)蒙古文詞性標注。本文的詞性標注采用的是基于字典和規(guī)則相結(jié)合的方法,首先通過字典庫對單個詞和詞組進行詞性標注,然后采用基于規(guī)則的方法對未登錄詞進行詞性標注。實驗結(jié)果表明該方法能夠達到句法分析的基本要求。(4)詞典庫的完善以及規(guī)則庫的建立。本文根據(jù)蒙古文詞的特點,建立了詞綴庫并對原有的詞典庫進行了完善。在建立的規(guī)則庫中,動詞規(guī)則有141條(除去古語動詞規(guī)則)、名詞規(guī)則有38條、形容詞規(guī)則有15條。實驗結(jié)果表明,規(guī)則庫的完善這極大地提高了詞性標注的準確率。
[Abstract]:Syntactic parsing is a key technique in natural language processing, whose basic task is to determine the composition of sentences. Because syntactic analysis needs to be combined with complex syntactic structures, this field has been a difficulty in natural language processing and has been developing slowly. Mongolian is one of the languages used in minority areas of China, and because of the complexity of its Mongolian language characteristics, the study of Mongolian syntactic analysis has been in the stage of slow development. Based on the features of Mongolian simple sentences, this paper analyzes the syntax of Mongolian simple sentences by rule-based bottom-up method. The main research contents of this paper are as follows: 1) case and the establishment of the rule of restoring the subject marker. Ellipsis and subject markers are often found in simple Mongolian sentences. By studying the sentence pattern of ellipsis case and subject marker, this paper formulates the rules of the reduction of case and subject marker, and then achieves the purpose of better analyzing the sentence composition. 2) the bottom-up traditional Mongolian simple sentence syntax analysis algorithm. In this paper, a bottom-up syntactic analysis method is proposed according to the characteristics of traditional Mongolian, and the algorithm of this method is designed and implemented. The experimental results show that the reduction of case and subject markers significantly improves the accuracy of sentence component classification. The part of speech tagging in this paper is based on the combination of dictionaries and rules. Firstly, a dictionary is used to label a single word and a phrase, and then a rule-based method is used to label unregistered words in part of part of speech. The experimental results show that the method can meet the basic requirements of syntactic parsing. According to the characteristics of Mongolian words, the affix database is established and the original dictionary is improved. In the established rule base, there are 141 rules for verbs (except for old verbs, 38 for nouns and 15 for adjectives). Experimental results show that the improvement of rule base greatly improves the accuracy of part of speech tagging.
【學位授予單位】:內(nèi)蒙古大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:TP391.1
【參考文獻】
相關期刊論文 前10條
1 包薩仁圖雅;達胡白乙拉;;蒙古語句法結(jié)構(gòu)分析中句子的自動識別和分類[J];內(nèi)蒙古民族大學學報(社會科學版);2015年05期
2 蘇向東;高光來;閆學亮;;蒙古文依存句法分析[J];計算機科學;2014年08期
3 趙建東;高光來;飛龍;;基于歷史模型的蒙古文自動詞性標注研究[J];中文信息學報;2013年05期
4 吳偉成;周俊生;曲維光;;基于統(tǒng)計學習模型的句法分析方法綜述[J];中文信息學報;2013年03期
5 袁里馳;;基于改進的隱馬爾科夫模型的詞性標注方法[J];中南大學學報(自然科學版);2012年08期
6 張貫虹;斯·勞格勞;烏達巴拉;;融合形態(tài)特征的最大熵蒙古文詞性標注模型[J];計算機研究與發(fā)展;2011年12期
7 姜文斌;吳金星;長青;那順烏日圖;劉群;趙理莉;;蒙古語詞法分析的有向圖模型[J];中文信息學報;2011年05期
8 谷川;田喜平;;基于條件隨機場的漢語詞性標注方法研究[J];安陽師范學院學報;2010年05期
9 王鵬,戴新宇,陳家駿,王啟祥;基于規(guī)則的漢語句法分析方法研究[J];計算機工程與應用;2003年29期
10 孟遙,李生,趙鐵軍,曹海龍;四種基本統(tǒng)計句法分析模型在漢語句法分析中的性能比較[J];中文信息學報;2003年03期
相關會議論文 前1條
1 王斯日古楞;德·薩日娜;那順烏日圖;;現(xiàn)代蒙古語謂語段自動標注系統(tǒng)的設計與實現(xiàn)[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學術(shù)研討會論文集[C];2007年
相關博士學位論文 前2條
1 斯·勞格勞;現(xiàn)代蒙古語依存句法自動分析研究[D];內(nèi)蒙古大學;2011年
2 達胡白乙拉;蒙古語基本動詞短語自動識別研究[D];內(nèi)蒙古大學;2005年
相關碩士學位論文 前10條
1 莫日根;基于規(guī)則的傳統(tǒng)蒙古文句法分析研究[D];內(nèi)蒙古大學;2016年
2 熊曉曉;基于蒙古語名詞語義網(wǎng)的同形詞歧義消除算法的研究[D];內(nèi)蒙古師范大學;2015年
3 李坤;蒙古文網(wǎng)絡熱點詞提取算法研究[D];內(nèi)蒙古大學;2015年
4 劉慧敏;中文詞性標注及未登錄詞詞性預測研究[D];南京師范大學;2015年
5 完么才讓;基于規(guī)則的藏語句法分析研究[D];青海民族大學;2014年
6 阿榮;蒙古文統(tǒng)計句法分析研究[D];內(nèi)蒙古師范大學;2014年
7 李華棟;基于規(guī)則的漢語兼類詞標注方法研究[D];西南交通大學;2014年
8 明玉;基于詞典、規(guī)則與統(tǒng)計的蒙古文詞切分系統(tǒng)的研究[D];內(nèi)蒙古大學;2011年
9 吳金星;蒙古語詞法標注語料庫的構(gòu)建及相關技術(shù)研究[D];內(nèi)蒙古大學;2011年
10 艷紅;基于統(tǒng)計的蒙古文自動詞性標注的研究與實現(xiàn)[D];內(nèi)蒙古師范大學;2010年
,本文編號:1778795
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1778795.html