越南語淺層句法分析方法的研究
本文關(guān)鍵詞:越南語淺層句法分析方法的研究 出處:《昆明理工大學(xué)》2017年碩士論文 論文類型:學(xué)位論文
更多相關(guān)文章: 越南語 兼類詞 命名實(shí)體 組塊 最大熵 條件隨機(jī)場 錯誤驅(qū)動轉(zhuǎn)換學(xué)習(xí) 實(shí)體庫 規(guī)則
【摘要】:隨著兩國政治、經(jīng)濟(jì)和文化等方面日益頻繁接觸和深入合作,語言交流顯得尤為重要。由于兩國語言相差較大,造成了溝通上的障礙,進(jìn)而成為兩國發(fā)展的絆腳石;同時越南語自然語言處理在人工智能中起到核心作用,同樣底層的淺層句法分析是自然語言處理的基礎(chǔ)與前提,關(guān)系到后續(xù)工作的開展,且為上層應(yīng)用服務(wù)。為了兩國更好的發(fā)展,解決語言問題勢在必行;針對上述問題,漢越機(jī)器翻譯工作越來越重要。本文開展了越南語淺層句法分析的研究,主要完成了以下幾個方面的研究工作:1.收集、整理和預(yù)處理越南語兼類詞、實(shí)體和組塊相關(guān)語料。語料是自然語言處理過程中基礎(chǔ)性的課題,故構(gòu)建語料庫顯得尤為重要,主要構(gòu)建越南語兼類詞、實(shí)體、實(shí)體庫和組塊等語料庫,語料主要來源于已公開的少量語料和人工標(biāo)記校對。2.提出了 一種基于條件隨機(jī)場的越南語兼類詞方法。首先通過分析越南語兼類詞特點(diǎn)進(jìn)行分析,選取有效的兼類詞消歧特征,制定相應(yīng)的特征模版;其次使用條件隨機(jī)場進(jìn)行統(tǒng)計建模,得到基于條件隨機(jī)場的越南語兼類詞消歧模型。兼類詞問題的解決有利于提高詞性標(biāo)注的準(zhǔn)確率,提高詞性語料庫質(zhì)量,盡可能防止錯誤向后累積傳遞,為越南語命名實(shí)體識別提供了基礎(chǔ)和支撐。3.提出了一種融合實(shí)體特性的越南語命名實(shí)體識別的混合方法。首先根據(jù)越南語語言和實(shí)體特點(diǎn)進(jìn)行分析,選取全局特征和局部特征作為本文的有效特征,構(gòu)建基于最大熵模型的越南語實(shí)體識別模型;其次利用以上的特點(diǎn)進(jìn)行制定越南語實(shí)體識別的規(guī)則集合;最后將最大熵模型和規(guī)則集合相結(jié)合進(jìn)行實(shí)體識別。實(shí)體可以作為組塊中有效的特征,同時有利于后續(xù)工作的開展。4.提出來了一種條件隨機(jī)場和錯誤驅(qū)動學(xué)習(xí)的越南語組塊分析方法。首先根據(jù)越南語組塊和語言特點(diǎn),選取基本特征和實(shí)體特征作為本文的有效特征,使用條件隨機(jī)場統(tǒng)計方法進(jìn)行建模,得到組塊統(tǒng)計分析模型;其次利用轉(zhuǎn)換學(xué)習(xí)方法進(jìn)行獲取候選轉(zhuǎn)換規(guī)則集合,利用評價函數(shù)進(jìn)行篩選,得到轉(zhuǎn)換規(guī)則集合;最后將統(tǒng)計模型和轉(zhuǎn)換規(guī)則相結(jié)合進(jìn)行組塊分析標(biāo)記。組塊作為實(shí)體識別的有效特征有利于實(shí)體識別正確率的提高。
[Abstract]:As the political, economic and cultural aspects of the two countries increasingly frequent contact and in-depth cooperation, language exchange is particularly important. Then become the stumbling block of the development of the two countries; At the same time, Vietnamese natural language processing plays a central role in artificial intelligence, the same low-level shallow syntax analysis is the basis and premise of natural language processing, related to the development of follow-up work. For the better development of the two countries, it is imperative to solve the language problem; In order to solve the above problems, Sino-Vietnamese machine translation is becoming more and more important. In this paper, the research on the shallow syntactic analysis of Vietnamese has been carried out, and the following research work has been completed: 1. Collating and preprocessing Vietnamese concomitant words, entities and chunks related corpus. Corpus is a basic subject in the process of natural language processing, so it is particularly important to construct corpus, mainly to construct Vietnamese concomitant words and entities. A corpus of entities and blocks. The corpus mainly comes from a few published corpus and manual marker proofreading. 2. A conditional random field based method of Vietnamese conjunctive words is proposed. Firstly, the characteristics of Vietnamese conjunctive words are analyzed. The effective disambiguation feature of the compound word is selected and the corresponding feature template is established. Secondly, the conditional random field is used for statistical modeling to obtain a conditional random field based Vietnamese word disambiguation model. The solution of concurrent word problem is helpful to improve the accuracy of part of speech tagging and improve the quality of part of speech corpus. As far as possible, prevent the accumulation of errors from being passed back. This paper provides the basis and support for Vietnamese named entity recognition. 3. A hybrid method of Vietnamese named entity recognition is proposed. Firstly, it is analyzed according to the characteristics of Vietnamese language and entity. The global feature and local feature are selected as the effective features in this paper, and a Vietnamese entity recognition model based on the maximum entropy model is constructed. Secondly, make use of the above characteristics to make the Vietnamese language entity recognition rules set; Finally, the maximum entropy model and the rule set are combined to identify the entity. The entity can be used as an effective feature in the block. At the same time, it is helpful to carry out the following work. 4. A conditional random field and error-driven learning method of Vietnamese language block analysis is proposed. Firstly, according to the Vietnamese language block and language characteristics. The basic features and entity features are selected as the effective features in this paper. The conditional random field statistical method is used to model the block statistical analysis model. Secondly, the candidate transformation rule set is obtained by using the transformation learning method, and the set of transformation rules is obtained by the selection of the evaluation function. Finally, the statistical model and the transformation rule are combined to carry out block analysis marking. As an effective feature of entity recognition, block is beneficial to improve the accuracy of entity recognition.
【學(xué)位授予單位】:昆明理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前1條
1 羅武駿;黃程韋;查誠;趙力;;越南語語音情感特征分析與識別[J];信號處理;2013年10期
相關(guān)會議論文 前3條
1 張海云;張超靜;畢玉德;;越南語文獻(xiàn)中字母縮略語自動提取研究[A];第五屆全國青年計算語言學(xué)研討會論文集[C];2010年
2 武氏惠;;淺談漢語多音字對越南語翻譯的影響——以“單”字為例[A];學(xué)行堂文史集刊——2013年第2期[C];2013年
3 林麗;畢玉德;;越南語給予類動詞的語義結(jié)構(gòu)和層級分類研究[A];中國計算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
相關(guān)重要報紙文章 前10條
1 實(shí)習(xí)生 黃一婧 記者 周仕興;全國越南語口語大賽在邕舉行[N];廣西日報;2005年
2 陸勇;崇左打響越南語人才跨國勞務(wù)品牌[N];中國勞動保障報;2008年
3 本報記者 曹植勤 實(shí)習(xí)生 侯少華 鄧芳;越南語里的中國文化[N];南寧日報;2008年
4 唐光福;加強(qiáng)技能培訓(xùn) 提升業(yè)務(wù)能力[N];邊防警察報;2010年
5 記者 鄭雅邋實(shí)習(xí)生 劉小靈 袁晶;把中越語言文化研究向前推進(jìn)[N];南寧日報;2007年
6 本報記者 伍建青;教育交流澆灌友誼之花[N];廣西日報;2010年
7 黃志輝 班紹長;一口流利越南語 邊貿(mào)派上大用場[N];中國勞動保障報;2013年
8 周漢青 本報記者 陳典宏;中士伍新海邊境線上的“金牌翻譯”[N];解放軍報;2010年
9 謝莉麗;越南語畢業(yè)生火爆東盟[N];廣西日報;2004年
10 通訊員 海仁;海南特招俄語和越南語專業(yè)公務(wù)員[N];中國人事報;2008年
相關(guān)博士學(xué)位論文 前6條
1 武金英(VU KIM ANH);漢越詞研究[D];河北大學(xué);2016年
2 武忠定;越南語核心詞研究[D];華中科技大學(xué);2012年
3 阮氏玉華;越南語佛教詞語研究[D];華中科技大學(xué);2011年
4 阮氏玉華;越南語佛教詞語研究[D];華中科技大學(xué);2011年
5 阮大瞿越(Nguy(?)n (?)i C(?) Vi(?)t;十七世紀(jì)越南漢字音(A類)研究[D];北京大學(xué);2011年
6 阮氏黎心;漢越人體名詞隱喻對比研究[D];華東師范大學(xué);2011年
相關(guān)碩士學(xué)位論文 前10條
1 阮武瓊芳;漢越詞及漢越音在新時期越南語中的實(shí)踐價值[D];首都師范大學(xué);2007年
2 徐淑媛;越南語問候語研究[D];廣西民族大學(xué);2015年
3 陳氏青日;越南語與漢語擬聲詞對比研究[D];廣西民族大學(xué);2014年
4 莫媛媛;漢越雙語詞語對齊方法研究[D];昆明理工大學(xué);2015年
5 陳氏賢;漢語副詞“都”與越南語對應(yīng)詞對比研究和偏誤分析[D];福建師范大學(xué);2015年
6 顏偉光(NHAN VI QUANG);越南語注釋的漢語教材中同譯動詞的研究[D];福建師范大學(xué);2015年
7 龐納敏;新HSK六級詞匯漢越比較研究[D];廣西大學(xué);2015年
8 阮氏莊;漢越介詞對比研究及越南學(xué)生使用漢語介詞的調(diào)查分析[D];東北師范大學(xué);2015年
9 范功名(Pham Cong Danh);漢—越語短語語序與正負(fù)遷移研究[D];河北師范大學(xué);2015年
10 黎明柱子;漢越詞:類別與越化[D];廣東外語外貿(mào)大學(xué);2015年
,本文編號:1362453
本文鏈接:http://sikaile.net/jingjilunwen/zhengzhijingjixuelunwen/1362453.html