基于依存樹的越南語新聞事件元素抽取技術研究
發(fā)布時間:2017-07-03 15:21
本文關鍵詞:基于依存樹的越南語新聞事件元素抽取技術研究
【摘要】:我國與越南國土接壤,加之全球化的不斷發(fā)展,我國與越南在政治、經(jīng)濟文化等方面的聯(lián)系越來越密切。在這種情形下,了解越南國內的消息對我們非常重要,隨著計算機和互聯(lián)網(wǎng)的發(fā)展,使我們通過互聯(lián)網(wǎng)就可以快速了解越南國內新聞,但是現(xiàn)在越來越多的新聞在網(wǎng)絡上充斥著,使我們不能迅速地從眾多的新聞中找到自己所關心了解的內容。如何利用信息抽取技術將非結構化的信息以結構化的形式呈現(xiàn)出來,是我們要解決的問題,對我們了解越南的政治、經(jīng)濟和文化等方面的消息具有重要的意義。本文針對越南語新聞事件元素的問題,圍繞越南語新聞關鍵事件主題句識別,主題句依存樹構建、越南語新聞事件元素抽取的方法展開了相關研究,主要完成以下工作:(1)基于TextRank加權的越南語新聞關鍵事件主題句提取通過分析越南語新聞文檔特點,發(fā)現(xiàn)關鍵詞對新聞事件句具有重要的作用。首先對新聞文檔進行預處理,包括分詞、詞性標注、命名實體識別以及停用詞過濾等;然后對新聞文檔中句子的關鍵詞計算MI值來確定事件句;接著對事件句構建有向圖,引入句子位置、句子相似度和關鍵詞覆蓋率三個影響因子來確定句子之間的影響權重,利用TextRank模型對圖中的每個點進行打分;最后選取排名最靠前的句子作為關鍵事件主題句。(2)越南語新聞事件主題句依存樹構建通過對越南語詞匯和語法方面的研究,發(fā)現(xiàn)越南語和中文在語法上除了定語后置以外大體是一致的,越南語通過詞序表達意思,改變了詞序就改變了整句話的意思。所以我們在越南語新聞關鍵事件主題句提取的基礎上,構建越南語新聞關鍵事件主題句語料庫,同時構建了對應的漢語主題句的語料庫,通過構建中文依存樹,將對應的漢語句子依存關系映射到相應的越南語句子上,構建越南語新聞關鍵事件主題句依存樹。(3)基于依存樹的越南語新聞事件元素抽取在事件元素抽取的過程中,通過將越南語的語法特點和構建的越南語新聞關鍵事件主題句相結合,從而定義對應的規(guī)則來抽取越南語新聞事件的觸發(fā)詞以及相關的事件元素。(4)利用上述研究成果,設計實現(xiàn)了基于依存樹的越南語新聞事件元素抽取原型系統(tǒng)。
【關鍵詞】:越南語 主題句抽取 依存樹 事件元素抽取
【學位授予單位】:昆明理工大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP391.1
【目錄】:
- 摘要5-6
- Abstract6-11
- 第一章 緒論11-17
- 1.1 研究背景及意義11-12
- 1.2 國內外研究現(xiàn)狀12-14
- 1.3 研究內容14-15
- 1.4 論文的組織15-17
- 第二章 相關研究17-27
- 2.1 引言17
- 2.2 主題句17-19
- 2.2.1 主題句概述17
- 2.2.2 主題句研究現(xiàn)狀17-19
- 2.2.3 主題句評測19
- 2.3 依存樹19-23
- 2.3.1 依存樹概述20
- 2.3.2 依存樹研究現(xiàn)狀20-22
- 2.3.3 依存句法分析器評價標準22-23
- 2.4 事件抽取23-26
- 2.4.1 事件抽取概述23-24
- 2.4.2 事件抽取研究現(xiàn)狀24-26
- 2.4.3 事件抽取評測26
- 2.5 本章小結26-27
- 第三章 越南語新聞關鍵事件主題句提取27-37
- 3.1 引言27
- 3.2 越南語新聞特點27-29
- 3.3 關鍵事件主題句提取29-34
- 3.3.1 關鍵事件主題句提取流程29-30
- 3.3.2 預處理及事件句識別30-31
- 3.3.3 TextRank加權計算關鍵事件主題句提取31-34
- 3.4 本章小結34-37
- 第四章 基于依存樹的越南語新聞事件元素抽取37-47
- 4.1 引言37
- 4.2 越南語特點37-39
- 4.2.1 越南語詞匯特點37-38
- 4.2.2 越南語語法特點38-39
- 4.3 主題句依存樹構建39-41
- 4.3.1 越南語主題句依存樹標注規(guī)范39
- 4.3.2 越南語主題句依存樹構建39-41
- 4.4 越南語新聞事件元素抽取41-45
- 4.4.1 越南語新聞事件元素41-42
- 4.4.2 越南語新聞事件元素42-45
- 4.5 本章小結45-47
- 第五章 原型系統(tǒng)構建及實驗結果47-55
- 5.1 引言47
- 5.2 系統(tǒng)構建47-48
- 5.3 功能展示48-52
- 5.3.1 關鍵事件主題句提取48-51
- 5.3.2 依存樹構建及事件元素抽取51-52
- 5.4 關鍵事件主題句實驗結果與分析52-53
- 5.4.1 實驗語料及評測標準52
- 5.4.2 實驗結果與分析52-53
- 5.5 越南語新聞事件元素抽取出實驗結果與分析53-54
- 5.5.1 實驗語料54
- 5.5.2 實驗結果及分析54
- 5.6 本章小結54-55
- 第六章 總結與展望55-57
- 6.1 總結55-56
- 6.2 工作展望56-57
- 致謝57-59
- 參考文獻59-63
- 附錄A 攻讀碩士期間發(fā)表論文與申請軟件著作權63-65
- 附錄B 攻讀碩士期間參與項目65
本文關鍵詞:基于依存樹的越南語新聞事件元素抽取技術研究
,
本文編號:514195
本文鏈接:http://sikaile.net/jingjilunwen/zhengzhijingjixuelunwen/514195.html
最近更新
教材專著