中文事件抽取關(guān)鍵技術(shù)研究
本文關(guān)鍵詞:中文事件抽取關(guān)鍵技術(shù)研究
更多相關(guān)文章: 時(shí)間表達(dá)式識別 事件抽取 觸發(fā)詞 事件論元角色 依存句法分析 卷積樹核
【摘要】:隨著Web2.0的興起,互聯(lián)網(wǎng)發(fā)展越發(fā)迅速,人們可以在互聯(lián)網(wǎng)中更加便捷與快速地獲取信息。但是隨著互聯(lián)網(wǎng)中信息爆炸式的增長,人們不得不面對海量的信息,如何從大量非結(jié)構(gòu)化文本中提取出人們真正需要的信息成為亟待解決的問題,信息抽取技術(shù)應(yīng)運(yùn)而生。事件抽取是信息抽取中一個重要的研究方向,有助于幫助用戶從文本中檢測出所需要的事件,提取事件所涉及的人物、地點(diǎn)、時(shí)間等事件元素,并將提取出的信息以結(jié)構(gòu)化形式保存下來。這些信息無論是供用戶直接查看,還是供機(jī)器翻譯、文本檢索、自動文本摘要、趨勢分析等多種領(lǐng)域使用,都具有重要意義。本文研究中文事件抽取技術(shù),主要包括時(shí)間表達(dá)式識別、事件檢測與分類和事件論元角色抽取等三個部分。論文的主要研究成果如下:(1)研究了時(shí)間表達(dá)式識別,提出一種基于詞典特征優(yōu)化和依存關(guān)系的中文時(shí)間表達(dá)式識別方法。首先,優(yōu)化了傳統(tǒng)時(shí)間詞典特征,將時(shí)間詞典分為時(shí)間詞詞典和時(shí)間單位詞典,緩解了中文文本時(shí)間表達(dá)式長距離依賴的問題;其次,在優(yōu)化后詞典特征的基礎(chǔ)上提取依存特征,挖掘時(shí)間表達(dá)式的結(jié)構(gòu)信息;最后,綜合時(shí)間表達(dá)式的基本特征、詞典特征和依存特征,利用條件隨機(jī)場模型實(shí)現(xiàn)時(shí)間表達(dá)式識別。在ACE2005中文語料和TempEval-2任務(wù)中文語料上進(jìn)行實(shí)驗(yàn),該方法相對于傳統(tǒng)基于基本特征與詞典特征的機(jī)器學(xué)習(xí)方法,提高了準(zhǔn)確率和召回率。(2)研究了事件檢測與分類,提出了一種基于依存句法分析與分類器融合的事件觸發(fā)詞抽取方法。該方法通過綜合利用事件元素信息和依存句法分析信息,抽取觸發(fā)詞-實(shí)體描述對,提高觸發(fā)詞抽取的召回率;然后,將觸發(fā)詞-實(shí)體描述對抽取結(jié)果與單一觸發(fā)詞抽取結(jié)果相融合,以避免召回率提高所帶來的準(zhǔn)確率下降問題。在ACE2005中文語料上進(jìn)行實(shí)驗(yàn),該方法在事件檢測與分類任務(wù)中,相對于傳統(tǒng)單一觸發(fā)詞抽取方法,提高了準(zhǔn)確率和召回率。(3)研究了事件論元角色抽取,針對傳統(tǒng)基于機(jī)器學(xué)習(xí)的方法通常將句法分析信息轉(zhuǎn)化為平面特征,并不能全面利用句法分析信息的問題,提出了一種基于卷積樹核的事件論元角色抽取方法。首先,構(gòu)造基本樹結(jié)構(gòu),將句法分析信息轉(zhuǎn)化為結(jié)構(gòu)特征;其次,針對句法結(jié)構(gòu)樹包含較多冗余信息的問題,設(shè)計(jì)相應(yīng)裁剪算法,優(yōu)化樹結(jié)構(gòu),減少卷積樹核計(jì)算的時(shí)間復(fù)雜度;最后,構(gòu)造復(fù)合核將平面特征與結(jié)構(gòu)特征相結(jié)合,并訓(xùn)練支持向量機(jī)分類器完成事件論元角色抽取。在ACE2005中文語料上進(jìn)行實(shí)驗(yàn),該方法相對于傳統(tǒng)的機(jī)器學(xué)習(xí)方法,提高了事件論元角色抽取性能。
【關(guān)鍵詞】:時(shí)間表達(dá)式識別 事件抽取 觸發(fā)詞 事件論元角色 依存句法分析 卷積樹核
【學(xué)位授予單位】:解放軍信息工程大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.1
【目錄】:
- 摘要4-5
- ABSTRACT5-11
- 第一章 緒論11-21
- 1.1 論文的研究背景與研究意義11-12
- 1.2 國內(nèi)外研究現(xiàn)狀12-17
- 1.2.1 時(shí)間表達(dá)式識別研究現(xiàn)狀分析13-14
- 1.2.2 事件抽取研究現(xiàn)狀分析14-17
- 1.3 論文研究內(nèi)容與結(jié)構(gòu)安排17-21
- 1.3.1 研究內(nèi)容17-18
- 1.3.2 結(jié)構(gòu)安排18-21
- 第二章 事件抽取基礎(chǔ)21-33
- 2.1 相關(guān)概念21-25
- 2.1.1 時(shí)間表達(dá)式識別21-23
- 2.1.2 事件抽取23-25
- 2.2 評測語料25-28
- 2.2.1 時(shí)間表達(dá)式識別評測語料25-26
- 2.2.2 事件抽取評測語料26-28
- 2.3 機(jī)器學(xué)習(xí)模型28-32
- 2.3.1 條件隨機(jī)場模型簡介28-30
- 2.3.2 支持向量機(jī)模型簡介30-32
- 2.4 本章小結(jié)32-33
- 第三章 基于詞典特征優(yōu)化和依存關(guān)系的中文時(shí)間表達(dá)式識別33-41
- 3.1 基于詞典特征優(yōu)化和依存關(guān)系的中文時(shí)間表達(dá)式識別方法原理分析33
- 3.2 基于詞典特征優(yōu)化和依存關(guān)系的中文時(shí)間表達(dá)式識別方法流程與關(guān)鍵技術(shù)33-36
- 3.2.1 方法流程34-35
- 3.2.2 特征提取35-36
- 3.3 實(shí)驗(yàn)結(jié)果與性能分析36-39
- 3.3.1 實(shí)驗(yàn)設(shè)置36-37
- 3.3.2 實(shí)驗(yàn)結(jié)果與分析37-39
- 3.4 本章小結(jié)39-41
- 第四章 基于依存句法分析與分類器融合的事件觸發(fā)詞抽取41-51
- 4.1 基于依存句法分析與分類器融合的觸發(fā)詞抽取方法原理分析41
- 4.2 基于依存句法分析與分類器融合的觸發(fā)詞抽取方法流程與關(guān)鍵技術(shù)41-48
- 4.2.1 方法流程41-43
- 4.2.2 單一觸發(fā)詞抽取43-44
- 4.2.3 觸發(fā)詞-實(shí)體描述對抽取44-46
- 4.2.4 分類器融合46-48
- 4.3 實(shí)驗(yàn)結(jié)果與性能分析48-50
- 4.3.1 實(shí)驗(yàn)設(shè)置48
- 4.3.2 實(shí)驗(yàn)結(jié)果及分析48-50
- 4.4 本章小結(jié)50-51
- 第五章 基于卷積樹核的事件論元角色抽取51-59
- 5.1 基于卷積樹核的事件論元角色抽取方法原理分析51-52
- 5.2 基于卷積樹核的事件論元角色抽取方法流程與關(guān)鍵技術(shù)52-56
- 5.2.1 方法流程52
- 5.2.2 特征提取52-55
- 5.2.3 卷積樹核55-56
- 5.2.4 復(fù)合核56
- 5.3 實(shí)驗(yàn)結(jié)果與性能分析56-58
- 5.3.1 實(shí)驗(yàn)設(shè)置56-57
- 5.3.2 實(shí)驗(yàn)結(jié)果及分析57-58
- 5.4 本章小結(jié)58-59
- 第六章 總結(jié)與展望59-61
- 6.1 本文工作總結(jié)59
- 6.2 下一步研究展望59-61
- 致謝61-62
- 參考文獻(xiàn)62-68
- 作者簡歷68
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 郭喜躍;何婷婷;;信息抽取研究綜述[J];計(jì)算機(jī)科學(xué);2015年02期
2 徐霞;李培峰;朱巧明;;半監(jiān)督中文事件抽取中的模板過濾和轉(zhuǎn)換方法[J];計(jì)算機(jī)科學(xué);2015年02期
3 吳瓊;黃德根;;基于條件隨機(jī)場與時(shí)間詞庫的中文時(shí)間表達(dá)式識別[J];中文信息學(xué)報(bào);2014年06期
4 左亞堯;龍耀發(fā);李杰駿;;基于規(guī)則的中文時(shí)間表達(dá)式識別與規(guī)范化[J];廣東工業(yè)大學(xué)學(xué)報(bào);2014年03期
5 趙紫玉;徐金安;張玉潔;劉江鳴;;規(guī)則與統(tǒng)計(jì)相結(jié)合的日語時(shí)間表達(dá)式識別[J];中文信息學(xué)報(bào);2013年06期
6 王偉;趙東巖;蘇婷婷;;C-TERN:一種基于CFSA的軍事新聞文本時(shí)間信息處理算法[J];北京大學(xué)學(xué)報(bào)(自然科學(xué)版);2014年01期
7 王健;吳雨;林鴻飛;楊志豪;;基于深層句法分析的生物事件觸發(fā)詞抽取[J];計(jì)算機(jī)工程;2014年01期
8 李君嬋;譚紅葉;王風(fēng)娥;;中文時(shí)間表達(dá)式及類型識別[J];計(jì)算機(jī)科學(xué);2012年S3期
9 沈思;蘇新寧;謝靖;王東波;;基于清華漢語樹庫的時(shí)間表達(dá)式抽取模型構(gòu)建研究[J];圖書情報(bào)工作;2012年18期
10 朱莎莎;劉宗田;付劍鋒;朱芳;;基于條件隨機(jī)場的中文時(shí)間短語識別[J];計(jì)算機(jī)工程;2011年15期
,本文編號:808476
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/808476.html