中文事件抽取關(guān)鍵技術(shù)研究
本文關(guān)鍵詞:中文事件抽取關(guān)鍵技術(shù)研究
更多相關(guān)文章: 時(shí)間表達(dá)式識(shí)別 事件抽取 觸發(fā)詞 事件論元角色 依存句法分析 卷積樹(shù)核
【摘要】:隨著Web2.0的興起,互聯(lián)網(wǎng)發(fā)展越發(fā)迅速,人們可以在互聯(lián)網(wǎng)中更加便捷與快速地獲取信息。但是隨著互聯(lián)網(wǎng)中信息爆炸式的增長(zhǎng),人們不得不面對(duì)海量的信息,如何從大量非結(jié)構(gòu)化文本中提取出人們真正需要的信息成為亟待解決的問(wèn)題,信息抽取技術(shù)應(yīng)運(yùn)而生。事件抽取是信息抽取中一個(gè)重要的研究方向,有助于幫助用戶從文本中檢測(cè)出所需要的事件,提取事件所涉及的人物、地點(diǎn)、時(shí)間等事件元素,并將提取出的信息以結(jié)構(gòu)化形式保存下來(lái)。這些信息無(wú)論是供用戶直接查看,還是供機(jī)器翻譯、文本檢索、自動(dòng)文本摘要、趨勢(shì)分析等多種領(lǐng)域使用,都具有重要意義。本文研究中文事件抽取技術(shù),主要包括時(shí)間表達(dá)式識(shí)別、事件檢測(cè)與分類和事件論元角色抽取等三個(gè)部分。論文的主要研究成果如下:(1)研究了時(shí)間表達(dá)式識(shí)別,提出一種基于詞典特征優(yōu)化和依存關(guān)系的中文時(shí)間表達(dá)式識(shí)別方法。首先,優(yōu)化了傳統(tǒng)時(shí)間詞典特征,將時(shí)間詞典分為時(shí)間詞詞典和時(shí)間單位詞典,緩解了中文文本時(shí)間表達(dá)式長(zhǎng)距離依賴的問(wèn)題;其次,在優(yōu)化后詞典特征的基礎(chǔ)上提取依存特征,挖掘時(shí)間表達(dá)式的結(jié)構(gòu)信息;最后,綜合時(shí)間表達(dá)式的基本特征、詞典特征和依存特征,利用條件隨機(jī)場(chǎng)模型實(shí)現(xiàn)時(shí)間表達(dá)式識(shí)別。在ACE2005中文語(yǔ)料和TempEval-2任務(wù)中文語(yǔ)料上進(jìn)行實(shí)驗(yàn),該方法相對(duì)于傳統(tǒng)基于基本特征與詞典特征的機(jī)器學(xué)習(xí)方法,提高了準(zhǔn)確率和召回率。(2)研究了事件檢測(cè)與分類,提出了一種基于依存句法分析與分類器融合的事件觸發(fā)詞抽取方法。該方法通過(guò)綜合利用事件元素信息和依存句法分析信息,抽取觸發(fā)詞-實(shí)體描述對(duì),提高觸發(fā)詞抽取的召回率;然后,將觸發(fā)詞-實(shí)體描述對(duì)抽取結(jié)果與單一觸發(fā)詞抽取結(jié)果相融合,以避免召回率提高所帶來(lái)的準(zhǔn)確率下降問(wèn)題。在ACE2005中文語(yǔ)料上進(jìn)行實(shí)驗(yàn),該方法在事件檢測(cè)與分類任務(wù)中,相對(duì)于傳統(tǒng)單一觸發(fā)詞抽取方法,提高了準(zhǔn)確率和召回率。(3)研究了事件論元角色抽取,針對(duì)傳統(tǒng)基于機(jī)器學(xué)習(xí)的方法通常將句法分析信息轉(zhuǎn)化為平面特征,并不能全面利用句法分析信息的問(wèn)題,提出了一種基于卷積樹(shù)核的事件論元角色抽取方法。首先,構(gòu)造基本樹(shù)結(jié)構(gòu),將句法分析信息轉(zhuǎn)化為結(jié)構(gòu)特征;其次,針對(duì)句法結(jié)構(gòu)樹(shù)包含較多冗余信息的問(wèn)題,設(shè)計(jì)相應(yīng)裁剪算法,優(yōu)化樹(shù)結(jié)構(gòu),減少卷積樹(shù)核計(jì)算的時(shí)間復(fù)雜度;最后,構(gòu)造復(fù)合核將平面特征與結(jié)構(gòu)特征相結(jié)合,并訓(xùn)練支持向量機(jī)分類器完成事件論元角色抽取。在ACE2005中文語(yǔ)料上進(jìn)行實(shí)驗(yàn),該方法相對(duì)于傳統(tǒng)的機(jī)器學(xué)習(xí)方法,提高了事件論元角色抽取性能。
【關(guān)鍵詞】:時(shí)間表達(dá)式識(shí)別 事件抽取 觸發(fā)詞 事件論元角色 依存句法分析 卷積樹(shù)核
【學(xué)位授予單位】:解放軍信息工程大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP391.1
【目錄】:
- 摘要4-5
- ABSTRACT5-11
- 第一章 緒論11-21
- 1.1 論文的研究背景與研究意義11-12
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀12-17
- 1.2.1 時(shí)間表達(dá)式識(shí)別研究現(xiàn)狀分析13-14
- 1.2.2 事件抽取研究現(xiàn)狀分析14-17
- 1.3 論文研究?jī)?nèi)容與結(jié)構(gòu)安排17-21
- 1.3.1 研究?jī)?nèi)容17-18
- 1.3.2 結(jié)構(gòu)安排18-21
- 第二章 事件抽取基礎(chǔ)21-33
- 2.1 相關(guān)概念21-25
- 2.1.1 時(shí)間表達(dá)式識(shí)別21-23
- 2.1.2 事件抽取23-25
- 2.2 評(píng)測(cè)語(yǔ)料25-28
- 2.2.1 時(shí)間表達(dá)式識(shí)別評(píng)測(cè)語(yǔ)料25-26
- 2.2.2 事件抽取評(píng)測(cè)語(yǔ)料26-28
- 2.3 機(jī)器學(xué)習(xí)模型28-32
- 2.3.1 條件隨機(jī)場(chǎng)模型簡(jiǎn)介28-30
- 2.3.2 支持向量機(jī)模型簡(jiǎn)介30-32
- 2.4 本章小結(jié)32-33
- 第三章 基于詞典特征優(yōu)化和依存關(guān)系的中文時(shí)間表達(dá)式識(shí)別33-41
- 3.1 基于詞典特征優(yōu)化和依存關(guān)系的中文時(shí)間表達(dá)式識(shí)別方法原理分析33
- 3.2 基于詞典特征優(yōu)化和依存關(guān)系的中文時(shí)間表達(dá)式識(shí)別方法流程與關(guān)鍵技術(shù)33-36
- 3.2.1 方法流程34-35
- 3.2.2 特征提取35-36
- 3.3 實(shí)驗(yàn)結(jié)果與性能分析36-39
- 3.3.1 實(shí)驗(yàn)設(shè)置36-37
- 3.3.2 實(shí)驗(yàn)結(jié)果與分析37-39
- 3.4 本章小結(jié)39-41
- 第四章 基于依存句法分析與分類器融合的事件觸發(fā)詞抽取41-51
- 4.1 基于依存句法分析與分類器融合的觸發(fā)詞抽取方法原理分析41
- 4.2 基于依存句法分析與分類器融合的觸發(fā)詞抽取方法流程與關(guān)鍵技術(shù)41-48
- 4.2.1 方法流程41-43
- 4.2.2 單一觸發(fā)詞抽取43-44
- 4.2.3 觸發(fā)詞-實(shí)體描述對(duì)抽取44-46
- 4.2.4 分類器融合46-48
- 4.3 實(shí)驗(yàn)結(jié)果與性能分析48-50
- 4.3.1 實(shí)驗(yàn)設(shè)置48
- 4.3.2 實(shí)驗(yàn)結(jié)果及分析48-50
- 4.4 本章小結(jié)50-51
- 第五章 基于卷積樹(shù)核的事件論元角色抽取51-59
- 5.1 基于卷積樹(shù)核的事件論元角色抽取方法原理分析51-52
- 5.2 基于卷積樹(shù)核的事件論元角色抽取方法流程與關(guān)鍵技術(shù)52-56
- 5.2.1 方法流程52
- 5.2.2 特征提取52-55
- 5.2.3 卷積樹(shù)核55-56
- 5.2.4 復(fù)合核56
- 5.3 實(shí)驗(yàn)結(jié)果與性能分析56-58
- 5.3.1 實(shí)驗(yàn)設(shè)置56-57
- 5.3.2 實(shí)驗(yàn)結(jié)果及分析57-58
- 5.4 本章小結(jié)58-59
- 第六章 總結(jié)與展望59-61
- 6.1 本文工作總結(jié)59
- 6.2 下一步研究展望59-61
- 致謝61-62
- 參考文獻(xiàn)62-68
- 作者簡(jiǎn)歷68
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 郭喜躍;何婷婷;;信息抽取研究綜述[J];計(jì)算機(jī)科學(xué);2015年02期
2 徐霞;李培峰;朱巧明;;半監(jiān)督中文事件抽取中的模板過(guò)濾和轉(zhuǎn)換方法[J];計(jì)算機(jī)科學(xué);2015年02期
3 吳瓊;黃德根;;基于條件隨機(jī)場(chǎng)與時(shí)間詞庫(kù)的中文時(shí)間表達(dá)式識(shí)別[J];中文信息學(xué)報(bào);2014年06期
4 左亞堯;龍耀發(fā);李杰駿;;基于規(guī)則的中文時(shí)間表達(dá)式識(shí)別與規(guī)范化[J];廣東工業(yè)大學(xué)學(xué)報(bào);2014年03期
5 趙紫玉;徐金安;張玉潔;劉江鳴;;規(guī)則與統(tǒng)計(jì)相結(jié)合的日語(yǔ)時(shí)間表達(dá)式識(shí)別[J];中文信息學(xué)報(bào);2013年06期
6 王偉;趙東巖;蘇婷婷;;C-TERN:一種基于CFSA的軍事新聞文本時(shí)間信息處理算法[J];北京大學(xué)學(xué)報(bào)(自然科學(xué)版);2014年01期
7 王健;吳雨;林鴻飛;楊志豪;;基于深層句法分析的生物事件觸發(fā)詞抽取[J];計(jì)算機(jī)工程;2014年01期
8 李君嬋;譚紅葉;王風(fēng)娥;;中文時(shí)間表達(dá)式及類型識(shí)別[J];計(jì)算機(jī)科學(xué);2012年S3期
9 沈思;蘇新寧;謝靖;王東波;;基于清華漢語(yǔ)樹(shù)庫(kù)的時(shí)間表達(dá)式抽取模型構(gòu)建研究[J];圖書(shū)情報(bào)工作;2012年18期
10 朱莎莎;劉宗田;付劍鋒;朱芳;;基于條件隨機(jī)場(chǎng)的中文時(shí)間短語(yǔ)識(shí)別[J];計(jì)算機(jī)工程;2011年15期
,本文編號(hào):808476
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/808476.html