基于跨事件的新聞事件因果關(guān)系識(shí)別方法研究
本文選題:因果關(guān)系 + 新聞事件; 參考:《昆明理工大學(xué)》2017年碩士論文
【摘要】:信息抽取近年來(lái)一直受到國(guó)內(nèi)外學(xué)者的廣泛,國(guó)際上專門設(shè)立了 ACE評(píng)測(cè)會(huì)議來(lái)促進(jìn)該領(lǐng)域的發(fā)展。事件關(guān)系是信息抽取中非常有意義的研究?jī)?nèi)容,主要包括事件時(shí)序關(guān)系、事件因果關(guān)系等。新聞事件因果關(guān)系可以幫助人們很好地理解新聞,把握新聞事件演變規(guī)律。在信息抽取,特別是自動(dòng)問(wèn)答系統(tǒng)有著廣泛的應(yīng)用前景。因此,新聞事件因果關(guān)系識(shí)別研究也成為一個(gè)熱門研究點(diǎn),F(xiàn)有的事件因果關(guān)系識(shí)別主要利用當(dāng)前事件對(duì)的局部信息進(jìn)行識(shí)別,識(shí)別效果不高,對(duì)于新聞報(bào)道中包含的其他信息沒(méi)有進(jìn)行充分運(yùn)用。本文將引入跨事件方法對(duì)新聞事件因果關(guān)系進(jìn)行識(shí)別,當(dāng)局部信息不足以識(shí)別因果關(guān)系時(shí),積極尋找新聞報(bào)道中的其他信息進(jìn)行輔助識(shí)別。語(yǔ)料庫(kù)是機(jī)器學(xué)習(xí)算法的基礎(chǔ)。本文使用ACE2005會(huì)議提供的中文評(píng)測(cè)語(yǔ)料,該語(yǔ)料已經(jīng)對(duì)實(shí)體、關(guān)系和事件進(jìn)行了標(biāo)注。本文針對(duì)該語(yǔ)料庫(kù)進(jìn)行了詳細(xì)地分析,特別是與因果關(guān)系識(shí)別任務(wù)相結(jié)合的部分。圍繞著語(yǔ)料庫(kù)構(gòu)建、融合跨事件方法的新聞事件因果關(guān)系識(shí)別展開(kāi)了研究,主要完成了以下研究工作:(1)新聞事件因果關(guān)系語(yǔ)料庫(kù)構(gòu)建。在分析了 ACE2005中文語(yǔ)料庫(kù)的特點(diǎn)以及新聞事件因果關(guān)系識(shí)別的實(shí)際需要的基礎(chǔ)上對(duì)語(yǔ)料進(jìn)行了事件要素抽取,如事件類型、事件極性、事件泛型、事件觸發(fā)詞、事件觸發(fā)詞詞性等事件要素屬性,并組織人員對(duì)語(yǔ)料進(jìn)行事件因果關(guān)系標(biāo)注。最終將標(biāo)注的結(jié)果進(jìn)行了存儲(chǔ),構(gòu)建了新聞事件因果關(guān)系語(yǔ)料庫(kù)。(2)基于跨事件的新聞事件因果關(guān)系識(shí)別。本文將跨事件方法引入到事件因果關(guān)系識(shí)別任務(wù)中來(lái),選擇特征空間構(gòu)造最大熵分類器,進(jìn)行句子級(jí)別的因果關(guān)系識(shí)別。設(shè)定閾值,對(duì)于獲得的概率值高于閾值的,直接采用分類的結(jié)果;同時(shí)構(gòu)建文檔級(jí)別的分類器來(lái)進(jìn)一步處理低概率的部分。(3)整合了上述兩個(gè)的研究成果,設(shè)計(jì)并實(shí)現(xiàn)了新聞事件因果關(guān)系識(shí)別原型系統(tǒng)。
[Abstract]:In recent years, information extraction has been widely used by scholars at home and abroad. International ACE evaluation conferences have been set up to promote the development of this field. Event relation is a very meaningful research content in information extraction, including event temporal relation, event causality and so on. News event causality can help people to understand news and grasp the law of news event evolution. It is widely used in information extraction, especially in automatic question answering system. Therefore, news event causality recognition has become a hot research point. The existing event causality recognition mainly uses the local information of the current event to identify, the recognition effect is not high, and the other information contained in the news report is not fully utilized. In this paper, cross-event method is introduced to identify the causality of news events. When local information is not sufficient to identify causality, we will actively seek other information in news reports for auxiliary identification. Corpus is the foundation of machine learning algorithm. This paper uses the Chinese evaluation corpus provided by the ACE2005 Conference, which has annotated entities, relationships, and events. In this paper, the corpus is analyzed in detail, especially the part combined with causality recognition. This paper focuses on the construction of corpus and the identification of news event causality based on cross-event method. The following research work is completed: 1) Construction of news event causality corpus. On the basis of analyzing the characteristics of ACE2005 Chinese corpus and the actual needs of news event causality identification, the paper extracts the event elements of the corpus, such as event type, event polarity, event generality, event trigger word. Event trigger words, such as event attribute, are organized to annotate event causality. Finally, the annotated results are stored and the news event causality corpus. 2) based on the cross-event identification of news event causality. In this paper, the cross-event method is introduced into the task of event causality recognition, and the maximum entropy classifier is constructed in the feature space to identify the causal relationship at sentence level. Setting a threshold, directly using the results of classification for those whose probabilities are higher than the threshold, and constructing a document-level classifier to further deal with the low-probabilistic part. The prototype system of news event causality recognition is designed and implemented.
【學(xué)位授予單位】:昆明理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 黃一龍;李培峰;朱巧明;;中文事件相關(guān)性語(yǔ)料庫(kù)構(gòu)建及識(shí)別方法[J];計(jì)算機(jī)工程與科學(xué);2015年12期
2 郭喜躍;何婷婷;;信息抽取研究綜述[J];計(jì)算機(jī)科學(xué);2015年02期
3 王強(qiáng);陳安琪;;突發(fā)公共衛(wèi)生事件語(yǔ)料庫(kù)研究[J];安全;2015年01期
4 鐘軍;禹龍;田生偉;吐?tīng)柛ひ啦祭?;基于雙層模型的維吾爾語(yǔ)突發(fā)事件因果關(guān)系抽取[J];自動(dòng)化學(xué)報(bào);2014年04期
5 曹媛;朱巧明;李培峰;;中文事件事實(shí)性信息語(yǔ)料庫(kù)的構(gòu)建方法[J];中文信息學(xué)報(bào);2013年06期
6 侯立斌;李培峰;朱巧明;;基于CRFs和跨事件的事件識(shí)別研究[J];計(jì)算機(jī)工程;2012年24期
7 劉永彬;楊炳儒;李廣源;劉英華;;基于馬爾可夫邏輯網(wǎng)的聯(lián)合推理開(kāi)放信息抽取[J];計(jì)算機(jī)科學(xué);2012年09期
8 侯立斌;李培峰;朱巧明;錢培德;;基于跨事件理論的缺失事件角色填充研究[J];計(jì)算機(jī)科學(xué);2012年07期
9 付劍鋒;劉宗田;劉煒;周文;;基于層疊條件隨機(jī)場(chǎng)的事件因果關(guān)系抽取[J];模式識(shí)別與人工智能;2011年04期
10 李悅?cè)?毛文吉;王飛躍;;面向領(lǐng)域開(kāi)源文本的因果知識(shí)提取[J];計(jì)算機(jī)工程與科學(xué);2010年05期
相關(guān)會(huì)議論文 前1條
1 楊麗英;李紅娟;張永奎;;突發(fā)事件新聞?wù)Z料分類體系研究[A];中文信息處理前沿進(jìn)展——中國(guó)中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集[C];2006年
相關(guān)博士學(xué)位論文 前2條
1 裘江南;漢語(yǔ)文本中突發(fā)事件因果關(guān)系抽取方法研究[D];大連理工大學(xué);2012年
2 干紅華;基于事件的因果關(guān)系可計(jì)算化分析研究[D];浙江大學(xué);2003年
相關(guān)碩士學(xué)位論文 前5條
1 鄭新;中文事件時(shí)序關(guān)系識(shí)別與推理方法研究[D];蘇州大學(xué);2015年
2 潘清清;越南語(yǔ)新聞事件元素抽取方法研究[D];昆明理工大學(xué);2014年
3 宋原;中文句間關(guān)系識(shí)別及其應(yīng)用研究[D];哈爾濱工業(yè)大學(xué);2013年
4 孫輝;事件時(shí)序關(guān)系識(shí)別的研究與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2010年
5 丁小杉;基于句子的因果關(guān)系識(shí)別[D];上海交通大學(xué);2010年
,本文編號(hào):1839590
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1839590.html