天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于維基百科的人物關(guān)系抽取研究

發(fā)布時(shí)間:2018-11-04 18:53
【摘要】:在信息抽取研究工作中,人物關(guān)系抽取是一個(gè)重要的研究課題。針對(duì)人物關(guān)系抽取的研究工作興起于MUC會(huì)議的評(píng)測(cè)項(xiàng)目,后來(lái)由ACE會(huì)議取代。目前,大部分的中文人物關(guān)系研究工作所用語(yǔ)料,大都是來(lái)自ACE會(huì)議的結(jié)構(gòu)化評(píng)測(cè)語(yǔ)料或者人民日?qǐng)?bào)等較為規(guī)范的新聞?wù)Z料。但在現(xiàn)實(shí)應(yīng)用中,特別是在互聯(lián)網(wǎng)時(shí)代,人們?cè)絹?lái)越習(xí)慣從互聯(lián)網(wǎng)中檢索想要了解的人物、事件等信息,維基百科就是其中一個(gè)常用的搜索引擎。維基百科是一個(gè)開(kāi)放的知識(shí)庫(kù),它包含了豐富的人物關(guān)系信息,同時(shí),它也是一個(gè)較符合網(wǎng)絡(luò)文本半結(jié)構(gòu)化特點(diǎn)的知識(shí)庫(kù)。因此,基于維基百科的人物關(guān)系抽取與實(shí)際生活中的人物關(guān)系抽取更為相似。人物關(guān)系抽取的主要思想是將其轉(zhuǎn)化為人物關(guān)系分類(lèi)問(wèn)題。傳統(tǒng)的抽取方法主要分為基于知識(shí)庫(kù)、基于機(jī)器學(xué)習(xí)和基于模式匹配。在基于機(jī)器學(xué)習(xí)的方法中又主要分基于核與基于特征向量的分類(lèi)方法。在人物關(guān)系抽取的過(guò)程中的兩個(gè)主要難點(diǎn)是人名識(shí)別和人物關(guān)系識(shí)別。針對(duì)上述難點(diǎn),本文提出了相應(yīng)的解決辦法,具有以下創(chuàng)新點(diǎn):(1)為解決現(xiàn)有分詞工具在人名識(shí)別中存在的外文音譯人名識(shí)別率不高的問(wèn)題,本文采用抽取維基百科中信息盒數(shù)據(jù)的方法,構(gòu)建了基于中文維基百科的人物庫(kù);同時(shí)利用維基百科中的Link數(shù)據(jù)構(gòu)建了基于中文維基百科的外文音譯人名詞典;(2)本文提出采取模式匹配與特征向量方法融合的層次分類(lèi)方法進(jìn)行人物關(guān)系分類(lèi),利用DAG-SVMs多值分類(lèi)方法解決人物關(guān)系分類(lèi)中的多值分類(lèi)問(wèn)題,以提高分類(lèi)模型執(zhí)行速度與性能,同時(shí)在人物關(guān)系的劃分中引入本人關(guān)系,以減輕維基百科中存在的“同人不同名”的現(xiàn)象;并通過(guò)實(shí)驗(yàn)驗(yàn)證了此方法的可行性。本文利用提出的方法構(gòu)建了一個(gè)規(guī)模可觀的維基百科人物庫(kù)與人名詞典。同時(shí)經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證,本文在人物關(guān)系識(shí)別方面,特別是本人關(guān)系與家庭關(guān)系的相關(guān)分類(lèi)中性能較好。
[Abstract]:In the research of information extraction, personal-relation extraction is an important research topic. The research on personal-relationship extraction originated from the evaluation project of MUC conference and was replaced by ACE conference. At present, most of the data used in the study of Chinese character relations are structured evaluation materials from ACE conferences or more standardized news materials such as People's Daily. However, in practical applications, especially in the Internet era, people are more and more used to retrieve information from the Internet, such as people, events and so on. Wikipedia is one of the commonly used search engines. Wikipedia is an open knowledge base, which contains a wealth of personal-relationship information. At the same time, it is also a knowledge base which accords with the semi-structured features of network text. Therefore, Wikipedia-based personal-relationship extraction is more similar to real-life personal-relationship extraction. The main idea of personal-relationship extraction is to transform it into personal-relationship classification. The traditional extraction methods are mainly based on knowledge base, machine learning and pattern matching. The methods based on machine learning are mainly classified based on kernel and feature vector. In the process of personal-relationship extraction, the two main difficulties are human name recognition and personal-relationship recognition. In view of the above difficulties, this paper puts forward the corresponding solutions, which have the following innovations: (1) in order to solve the problem that the foreign transliteration recognition rate of the existing word segmentation tools in the human name recognition is not high, In this paper, we use the method of extracting the information box data from Wikipedia, and construct the Chinese character database based on Wikipedia. At the same time, a dictionary of transliteration names of foreign languages based on Chinese Wikipedia is constructed by using the Link data in Wikipedia. (2) in this paper, a hierarchical classification method based on pattern matching and feature vector method is proposed to classify people relationship, and DAG-SVMs multi-value classification method is used to solve the problem of multi-valued classification. In order to improve the execution speed and performance of the classification model, and to introduce the personal relationship into the division of the relationship between people, the phenomenon of "the same person does not have the same name" in Wikipedia can be alleviated. The feasibility of this method is verified by experiments. This paper uses the proposed method to construct a large Wikipedia database of characters and a dictionary of names. At the same time, the experimental results show that the performance of this paper is better in the recognition of personal relationship, especially in the classification of personal relationship and family relationship.
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類(lèi)號(hào)】:TP391.1

【相似文獻(xiàn)】

相關(guān)期刊論文 前3條

1 傅宛菊;陳木蘭;;中國(guó)新魔幻電影的類(lèi)型化初探[J];東南傳播;2014年08期

2 丁海峰;;論電影《海洋天堂》中細(xì)節(jié)的運(yùn)用[J];西部廣播電視;2013年05期

3 ;[J];;年期

相關(guān)會(huì)議論文 前3條

1 白勁鵬;;可怕的對(duì)稱(chēng)——論《了不起的蓋茨比》中的主次人物關(guān)系[A];外語(yǔ)語(yǔ)言教學(xué)研究——黑龍江省外國(guó)語(yǔ)學(xué)會(huì)第十一次學(xué)術(shù)年會(huì)論文集[C];1997年

2 黃素影;;《天倫》創(chuàng)作小結(jié)[A];我的角色與我們的劇團(tuán)——第六屆電影表演藝術(shù)學(xué)會(huì)獎(jiǎng)文集[C];1997年

3 吳士余;;重視人物關(guān)系的典型化[A];《毛澤東文藝思想研究》第三輯暨全國(guó)毛澤東文藝思想研究會(huì)第三次年會(huì)論文集[C];1983年

相關(guān)重要報(bào)紙文章 前6條

1 本報(bào)記者 張悅;音樂(lè)劇《蝶》推出修排版[N];中國(guó)藝術(shù)報(bào);2008年

2 記者 金朝力;網(wǎng)絡(luò)視頻業(yè)首推人臉識(shí)別功能[N];北京商報(bào);2010年

3 本文實(shí)習(xí)記者 張柳青;紀(jì)念汶川地震一周年[N];中國(guó)電影報(bào);2009年

4 許柏林;小成本拍出大境界[N];人民日?qǐng)?bào);2012年

5 張克丹 綜合整理;青春·理想·奮斗·奉獻(xiàn)[N];中國(guó)電影報(bào);2009年

6 上海戲劇學(xué)院副教授 石俊;問(wèn)號(hào)的力量[N];文匯報(bào);2012年

相關(guān)碩士學(xué)位論文 前7條

1 唐丞博;談《追夢(mèng)時(shí)刻》中人物關(guān)系的發(fā)展和變化[D];云南藝術(shù)學(xué)院;2016年

2 劉博佳;基于維基百科的人物關(guān)系抽取研究[D];北京交通大學(xué);2016年

3 潘云;基于中文在線資源的人物關(guān)系抽取研究[D];華東師范大學(xué);2015年

4 徐珊;孫昌涉初期小說(shuō)的人物關(guān)系和作家意識(shí)研究[D];山東大學(xué);2009年

5 顧靜航;基于信息抽取的人物關(guān)系網(wǎng)絡(luò)構(gòu)建研究[D];蘇州大學(xué);2014年

6 許婷;基于話單挖掘的可視化人物關(guān)系分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2014年

7 范少帥;基于特征向量的人物關(guān)系抽取方法研究[D];華東交通大學(xué);2015年

,

本文編號(hào):2310833

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2310833.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶b613f***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com