面向Web2.0的二元人物關(guān)系抽取研究
本文關(guān)鍵詞:面向Web2.0的二元人物關(guān)系抽取研究,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著計(jì)算機(jī)的發(fā)展,越來(lái)越多的信息出現(xiàn)在互聯(lián)網(wǎng)上。但是如何從海量知識(shí)里通過(guò)自動(dòng)化的手段,獲取自己需求的信息成為了一個(gè)計(jì)算機(jī)領(lǐng)域的難題,在這種強(qiáng)烈的需求下,信息抽取技術(shù)應(yīng)運(yùn)而生。人物實(shí)體關(guān)系抽取作為信息抽取的一個(gè)重要分支,因?yàn)橛兄鴱V闊的應(yīng)用前景,而受到眾多研究人員的關(guān)注。本文根據(jù)以往人物關(guān)系抽取的研究成果,針對(duì)傳統(tǒng)關(guān)系抽取流程中存在關(guān)系描述詞“多詞同義”、抽取模板質(zhì)量不高與判斷人物實(shí)體關(guān)系計(jì)算量大等現(xiàn)象,融合了機(jī)器學(xué)習(xí)里半監(jiān)督學(xué)習(xí)的特性、信息論里信息增益的特點(diǎn)與向量空間模型里文本相似性計(jì)算的性質(zhì),提出了一種新的面向Web2.0的二元人物關(guān)系抽取方法。針對(duì)上述不足,本文提出了以下改進(jìn)方案:(1)針對(duì)中文語(yǔ)句中“多詞同義”的現(xiàn)象,本文提出了一種基于眾包模式的關(guān)系描述詞擴(kuò)展方法。通過(guò)人工給定部分特定關(guān)系描述詞,利用《知網(wǎng)》與《同義詞詞林》進(jìn)行第一次擴(kuò)充,并把擴(kuò)充后的集合分發(fā)給大眾網(wǎng)絡(luò),讓語(yǔ)言愛(ài)好者們對(duì)該集合進(jìn)行第二次擴(kuò)充,然后選取經(jīng)過(guò)驗(yàn)證的同義詞作為關(guān)系描述詞。(2)本文提出了一種半監(jiān)督學(xué)習(xí)與信息增益相融合的關(guān)系抽取模板生成算法。對(duì)于以往手工創(chuàng)造模板費(fèi)時(shí)費(fèi)力的不足,本文在模板創(chuàng)建的過(guò)程中,融入了半監(jiān)督學(xué)習(xí)的方法。首先建立部分手工標(biāo)注樣本,在關(guān)系抽取模板建立過(guò)程中不斷地自舉迭代,從而產(chǎn)生更多的關(guān)系抽取模板,針對(duì)語(yǔ)句中每個(gè)詞語(yǔ)由于所處位置的不同而攜帶不一樣的信息量這一特點(diǎn),本文利用信息增益相關(guān)理論來(lái)確定模板的上下文窗口值。(3)針對(duì)句子中含有多個(gè)可能包含目標(biāo)關(guān)系的人物實(shí)體對(duì)的現(xiàn)象,本文提出了一種基于模板匹配的候選實(shí)體對(duì)篩選方法。該方法通過(guò)判斷模板里的實(shí)體對(duì)與關(guān)系描述詞之間的相對(duì)位置,進(jìn)而篩選出句子中包含該相對(duì)位置信息的實(shí)體對(duì)作為候選實(shí)體對(duì)。(4)針對(duì)向量空間模型文本相似度計(jì)算中存在大量0*0=0的無(wú)效運(yùn)算,本文提出了一種基于非零權(quán)重篩選優(yōu)化的候選實(shí)體對(duì)驗(yàn)證方法,通過(guò)該方法可有效地優(yōu)化特征權(quán)重矩陣的維度,并在相似性計(jì)算前進(jìn)行非零權(quán)重判斷,從而減少計(jì)算量。
【關(guān)鍵詞】:人物實(shí)體 關(guān)系抽取 信息增益 機(jī)器學(xué)習(xí)
【學(xué)位授予單位】:華東交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.1;TP393.4
【目錄】:
- 摘要3-4
- ABSTRACT4-8
- 第一章 緒論8-14
- 1.1 研究背景和意義8-9
- 1.1.1 研究背景8-9
- 1.1.2 研究意義9
- 1.2 人物關(guān)系抽取的概念及歷史研究9-10
- 1.3 人物關(guān)系抽取現(xiàn)狀10-12
- 1.3.1 基于模式匹配的人物關(guān)系抽取方法10-11
- 1.3.2 基于自動(dòng)訓(xùn)練(機(jī)器學(xué)習(xí))人物關(guān)系抽取方法11-12
- 1.3.3 混合的人物實(shí)體關(guān)系抽取方法12
- 1.4 本文主要研究?jī)?nèi)容及創(chuàng)新點(diǎn)12
- 1.4.1 研究?jī)?nèi)容12
- 1.4.2 主要?jiǎng)?chuàng)新點(diǎn)12
- 1.5 本文的段落結(jié)構(gòu)12-14
- 第二章 二元人物關(guān)系抽取相關(guān)技術(shù)概述14-23
- 2.1 文本預(yù)處理工具14-15
- 2.2 機(jī)器學(xué)習(xí)15-17
- 2.2.1 基于監(jiān)督式學(xué)習(xí)的人物關(guān)系抽取方法15-16
- 2.2.2 基于半監(jiān)督式學(xué)習(xí)的人物關(guān)系抽取方法16
- 2.2.3 基于無(wú)監(jiān)督式學(xué)習(xí)的人物關(guān)系抽取方法16-17
- 2.3 信息增益簡(jiǎn)介17-19
- 2.3.1 信息熵的定義17-18
- 2.3.2 條件熵的定義18
- 2.3.3 信息增益的定義18-19
- 2.4 指代消解19-21
- 2.4.1 指代消解的概念與分類19-20
- 2.4.2 指代消解的研究現(xiàn)狀20-21
- 2.5 中文人物關(guān)系抽取研究難點(diǎn)21-22
- 2.6 本章總結(jié)22-23
- 第三章 基于半監(jiān)督學(xué)習(xí)與信息增益的關(guān)系抽取模板獲取23-36
- 3.1 傳統(tǒng)的中文模板二元人物關(guān)系抽取流程介紹23-24
- 3.2 基于中文的模板匹配的人物關(guān)系抽取中存在的缺點(diǎn)24-25
- 3.3 關(guān)系抽取模板中關(guān)系描述詞擴(kuò)展及模板獲取優(yōu)化方法25-30
- 3.3.1 利用基于眾包模式進(jìn)行關(guān)系描述詞的擴(kuò)展25-28
- 3.3.2 模板類型、結(jié)構(gòu)與創(chuàng)建流程的優(yōu)化28-30
- 3.4 基于半監(jiān)督學(xué)習(xí)與信息增益相融合的關(guān)系抽取模板生成算法30-35
- 3.4.1 關(guān)系抽取模板的定義與上下文信息的篩選30-32
- 3.4.2 基于半監(jiān)督學(xué)習(xí)與信息增益相融合的模板生成算法32-33
- 3.4.3 實(shí)驗(yàn)結(jié)果及分析33-35
- 3.5 本章總結(jié)35-36
- 第四章 基于模板匹配與空間向量模型的人物實(shí)體抽取方法36-50
- 4.1 包含模板的句子種類與特點(diǎn)36-37
- 4.2 基于模板匹配的候選實(shí)體對(duì)篩選方法37-38
- 4.3 基于改進(jìn)后的空間向量模型候選實(shí)體對(duì)驗(yàn)證方法38-43
- 4.3.1 向量空間模型與候選實(shí)體對(duì)驗(yàn)證方法簡(jiǎn)介38-40
- 4.3.2 傳統(tǒng)基于空間向量模型的文本相似度計(jì)算方法的不足40-42
- 4.3.3 基于非零權(quán)重篩選優(yōu)化的候選實(shí)體對(duì)驗(yàn)證方法42-43
- 4.4 完整的二元人物實(shí)體抽取流程43-46
- 4.5 實(shí)驗(yàn)結(jié)果和分析46-49
- 4.5.1 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)46
- 4.5.2 實(shí)驗(yàn)設(shè)計(jì)46-47
- 4.5.3 實(shí)驗(yàn)分析47-49
- 4.6 本章小結(jié)49-50
- 第五章 總結(jié)與展望50-52
- 5.1 總結(jié)50-51
- 5.2 展望51-52
- 參考文獻(xiàn)52-55
- 個(gè)人簡(jiǎn)歷 在讀期間發(fā)表的學(xué)術(shù)論文55-56
- 致謝56
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 鄧擘;鄭彥寧;傅繼彬;;漢語(yǔ)實(shí)體關(guān)系模式的自動(dòng)獲取研究[J];計(jì)算機(jī)科學(xué);2010年02期
2 牟晉娟;包宏;;中文實(shí)體關(guān)系抽取研究[J];計(jì)算機(jī)工程與設(shè)計(jì);2009年15期
3 朱姍;;基于規(guī)則和本體的實(shí)體關(guān)系抽取系統(tǒng)研究[J];情報(bào)雜志;2010年S2期
4 車萬(wàn)翔,劉挺,李生;實(shí)體關(guān)系自動(dòng)抽取[J];中文信息學(xué)報(bào);2005年02期
5 朱鴻宇;劉瑰;陳左寧;唐福華;;實(shí)體關(guān)系識(shí)別中長(zhǎng)距離依賴問(wèn)題的研究[J];小型微型計(jì)算機(jī)系統(tǒng);2008年02期
6 周利娟;林鴻飛;羅文華;;基于實(shí)體關(guān)系的犯罪網(wǎng)絡(luò)識(shí)別機(jī)制[J];計(jì)算機(jī)應(yīng)用研究;2011年03期
7 徐健;張智雄;吳振新;;實(shí)體關(guān)系抽取的技術(shù)方法綜述[J];現(xiàn)代圖書(shū)情報(bào)技術(shù);2008年08期
8 李小紅;錢(qián)龍華;;基于自舉的弱指導(dǎo)中文實(shí)體關(guān)系抽取研究[J];高科技與產(chǎn)業(yè)化;2010年09期
9 董靜;孫樂(lè);馮元勇;黃瑞紅;;中文實(shí)體關(guān)系抽取中的特征選擇研究[J];中文信息學(xué)報(bào);2007年04期
10 黃晨;錢(qián)龍華;周國(guó)棟;朱巧明;;基于卷積樹(shù)核的無(wú)指導(dǎo)中文實(shí)體關(guān)系抽取研究[J];中文信息學(xué)報(bào);2010年04期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前3條
1 車萬(wàn)翔;劉挺;李生;;實(shí)體關(guān)系自動(dòng)抽取[A];NCIRCS2004第一屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2004年
2 莊成龍;錢(qián)龍華;周國(guó)棟;;基于樹(shù)核函數(shù)的實(shí)體關(guān)系抽取方法研究[A];第四屆全國(guó)學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)會(huì)議論文集[C];2008年
3 徐芬;王挺;陳火旺;;基于SVM方法的中文實(shí)體關(guān)系抽取[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國(guó)計(jì)算語(yǔ)言學(xué)學(xué)術(shù)會(huì)議論文集[C];2007年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前4條
1 陳忱;面向Web的實(shí)體關(guān)系查詢與分析關(guān)鍵技術(shù)研究[D];東北大學(xué);2013年
2 張奇;信息抽取中實(shí)體關(guān)系識(shí)別研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2010年
3 張宏濤;面向生物文本的實(shí)體關(guān)系自動(dòng)抽取問(wèn)題研究[D];清華大學(xué);2012年
4 張素香;信息抽取中關(guān)鍵技術(shù)的研究[D];北京郵電大學(xué);2007年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 施琦;無(wú)監(jiān)督中文實(shí)體關(guān)系抽取研究[D];中國(guó)地質(zhì)大學(xué)(北京);2015年
2 林家欣;基于多源知識(shí)的地理選擇題答題方法研究[D];哈爾濱工業(yè)大學(xué);2015年
3 劉紹毓;實(shí)體關(guān)系抽取關(guān)鍵技術(shù)研究[D];解放軍信息工程大學(xué);2015年
4 胡春艷;中文開(kāi)放式實(shí)體關(guān)系抽取技術(shù)研究[D];東北大學(xué);2014年
5 程文亮;中文企業(yè)知識(shí)圖譜構(gòu)建與分析[D];華東師范大學(xué);2016年
6 徐力;面向Web2.0的二元人物關(guān)系抽取研究[D];華東交通大學(xué);2016年
7 劉龍;音樂(lè)領(lǐng)域全局實(shí)體關(guān)系抽取研究[D];哈爾濱工業(yè)大學(xué);2010年
8 雷春雅;領(lǐng)域?qū)嶓w關(guān)系自動(dòng)抽取研究[D];昆明理工大學(xué);2011年
9 劉安安;開(kāi)放式中文實(shí)體關(guān)系抽取研究[D];哈爾濱工業(yè)大學(xué);2013年
10 陳超;基于互聯(lián)網(wǎng)的二元實(shí)體關(guān)系抽取研究[D];華東師范大學(xué);2013年
本文關(guān)鍵詞:面向Web2.0的二元人物關(guān)系抽取研究,,由筆耕文化傳播整理發(fā)布。
本文編號(hào):276808
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/276808.html