實體關(guān)系抽取算法研究
本文關(guān)鍵詞:實體關(guān)系抽取算法研究,由筆耕文化傳播整理發(fā)布。
【摘要】:實體關(guān)系抽取是信息抽取的一個重要分支,它是指通過信息抽取技術(shù),從自然文本抽取出實體及其之間的關(guān)系,即將非結(jié)構(gòu)化數(shù)據(jù)變成半結(jié)構(gòu)化數(shù)據(jù)或結(jié)構(gòu)化數(shù)據(jù)的技術(shù)。隨著互聯(lián)網(wǎng)的日益普及和廣泛應(yīng)用,互聯(lián)網(wǎng)數(shù)據(jù)急劇膨脹,海量無標簽數(shù)據(jù)中富含大量命名實體及其關(guān)系屬性,如,人物、機構(gòu)以及他們之間的關(guān)系,如何從海量數(shù)據(jù)中高效、精準的抽取出這些實體及關(guān)系屬性,成為目前實體關(guān)系抽取面臨的重大挑戰(zhàn)。近年來,消息理解會議(Message Understanding Conference,MUC)、自動內(nèi)容抽取(Automatic Content Extraction,ACE)和文本分析會議(Text Analysis Conference,TAC)等評測的出現(xiàn)推動了文本關(guān)系抽取技術(shù)研究的發(fā)展。英語填空(English Slot Filling,ESF)任務(wù),是文本分析會議(Text Analysis Conference,TAC)中知識庫群體(Knowledge Based Population,KBP)的子任務(wù)。該任務(wù)主要是抽取人物和機構(gòu)的特定的關(guān)系屬性值,并將這些信息用于維基百科信息框的完善以及參考知識庫的構(gòu)建。本文對語義關(guān)系抽取的關(guān)鍵問題進行了研究,主要是針對以上填空任務(wù)所定義的關(guān)于人物的25中關(guān)系屬性和組織機構(gòu)的16種關(guān)系屬性進行抽取;谀壳罢Z料集只含有部分標簽甚至無標簽的特點,本文主要采用半監(jiān)督的關(guān)系抽取算法-bootstrapping算法,將該任務(wù)往年實體及其關(guān)系屬性值對作為種子,構(gòu)建一種語義約束的-bootstrapping模型。本文研究的主要內(nèi)容及其創(chuàng)新點如下:1.研究了關(guān)系抽取中約束關(guān)系語義的觸發(fā)詞特征,并提出一種基于激活力的觸發(fā)詞挖掘方法。該觸發(fā)詞挖掘方法通過統(tǒng)計觸發(fā)詞和關(guān)系實例之間的相互激活關(guān)系,定義了一種衡量觸發(fā)詞觸發(fā)某種關(guān)系能力的新測度:觸發(fā)力。本文將該方法應(yīng)用于ESF任務(wù)中,對各個實體關(guān)系的觸發(fā)詞進行抽取,取得了良好的實驗效果。2.研究了關(guān)系抽取中關(guān)系模式的表達方法,提出了一種新的模式表示方法:語義最短依存路徑模式。語義最短依存路徑采用從實體到其關(guān)系屬性值的最短路徑作為模式,并采用觸發(fā)詞作為該模式的語義約束。相比于傳統(tǒng)關(guān)系模式表示方法,語義最短依存路徑模式包含了更豐富的句法特征和語義特征,具有更強的關(guān)系指向性。3.研究了bootstrapping模型中用于衡量關(guān)系模式相似性的相似性測度,提出了一種自底向上的核函數(shù)測度。該測度假設(shè)距離關(guān)系屬性值越近的依存特征的關(guān)系指向性越強,其權(quán)重越大;距離屬性值越遠的依存特征的權(quán)重越小,通過加權(quán)兩個模式的各個特征之間的相似度來計算兩個模式的相似度。4.研究了關(guān)系抽取中語義約束的bootstrapping模型的構(gòu)建。對傳統(tǒng)bootstrapping關(guān)系模型進行歸納總結(jié),并定義了一種新的語義約束的bootstrapping關(guān)系抽取模型。本文定義了構(gòu)建語義關(guān)系抽取模型的關(guān)鍵算法,并著重描述了如何對傳統(tǒng)bootstrapping模型添加語義約束,從而抑制bootstrapping模型的語義漂移問題。最后,對全文的工作進行了總結(jié),并對下一部分研究方向進行了展望。
【關(guān)鍵詞】:關(guān)系抽取 觸發(fā)詞 模式學(xué)習(xí) bootstrapping模型 核方法
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2015
【分類號】:TP391.1
【目錄】:
- 摘要4-6
- ABSTRACT6-12
- 符號對照表12-13
- 第一章 緒論13-21
- 1.1 課題研究背景及意義13-16
- 1.1.1 課題研究背景13-15
- 1.1.2 課題研究的意義15-16
- 1.2 課題研究現(xiàn)狀16-17
- 1.2.1 面向結(jié)構(gòu)化/非結(jié)構(gòu)化文本的實體關(guān)系抽取16-17
- 1.2.2 基于規(guī)則/機器學(xué)習(xí)的實體關(guān)系抽取17
- 1.3 論文的主要工作和研究成果17-19
- 1.4 論文結(jié)構(gòu)安排19-21
- 第二章 關(guān)系抽取算法21-37
- 2.1 關(guān)系抽取基礎(chǔ)21-23
- 2.1.1 實體21-22
- 2.1.2 實體關(guān)系22-23
- 2.2 關(guān)系抽取算法23-32
- 2.2.1 基于機器學(xué)習(xí)關(guān)系抽取算法一般流程23-25
- 2.2.2 有監(jiān)督的關(guān)系抽取算法25-29
- 2.2.3 無監(jiān)督的關(guān)系抽取算法29-30
- 2.2.4 半監(jiān)督的關(guān)系抽取算法30-32
- 2.3 關(guān)系抽取算法常用工具及數(shù)據(jù)集32-35
- 2.3.1 關(guān)系抽取算法常用數(shù)據(jù)集32-33
- 2.3.2 關(guān)系抽取算法常用工具33-35
- 2.4 關(guān)系抽取算法評測標準35
- 2.5 本章小結(jié)35-37
- 第三章 觸發(fā)詞發(fā)現(xiàn)方法37-51
- 3.1 觸發(fā)詞的定義37-38
- 3.2 觸發(fā)詞發(fā)現(xiàn)方法綜述38-40
- 3.2.1 基于詞典的觸發(fā)詞發(fā)現(xiàn)方法38-39
- 3.2.2 基于統(tǒng)計的觸發(fā)詞發(fā)現(xiàn)方法39-40
- 3.3 基于激活力的觸發(fā)詞發(fā)現(xiàn)方法40-45
- 3.3.1 詞激活力方法40-42
- 3.3.2 基于激活力的觸發(fā)詞發(fā)現(xiàn)構(gòu)想42-43
- 3.3.3 基于激活力的觸發(fā)力模型43-45
- 3.4 實驗45-48
- 3.4.1 數(shù)據(jù)集45-46
- 3.4.2 數(shù)據(jù)的預(yù)處理46-48
- 3.5 本章小結(jié)48-51
- 第四章 關(guān)系模式表示方法51-63
- 4.1 關(guān)系模式的定義51
- 4.2 關(guān)系模式表示方法綜述51-55
- 4.2.1 基于淺層詞匯及句法特征的關(guān)系模式52-54
- 4.2.2 基于深層語義的關(guān)系模式54-55
- 4.3 最短依存路徑模式55-57
- 4.4 語義最短依存路徑模式57-59
- 4.4.1 最短依存路徑的缺點57-58
- 4.4.2 語義最短依存路徑模式58-59
- 4.5 實驗59-62
- 4.5.1 系統(tǒng)構(gòu)建59-60
- 4.5.2 數(shù)據(jù)集60
- 4.5.3 實驗結(jié)果及討論60-62
- 4.6 本章小結(jié)62-63
- 第五章 關(guān)系模式相似性測度63-79
- 5.1 關(guān)系模式相似性測度綜述63-65
- 5.1.1 嚴格匹配方法63-64
- 5.1.2 類余弦相似性測度64-65
- 5.2 核函數(shù)相似性測度65-70
- 5.2.1 經(jīng)典關(guān)系抽取核66-68
- 5.2.2 依存樹核68-69
- 5.2.3 最短依存路徑核69-70
- 5.3 自底向上的核函數(shù)70-73
- 5.3.1 自頂向下核的缺陷70-71
- 5.3.2 自底向上核(Bottom-Up Kernel)71-73
- 5.4 實驗73-77
- 5.4.1 系統(tǒng)構(gòu)建及實驗數(shù)據(jù)集73-74
- 5.4.2 實驗結(jié)果及討論74-77
- 5.5 本章小結(jié)77-79
- 第六章 語義約束的bootstrapping關(guān)系抽取模型79-91
- 6.1 經(jīng)典bootstrapping關(guān)系抽取模型歸納79-81
- 6.1.1 經(jīng)典bootstrapping關(guān)系抽取模型框架79-80
- 6.1.2 經(jīng)典bootstrapping關(guān)系抽取模型定義80-81
- 6.2 語義約束的bootstrapping關(guān)系抽取模型81-84
- 6.2.1 語義約束的bootstrapping關(guān)系抽取模型的定義81-82
- 6.2.2 語義約束的bootstrapping關(guān)系抽取模型的構(gòu)建82-84
- 6.3 實驗84-85
- 6.3.1 實驗數(shù)據(jù)集84-85
- 6.4 實驗數(shù)據(jù)的預(yù)處理85-86
- 6.5 實驗結(jié)果86-89
- 6.6 本章小結(jié)89-91
- 第七章 總結(jié)與展望91-95
- 7.1 論文的工作總結(jié)91-92
- 7.2 研究展望92-95
- 附錄A 縮略語表95-97
- 參考文獻97-107
- 致謝107-109
- 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄109
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 喬磊;李存華;仲兆滿;王俊;劉冬冬;;基于規(guī)則的人物信息抽取算法的研究[J];南京師大學(xué)報(自然科學(xué)版);2012年04期
2 于琨,糜仲春,蔡慶生;可應(yīng)用于互聯(lián)網(wǎng)的自學(xué)習(xí)中文關(guān)鍵詞抽取算法[J];中國科學(xué)技術(shù)大學(xué)學(xué)報;2002年03期
3 趙鵬;蔡慶生;王清毅;耿煥同;;一種基于復(fù)雜網(wǎng)絡(luò)特征的中文文檔關(guān)鍵詞抽取算法[J];模式識別與人工智能;2007年06期
4 胡志敏;;基于綜合權(quán)重的多文檔關(guān)鍵詞抽取算法[J];計算機與數(shù)字工程;2010年06期
5 袁曉峰;;基于詞語相關(guān)度的文檔主題抽取算法[J];成都大學(xué)學(xué)報(自然科學(xué)版);2012年04期
6 沈媛媛;劉益成;鄭恭明;;利用VBA在Word中實現(xiàn)試卷的自動生成[J];電腦學(xué)習(xí);2007年01期
7 傅繼彬;樊孝忠;毛金濤;余正濤;;基于語言特性的中文領(lǐng)域術(shù)語抽取算法[J];北京理工大學(xué)學(xué)報;2010年03期
8 劉云峰;;基于標簽路徑聚類的文本信息抽取算法[J];計算機工程;2010年12期
9 沈元一;鄭驍慶;顧軼靈;;基于語義的互聯(lián)網(wǎng)藥品信息抽取算法[J];計算機系統(tǒng)應(yīng)用;2011年01期
10 胡佳妮;郭軍;鄧偉洪;徐蔚然;;基于短文本的獨立語義特征抽取算法[J];通信學(xué)報;2007年12期
中國重要會議論文全文數(shù)據(jù)庫 前4條
1 穆亞東;周秉鋒;;基于信念傳播的圖像抽取算法[A];中國感光學(xué)會第七次全國會員代表大會暨學(xué)術(shù)年會和第七屆青年學(xué)術(shù)交流會論文摘要集[C];2006年
2 胡佳妮;郭軍;徐蔚然;;一種基于短文本的獨立語義特征抽取算法[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會論文集(上冊)[C];2007年
3 周毅;;基于邏輯行列切分樹的表格數(shù)據(jù)抽取算法[A];第二十屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2003年
4 羅勇;周超;許超;;文本分類在商品廣告分類中的應(yīng)用[A];全國第五屆信號和智能信息處理與應(yīng)用學(xué)術(shù)會議?(第一冊)[C];2011年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 張春云;實體關(guān)系抽取算法研究[D];北京郵電大學(xué);2015年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 張策;基于web的改進信息抽取算法的設(shè)計與實現(xiàn)[D];電子科技大學(xué);2014年
2 沈元一;互聯(lián)網(wǎng)藥品信息抽取算法的研究[D];復(fù)旦大學(xué);2010年
3 周趙鵬;基于互聯(lián)網(wǎng)的構(gòu)件庫系統(tǒng)構(gòu)件描述信息抽取算法研究[D];華中科技大學(xué);2012年
4 韓雪嬌;英語試題關(guān)鍵詞抽取算法研究[D];北方工業(yè)大學(xué);2013年
5 丁溪源;基于大規(guī)模語料的中文新詞抽取算法的設(shè)計與實現(xiàn)[D];南京理工大學(xué);2011年
6 李興東;智能抽取算法在專家?guī)斐槿∠到y(tǒng)中的應(yīng)用研究[D];吉林大學(xué);2013年
7 柳凌燕;基于免疫規(guī)劃的圖像情感規(guī)則抽取算法的研究[D];太原理工大學(xué);2010年
8 張鵬;中文意見挖掘的特征層次構(gòu)建和抽取算法[D];重慶大學(xué);2010年
9 王敬普;基于包裝器模型的文本信息抽取算法研究[D];湖南大學(xué);2006年
10 皮珊;Web信息抽取系統(tǒng)的設(shè)計與實現(xiàn)[D];浙江工業(yè)大學(xué);2013年
本文關(guān)鍵詞:實體關(guān)系抽取算法研究,由筆耕文化傳播整理發(fā)布。
,本文編號:259063
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/259063.html