天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 碩博論文 > 信息類博士論文 >

實體關(guān)系抽取算法研究

發(fā)布時間:2017-03-21 05:06

  本文關(guān)鍵詞:實體關(guān)系抽取算法研究,由筆耕文化傳播整理發(fā)布。


【摘要】:實體關(guān)系抽取是信息抽取的一個重要分支,它是指通過信息抽取技術(shù),從自然文本抽取出實體及其之間的關(guān)系,即將非結(jié)構(gòu)化數(shù)據(jù)變成半結(jié)構(gòu)化數(shù)據(jù)或結(jié)構(gòu)化數(shù)據(jù)的技術(shù)。隨著互聯(lián)網(wǎng)的日益普及和廣泛應(yīng)用,互聯(lián)網(wǎng)數(shù)據(jù)急劇膨脹,海量無標簽數(shù)據(jù)中富含大量命名實體及其關(guān)系屬性,如,人物、機構(gòu)以及他們之間的關(guān)系,如何從海量數(shù)據(jù)中高效、精準的抽取出這些實體及關(guān)系屬性,成為目前實體關(guān)系抽取面臨的重大挑戰(zhàn)。近年來,消息理解會議(Message Understanding Conference,MUC)、自動內(nèi)容抽取(Automatic Content Extraction,ACE)和文本分析會議(Text Analysis Conference,TAC)等評測的出現(xiàn)推動了文本關(guān)系抽取技術(shù)研究的發(fā)展。英語填空(English Slot Filling,ESF)任務(wù),是文本分析會議(Text Analysis Conference,TAC)中知識庫群體(Knowledge Based Population,KBP)的子任務(wù)。該任務(wù)主要是抽取人物和機構(gòu)的特定的關(guān)系屬性值,并將這些信息用于維基百科信息框的完善以及參考知識庫的構(gòu)建。本文對語義關(guān)系抽取的關(guān)鍵問題進行了研究,主要是針對以上填空任務(wù)所定義的關(guān)于人物的25中關(guān)系屬性和組織機構(gòu)的16種關(guān)系屬性進行抽取;谀壳罢Z料集只含有部分標簽甚至無標簽的特點,本文主要采用半監(jiān)督的關(guān)系抽取算法-bootstrapping算法,將該任務(wù)往年實體及其關(guān)系屬性值對作為種子,構(gòu)建一種語義約束的-bootstrapping模型。本文研究的主要內(nèi)容及其創(chuàng)新點如下:1.研究了關(guān)系抽取中約束關(guān)系語義的觸發(fā)詞特征,并提出一種基于激活力的觸發(fā)詞挖掘方法。該觸發(fā)詞挖掘方法通過統(tǒng)計觸發(fā)詞和關(guān)系實例之間的相互激活關(guān)系,定義了一種衡量觸發(fā)詞觸發(fā)某種關(guān)系能力的新測度:觸發(fā)力。本文將該方法應(yīng)用于ESF任務(wù)中,對各個實體關(guān)系的觸發(fā)詞進行抽取,取得了良好的實驗效果。2.研究了關(guān)系抽取中關(guān)系模式的表達方法,提出了一種新的模式表示方法:語義最短依存路徑模式。語義最短依存路徑采用從實體到其關(guān)系屬性值的最短路徑作為模式,并采用觸發(fā)詞作為該模式的語義約束。相比于傳統(tǒng)關(guān)系模式表示方法,語義最短依存路徑模式包含了更豐富的句法特征和語義特征,具有更強的關(guān)系指向性。3.研究了bootstrapping模型中用于衡量關(guān)系模式相似性的相似性測度,提出了一種自底向上的核函數(shù)測度。該測度假設(shè)距離關(guān)系屬性值越近的依存特征的關(guān)系指向性越強,其權(quán)重越大;距離屬性值越遠的依存特征的權(quán)重越小,通過加權(quán)兩個模式的各個特征之間的相似度來計算兩個模式的相似度。4.研究了關(guān)系抽取中語義約束的bootstrapping模型的構(gòu)建。對傳統(tǒng)bootstrapping關(guān)系模型進行歸納總結(jié),并定義了一種新的語義約束的bootstrapping關(guān)系抽取模型。本文定義了構(gòu)建語義關(guān)系抽取模型的關(guān)鍵算法,并著重描述了如何對傳統(tǒng)bootstrapping模型添加語義約束,從而抑制bootstrapping模型的語義漂移問題。最后,對全文的工作進行了總結(jié),并對下一部分研究方向進行了展望。
【關(guān)鍵詞】:關(guān)系抽取 觸發(fā)詞 模式學(xué)習(xí) bootstrapping模型 核方法
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2015
【分類號】:TP391.1
【目錄】:
  • 摘要4-6
  • ABSTRACT6-12
  • 符號對照表12-13
  • 第一章 緒論13-21
  • 1.1 課題研究背景及意義13-16
  • 1.1.1 課題研究背景13-15
  • 1.1.2 課題研究的意義15-16
  • 1.2 課題研究現(xiàn)狀16-17
  • 1.2.1 面向結(jié)構(gòu)化/非結(jié)構(gòu)化文本的實體關(guān)系抽取16-17
  • 1.2.2 基于規(guī)則/機器學(xué)習(xí)的實體關(guān)系抽取17
  • 1.3 論文的主要工作和研究成果17-19
  • 1.4 論文結(jié)構(gòu)安排19-21
  • 第二章 關(guān)系抽取算法21-37
  • 2.1 關(guān)系抽取基礎(chǔ)21-23
  • 2.1.1 實體21-22
  • 2.1.2 實體關(guān)系22-23
  • 2.2 關(guān)系抽取算法23-32
  • 2.2.1 基于機器學(xué)習(xí)關(guān)系抽取算法一般流程23-25
  • 2.2.2 有監(jiān)督的關(guān)系抽取算法25-29
  • 2.2.3 無監(jiān)督的關(guān)系抽取算法29-30
  • 2.2.4 半監(jiān)督的關(guān)系抽取算法30-32
  • 2.3 關(guān)系抽取算法常用工具及數(shù)據(jù)集32-35
  • 2.3.1 關(guān)系抽取算法常用數(shù)據(jù)集32-33
  • 2.3.2 關(guān)系抽取算法常用工具33-35
  • 2.4 關(guān)系抽取算法評測標準35
  • 2.5 本章小結(jié)35-37
  • 第三章 觸發(fā)詞發(fā)現(xiàn)方法37-51
  • 3.1 觸發(fā)詞的定義37-38
  • 3.2 觸發(fā)詞發(fā)現(xiàn)方法綜述38-40
  • 3.2.1 基于詞典的觸發(fā)詞發(fā)現(xiàn)方法38-39
  • 3.2.2 基于統(tǒng)計的觸發(fā)詞發(fā)現(xiàn)方法39-40
  • 3.3 基于激活力的觸發(fā)詞發(fā)現(xiàn)方法40-45
  • 3.3.1 詞激活力方法40-42
  • 3.3.2 基于激活力的觸發(fā)詞發(fā)現(xiàn)構(gòu)想42-43
  • 3.3.3 基于激活力的觸發(fā)力模型43-45
  • 3.4 實驗45-48
  • 3.4.1 數(shù)據(jù)集45-46
  • 3.4.2 數(shù)據(jù)的預(yù)處理46-48
  • 3.5 本章小結(jié)48-51
  • 第四章 關(guān)系模式表示方法51-63
  • 4.1 關(guān)系模式的定義51
  • 4.2 關(guān)系模式表示方法綜述51-55
  • 4.2.1 基于淺層詞匯及句法特征的關(guān)系模式52-54
  • 4.2.2 基于深層語義的關(guān)系模式54-55
  • 4.3 最短依存路徑模式55-57
  • 4.4 語義最短依存路徑模式57-59
  • 4.4.1 最短依存路徑的缺點57-58
  • 4.4.2 語義最短依存路徑模式58-59
  • 4.5 實驗59-62
  • 4.5.1 系統(tǒng)構(gòu)建59-60
  • 4.5.2 數(shù)據(jù)集60
  • 4.5.3 實驗結(jié)果及討論60-62
  • 4.6 本章小結(jié)62-63
  • 第五章 關(guān)系模式相似性測度63-79
  • 5.1 關(guān)系模式相似性測度綜述63-65
  • 5.1.1 嚴格匹配方法63-64
  • 5.1.2 類余弦相似性測度64-65
  • 5.2 核函數(shù)相似性測度65-70
  • 5.2.1 經(jīng)典關(guān)系抽取核66-68
  • 5.2.2 依存樹核68-69
  • 5.2.3 最短依存路徑核69-70
  • 5.3 自底向上的核函數(shù)70-73
  • 5.3.1 自頂向下核的缺陷70-71
  • 5.3.2 自底向上核(Bottom-Up Kernel)71-73
  • 5.4 實驗73-77
  • 5.4.1 系統(tǒng)構(gòu)建及實驗數(shù)據(jù)集73-74
  • 5.4.2 實驗結(jié)果及討論74-77
  • 5.5 本章小結(jié)77-79
  • 第六章 語義約束的bootstrapping關(guān)系抽取模型79-91
  • 6.1 經(jīng)典bootstrapping關(guān)系抽取模型歸納79-81
  • 6.1.1 經(jīng)典bootstrapping關(guān)系抽取模型框架79-80
  • 6.1.2 經(jīng)典bootstrapping關(guān)系抽取模型定義80-81
  • 6.2 語義約束的bootstrapping關(guān)系抽取模型81-84
  • 6.2.1 語義約束的bootstrapping關(guān)系抽取模型的定義81-82
  • 6.2.2 語義約束的bootstrapping關(guān)系抽取模型的構(gòu)建82-84
  • 6.3 實驗84-85
  • 6.3.1 實驗數(shù)據(jù)集84-85
  • 6.4 實驗數(shù)據(jù)的預(yù)處理85-86
  • 6.5 實驗結(jié)果86-89
  • 6.6 本章小結(jié)89-91
  • 第七章 總結(jié)與展望91-95
  • 7.1 論文的工作總結(jié)91-92
  • 7.2 研究展望92-95
  • 附錄A 縮略語表95-97
  • 參考文獻97-107
  • 致謝107-109
  • 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄109

【相似文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 喬磊;李存華;仲兆滿;王俊;劉冬冬;;基于規(guī)則的人物信息抽取算法的研究[J];南京師大學(xué)報(自然科學(xué)版);2012年04期

2 于琨,糜仲春,蔡慶生;可應(yīng)用于互聯(lián)網(wǎng)的自學(xué)習(xí)中文關(guān)鍵詞抽取算法[J];中國科學(xué)技術(shù)大學(xué)學(xué)報;2002年03期

3 趙鵬;蔡慶生;王清毅;耿煥同;;一種基于復(fù)雜網(wǎng)絡(luò)特征的中文文檔關(guān)鍵詞抽取算法[J];模式識別與人工智能;2007年06期

4 胡志敏;;基于綜合權(quán)重的多文檔關(guān)鍵詞抽取算法[J];計算機與數(shù)字工程;2010年06期

5 袁曉峰;;基于詞語相關(guān)度的文檔主題抽取算法[J];成都大學(xué)學(xué)報(自然科學(xué)版);2012年04期

6 沈媛媛;劉益成;鄭恭明;;利用VBA在Word中實現(xiàn)試卷的自動生成[J];電腦學(xué)習(xí);2007年01期

7 傅繼彬;樊孝忠;毛金濤;余正濤;;基于語言特性的中文領(lǐng)域術(shù)語抽取算法[J];北京理工大學(xué)學(xué)報;2010年03期

8 劉云峰;;基于標簽路徑聚類的文本信息抽取算法[J];計算機工程;2010年12期

9 沈元一;鄭驍慶;顧軼靈;;基于語義的互聯(lián)網(wǎng)藥品信息抽取算法[J];計算機系統(tǒng)應(yīng)用;2011年01期

10 胡佳妮;郭軍;鄧偉洪;徐蔚然;;基于短文本的獨立語義特征抽取算法[J];通信學(xué)報;2007年12期

中國重要會議論文全文數(shù)據(jù)庫 前4條

1 穆亞東;周秉鋒;;基于信念傳播的圖像抽取算法[A];中國感光學(xué)會第七次全國會員代表大會暨學(xué)術(shù)年會和第七屆青年學(xué)術(shù)交流會論文摘要集[C];2006年

2 胡佳妮;郭軍;徐蔚然;;一種基于短文本的獨立語義特征抽取算法[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會論文集(上冊)[C];2007年

3 周毅;;基于邏輯行列切分樹的表格數(shù)據(jù)抽取算法[A];第二十屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2003年

4 羅勇;周超;許超;;文本分類在商品廣告分類中的應(yīng)用[A];全國第五屆信號和智能信息處理與應(yīng)用學(xué)術(shù)會議?(第一冊)[C];2011年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條

1 張春云;實體關(guān)系抽取算法研究[D];北京郵電大學(xué);2015年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 張策;基于web的改進信息抽取算法的設(shè)計與實現(xiàn)[D];電子科技大學(xué);2014年

2 沈元一;互聯(lián)網(wǎng)藥品信息抽取算法的研究[D];復(fù)旦大學(xué);2010年

3 周趙鵬;基于互聯(lián)網(wǎng)的構(gòu)件庫系統(tǒng)構(gòu)件描述信息抽取算法研究[D];華中科技大學(xué);2012年

4 韓雪嬌;英語試題關(guān)鍵詞抽取算法研究[D];北方工業(yè)大學(xué);2013年

5 丁溪源;基于大規(guī)模語料的中文新詞抽取算法的設(shè)計與實現(xiàn)[D];南京理工大學(xué);2011年

6 李興東;智能抽取算法在專家?guī)斐槿∠到y(tǒng)中的應(yīng)用研究[D];吉林大學(xué);2013年

7 柳凌燕;基于免疫規(guī)劃的圖像情感規(guī)則抽取算法的研究[D];太原理工大學(xué);2010年

8 張鵬;中文意見挖掘的特征層次構(gòu)建和抽取算法[D];重慶大學(xué);2010年

9 王敬普;基于包裝器模型的文本信息抽取算法研究[D];湖南大學(xué);2006年

10 皮珊;Web信息抽取系統(tǒng)的設(shè)計與實現(xiàn)[D];浙江工業(yè)大學(xué);2013年


  本文關(guān)鍵詞:實體關(guān)系抽取算法研究,由筆耕文化傳播整理發(fā)布。

,

本文編號:259063

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/259063.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶4cab3***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com