基于弱指導的實體語義關系抽取研究
發(fā)布時間:2017-06-01 02:06
本文關鍵詞:基于弱指導的實體語義關系抽取研究,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著計算機的進一步普及和互聯網的高速發(fā)展,越來越多的數據,信息和知識以電子文本的形式出現且數據量呈現爆炸式的增長。但是,人們越來越感覺到從海量數據中尋找到自己需要的知識變得越來越難,這是因為“信息過載”和搜索引擎技術的不足導致的。現有搜索引擎技術基本上都是基于關鍵字匹配的,其不能理解電子文本,從而直接返回給用戶需要的知識;诖,信息抽取技術越來越受到研究人員的重視。命名實體語義關系抽取作為信息抽取中重要的一環(huán),得到了越來越多的關注,它借助命名實體識別技術,深入文本內部,理解文本內容從而返回實體對之間的語義關系。實體語義關系抽取方法,大致可以分為基于知識庫的方法和機器學習方法。由于知識庫方法需要大量領域專家的勞動,且移植性較差。所以,越來越多的學者關注機器學習方法。在機器學習方法中,又可以分為有指導的機器學習方法、弱指導的機器學習方法和無指導的機器學習方法。其中,弱指導的機器學習方法只需要少量人工干預且在實用性、移植性上具有較好的效果,所以得到了廣泛的應用。所以本文主要研究了基于自舉的弱指導機器學習方法。在以往的研究中,模式表示為left,tag1,middle,tag2,right,未考慮到關鍵詞對命名實體語義關系的表達作用;僅僅考慮了詞法信息,而沒有將語義信息加入到實體語義關系抽取中來;在計算特征項權重時,只將兩個實體作為核心,未考慮關鍵字的作用。針對這些問題,本文提出(1)、一種模式表示新方法,在以往模式表達的基礎上增加了關鍵字信息、語義信息和詞序等信息。這是因為實體之間的語義關系可以由其上下文中的動詞、名詞等關鍵詞觸發(fā),關系模式也是以關鍵詞為核心的;在中文環(huán)境下,存在著同義詞的情況,加入詞語的語義信息可以幫助更有效地進行關系抽取;關鍵詞和實體之間的相對詞序位置在一定程度上反映了關系描述模式的框架和結構,所以詞序信息有助于幫助關系描述模式的相似度計算和聚類。(2)、根據模式表示新方法,提出了新的關系抽取方法,其包括了語義距離概念、改進的特征項權重計算、模式相似度計算,模式的獲取、聚類和泛化以及關系的抽取。通過計算語義距離,從而使相對距離計算和特征項權重計算包含一定的語義表達能力;加入詞語語義信息和詞序信息的模式表示新方法,使得模式具有更高的匹配性,使得模式獲取、聚類和泛化更加準確從而提高語義關系抽取的性能。(3)最后設計實現了一個模型系統(tǒng)并進行了實驗,實驗結果驗證了本文提出的方法的有效性。作為方法的驗證示例,本文在模型系統(tǒng)上進行了“妻子”關系、“女兒”關系和“女友”關系的抽取,實驗結果表明,本文提出的方法的平均準確率比傳統(tǒng)的方法提高了6.5%。
【關鍵詞】:信息抽取 實體語義關系 自舉技術 關系描述模式 模式匹配
【學位授予單位】:上海大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP391.1
【目錄】:
- 摘要6-8
- ABSTRACT8-13
- 第一章 緒論13-24
- 1.1 課題研究背景13
- 1.2 課題研究的目的和意義13-15
- 1.3 國內外研究現狀15-21
- 1.3.1 基于知識庫的實體語義關系抽取15-16
- 1.3.2 基于機器學習的實體語義關系抽取16-21
- 1.3.2.1 有指導的機器學習方法16-19
- 1.3.2.2 無指導的機器學習方法19
- 1.3.2.3 弱指導的機器學習方法19-21
- 1.4 本文主要研究內容21-23
- 1.5 本文組織結構23-24
- 第二章 相關技術24-33
- 2.1 實體語義關系抽取概念24-28
- 2.1.1 關系抽取的發(fā)展24
- 2.1.2 信息抽取系統(tǒng)體系結構24-26
- 2.1.3 實體關系抽取相關概念26-27
- 2.1.4 關系抽取評價指標27-28
- 2.2 實體語義關系抽取技術28-30
- 2.2.1 基于知識庫的方法28-29
- 2.2.2 基于特征向量的機器學習方法29
- 2.2.3 基于核函數的機器學習方法29-30
- 2.2.4 Bootstrapping方法30
- 2.3 抽取技術分析30-31
- 2.4 本章小結31-33
- 第三章 語義關系抽取方法研究33-43
- 3.1 引言33-34
- 3.2 模式表示方法研究34-35
- 3.2.1 關鍵詞信息34
- 3.2.2 關鍵詞和實體相對詞序位置信息34-35
- 3.2.3 模式表示形式化35
- 3.3 特征項權重計算35-37
- 3.4 模式相似度計算37-38
- 3.5 原始關系模式獲取與泛化38-40
- 3.5.1 原始關系模式獲取38-39
- 3.5.2 原始關系模式泛化39-40
- 3.6 關系抽取方法研究40-41
- 3.7 本章小結41-43
- 第四章 模型系統(tǒng)設計43-55
- 4.1 引言43
- 4.2 系統(tǒng)整體架構設計43-46
- 4.3 系統(tǒng)模塊詳細設計46-54
- 4.3.1 種子構建模塊設計47
- 4.3.2 數據抓取模塊設計47-49
- 4.3.3 數據預處理模塊設計49-50
- 4.3.4 原始關系模式獲取設計50-52
- 4.3.5 關系模式泛化模塊設計52-53
- 4.3.6 關系元組抽取模塊設計53-54
- 4.4 本章小結54-55
- 第五章 模型系統(tǒng)運行實例與實驗結果分析55-69
- 5.1 引言55
- 5.2 模型系統(tǒng)運行實例55-65
- 5.2.1 種子構建55-56
- 5.2.2 數據抓取56-57
- 5.2.3 數據預處理57-60
- 5.2.4 原始關系模式獲取60-62
- 5.2.5 原始關系模式泛化62-63
- 5.2.6 關系元組的抽取63-64
- 5.2.7 關系元組的確認64-65
- 5.3 實驗結果與分析65-68
- 5.3.1 實驗數據65-66
- 5.3.2 評價標準66
- 5.3.3 實驗結果與分析66-68
- 5.4 本章小結68-69
- 第六章 結論與展望69-72
- 6.1 結論69-70
- 6.2 展望70-72
- 參考文獻72-76
- 作者在攻讀碩士學位期間公開發(fā)表的論文76-77
- 作者在攻讀碩士學位期間所作的項目77-78
- 致謝78
【參考文獻】
中國期刊全文數據庫 前1條
1 魯松,白碩;自然語言處理中詞語上下文有效范圍的定量描述[J];計算機學報;2001年07期
本文關鍵詞:基于弱指導的實體語義關系抽取研究,由筆耕文化傳播整理發(fā)布。
,本文編號:411302
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/411302.html
教材專著