基于弱指導(dǎo)的實體語義關(guān)系抽取研究
發(fā)布時間:2017-06-01 02:06
本文關(guān)鍵詞:基于弱指導(dǎo)的實體語義關(guān)系抽取研究,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著計算機的進一步普及和互聯(lián)網(wǎng)的高速發(fā)展,越來越多的數(shù)據(jù),信息和知識以電子文本的形式出現(xiàn)且數(shù)據(jù)量呈現(xiàn)爆炸式的增長。但是,人們越來越感覺到從海量數(shù)據(jù)中尋找到自己需要的知識變得越來越難,這是因為“信息過載”和搜索引擎技術(shù)的不足導(dǎo)致的。現(xiàn)有搜索引擎技術(shù)基本上都是基于關(guān)鍵字匹配的,其不能理解電子文本,從而直接返回給用戶需要的知識。基于此,信息抽取技術(shù)越來越受到研究人員的重視。命名實體語義關(guān)系抽取作為信息抽取中重要的一環(huán),得到了越來越多的關(guān)注,它借助命名實體識別技術(shù),深入文本內(nèi)部,理解文本內(nèi)容從而返回實體對之間的語義關(guān)系。實體語義關(guān)系抽取方法,大致可以分為基于知識庫的方法和機器學(xué)習(xí)方法。由于知識庫方法需要大量領(lǐng)域?qū)<业膭趧?且移植性較差。所以,越來越多的學(xué)者關(guān)注機器學(xué)習(xí)方法。在機器學(xué)習(xí)方法中,又可以分為有指導(dǎo)的機器學(xué)習(xí)方法、弱指導(dǎo)的機器學(xué)習(xí)方法和無指導(dǎo)的機器學(xué)習(xí)方法。其中,弱指導(dǎo)的機器學(xué)習(xí)方法只需要少量人工干預(yù)且在實用性、移植性上具有較好的效果,所以得到了廣泛的應(yīng)用。所以本文主要研究了基于自舉的弱指導(dǎo)機器學(xué)習(xí)方法。在以往的研究中,模式表示為left,tag1,middle,tag2,right,未考慮到關(guān)鍵詞對命名實體語義關(guān)系的表達作用;僅僅考慮了詞法信息,而沒有將語義信息加入到實體語義關(guān)系抽取中來;在計算特征項權(quán)重時,只將兩個實體作為核心,未考慮關(guān)鍵字的作用。針對這些問題,本文提出(1)、一種模式表示新方法,在以往模式表達的基礎(chǔ)上增加了關(guān)鍵字信息、語義信息和詞序等信息。這是因為實體之間的語義關(guān)系可以由其上下文中的動詞、名詞等關(guān)鍵詞觸發(fā),關(guān)系模式也是以關(guān)鍵詞為核心的;在中文環(huán)境下,存在著同義詞的情況,加入詞語的語義信息可以幫助更有效地進行關(guān)系抽取;關(guān)鍵詞和實體之間的相對詞序位置在一定程度上反映了關(guān)系描述模式的框架和結(jié)構(gòu),所以詞序信息有助于幫助關(guān)系描述模式的相似度計算和聚類。(2)、根據(jù)模式表示新方法,提出了新的關(guān)系抽取方法,其包括了語義距離概念、改進的特征項權(quán)重計算、模式相似度計算,模式的獲取、聚類和泛化以及關(guān)系的抽取。通過計算語義距離,從而使相對距離計算和特征項權(quán)重計算包含一定的語義表達能力;加入詞語語義信息和詞序信息的模式表示新方法,使得模式具有更高的匹配性,使得模式獲取、聚類和泛化更加準確從而提高語義關(guān)系抽取的性能。(3)最后設(shè)計實現(xiàn)了一個模型系統(tǒng)并進行了實驗,實驗結(jié)果驗證了本文提出的方法的有效性。作為方法的驗證示例,本文在模型系統(tǒng)上進行了“妻子”關(guān)系、“女兒”關(guān)系和“女友”關(guān)系的抽取,實驗結(jié)果表明,本文提出的方法的平均準確率比傳統(tǒng)的方法提高了6.5%。
【關(guān)鍵詞】:信息抽取 實體語義關(guān)系 自舉技術(shù) 關(guān)系描述模式 模式匹配
【學(xué)位授予單位】:上海大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.1
【目錄】:
- 摘要6-8
- ABSTRACT8-13
- 第一章 緒論13-24
- 1.1 課題研究背景13
- 1.2 課題研究的目的和意義13-15
- 1.3 國內(nèi)外研究現(xiàn)狀15-21
- 1.3.1 基于知識庫的實體語義關(guān)系抽取15-16
- 1.3.2 基于機器學(xué)習(xí)的實體語義關(guān)系抽取16-21
- 1.3.2.1 有指導(dǎo)的機器學(xué)習(xí)方法16-19
- 1.3.2.2 無指導(dǎo)的機器學(xué)習(xí)方法19
- 1.3.2.3 弱指導(dǎo)的機器學(xué)習(xí)方法19-21
- 1.4 本文主要研究內(nèi)容21-23
- 1.5 本文組織結(jié)構(gòu)23-24
- 第二章 相關(guān)技術(shù)24-33
- 2.1 實體語義關(guān)系抽取概念24-28
- 2.1.1 關(guān)系抽取的發(fā)展24
- 2.1.2 信息抽取系統(tǒng)體系結(jié)構(gòu)24-26
- 2.1.3 實體關(guān)系抽取相關(guān)概念26-27
- 2.1.4 關(guān)系抽取評價指標27-28
- 2.2 實體語義關(guān)系抽取技術(shù)28-30
- 2.2.1 基于知識庫的方法28-29
- 2.2.2 基于特征向量的機器學(xué)習(xí)方法29
- 2.2.3 基于核函數(shù)的機器學(xué)習(xí)方法29-30
- 2.2.4 Bootstrapping方法30
- 2.3 抽取技術(shù)分析30-31
- 2.4 本章小結(jié)31-33
- 第三章 語義關(guān)系抽取方法研究33-43
- 3.1 引言33-34
- 3.2 模式表示方法研究34-35
- 3.2.1 關(guān)鍵詞信息34
- 3.2.2 關(guān)鍵詞和實體相對詞序位置信息34-35
- 3.2.3 模式表示形式化35
- 3.3 特征項權(quán)重計算35-37
- 3.4 模式相似度計算37-38
- 3.5 原始關(guān)系模式獲取與泛化38-40
- 3.5.1 原始關(guān)系模式獲取38-39
- 3.5.2 原始關(guān)系模式泛化39-40
- 3.6 關(guān)系抽取方法研究40-41
- 3.7 本章小結(jié)41-43
- 第四章 模型系統(tǒng)設(shè)計43-55
- 4.1 引言43
- 4.2 系統(tǒng)整體架構(gòu)設(shè)計43-46
- 4.3 系統(tǒng)模塊詳細設(shè)計46-54
- 4.3.1 種子構(gòu)建模塊設(shè)計47
- 4.3.2 數(shù)據(jù)抓取模塊設(shè)計47-49
- 4.3.3 數(shù)據(jù)預(yù)處理模塊設(shè)計49-50
- 4.3.4 原始關(guān)系模式獲取設(shè)計50-52
- 4.3.5 關(guān)系模式泛化模塊設(shè)計52-53
- 4.3.6 關(guān)系元組抽取模塊設(shè)計53-54
- 4.4 本章小結(jié)54-55
- 第五章 模型系統(tǒng)運行實例與實驗結(jié)果分析55-69
- 5.1 引言55
- 5.2 模型系統(tǒng)運行實例55-65
- 5.2.1 種子構(gòu)建55-56
- 5.2.2 數(shù)據(jù)抓取56-57
- 5.2.3 數(shù)據(jù)預(yù)處理57-60
- 5.2.4 原始關(guān)系模式獲取60-62
- 5.2.5 原始關(guān)系模式泛化62-63
- 5.2.6 關(guān)系元組的抽取63-64
- 5.2.7 關(guān)系元組的確認64-65
- 5.3 實驗結(jié)果與分析65-68
- 5.3.1 實驗數(shù)據(jù)65-66
- 5.3.2 評價標準66
- 5.3.3 實驗結(jié)果與分析66-68
- 5.4 本章小結(jié)68-69
- 第六章 結(jié)論與展望69-72
- 6.1 結(jié)論69-70
- 6.2 展望70-72
- 參考文獻72-76
- 作者在攻讀碩士學(xué)位期間公開發(fā)表的論文76-77
- 作者在攻讀碩士學(xué)位期間所作的項目77-78
- 致謝78
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前1條
1 魯松,白碩;自然語言處理中詞語上下文有效范圍的定量描述[J];計算機學(xué)報;2001年07期
本文關(guān)鍵詞:基于弱指導(dǎo)的實體語義關(guān)系抽取研究,由筆耕文化傳播整理發(fā)布。
,本文編號:411302
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/411302.html
最近更新
教材專著