天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于弱指導(dǎo)的實體語義關(guān)系抽取研究

發(fā)布時間:2017-06-01 02:06

  本文關(guān)鍵詞:基于弱指導(dǎo)的實體語義關(guān)系抽取研究,由筆耕文化傳播整理發(fā)布。


【摘要】:隨著計算機的進一步普及和互聯(lián)網(wǎng)的高速發(fā)展,越來越多的數(shù)據(jù),信息和知識以電子文本的形式出現(xiàn)且數(shù)據(jù)量呈現(xiàn)爆炸式的增長。但是,人們越來越感覺到從海量數(shù)據(jù)中尋找到自己需要的知識變得越來越難,這是因為“信息過載”和搜索引擎技術(shù)的不足導(dǎo)致的。現(xiàn)有搜索引擎技術(shù)基本上都是基于關(guān)鍵字匹配的,其不能理解電子文本,從而直接返回給用戶需要的知識。基于此,信息抽取技術(shù)越來越受到研究人員的重視。命名實體語義關(guān)系抽取作為信息抽取中重要的一環(huán),得到了越來越多的關(guān)注,它借助命名實體識別技術(shù),深入文本內(nèi)部,理解文本內(nèi)容從而返回實體對之間的語義關(guān)系。實體語義關(guān)系抽取方法,大致可以分為基于知識庫的方法和機器學(xué)習(xí)方法。由于知識庫方法需要大量領(lǐng)域?qū)<业膭趧?且移植性較差。所以,越來越多的學(xué)者關(guān)注機器學(xué)習(xí)方法。在機器學(xué)習(xí)方法中,又可以分為有指導(dǎo)的機器學(xué)習(xí)方法、弱指導(dǎo)的機器學(xué)習(xí)方法和無指導(dǎo)的機器學(xué)習(xí)方法。其中,弱指導(dǎo)的機器學(xué)習(xí)方法只需要少量人工干預(yù)且在實用性、移植性上具有較好的效果,所以得到了廣泛的應(yīng)用。所以本文主要研究了基于自舉的弱指導(dǎo)機器學(xué)習(xí)方法。在以往的研究中,模式表示為left,tag1,middle,tag2,right,未考慮到關(guān)鍵詞對命名實體語義關(guān)系的表達作用;僅僅考慮了詞法信息,而沒有將語義信息加入到實體語義關(guān)系抽取中來;在計算特征項權(quán)重時,只將兩個實體作為核心,未考慮關(guān)鍵字的作用。針對這些問題,本文提出(1)、一種模式表示新方法,在以往模式表達的基礎(chǔ)上增加了關(guān)鍵字信息、語義信息和詞序等信息。這是因為實體之間的語義關(guān)系可以由其上下文中的動詞、名詞等關(guān)鍵詞觸發(fā),關(guān)系模式也是以關(guān)鍵詞為核心的;在中文環(huán)境下,存在著同義詞的情況,加入詞語的語義信息可以幫助更有效地進行關(guān)系抽取;關(guān)鍵詞和實體之間的相對詞序位置在一定程度上反映了關(guān)系描述模式的框架和結(jié)構(gòu),所以詞序信息有助于幫助關(guān)系描述模式的相似度計算和聚類。(2)、根據(jù)模式表示新方法,提出了新的關(guān)系抽取方法,其包括了語義距離概念、改進的特征項權(quán)重計算、模式相似度計算,模式的獲取、聚類和泛化以及關(guān)系的抽取。通過計算語義距離,從而使相對距離計算和特征項權(quán)重計算包含一定的語義表達能力;加入詞語語義信息和詞序信息的模式表示新方法,使得模式具有更高的匹配性,使得模式獲取、聚類和泛化更加準確從而提高語義關(guān)系抽取的性能。(3)最后設(shè)計實現(xiàn)了一個模型系統(tǒng)并進行了實驗,實驗結(jié)果驗證了本文提出的方法的有效性。作為方法的驗證示例,本文在模型系統(tǒng)上進行了“妻子”關(guān)系、“女兒”關(guān)系和“女友”關(guān)系的抽取,實驗結(jié)果表明,本文提出的方法的平均準確率比傳統(tǒng)的方法提高了6.5%。
【關(guān)鍵詞】:信息抽取 實體語義關(guān)系 自舉技術(shù) 關(guān)系描述模式 模式匹配
【學(xué)位授予單位】:上海大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.1
【目錄】:
  • 摘要6-8
  • ABSTRACT8-13
  • 第一章 緒論13-24
  • 1.1 課題研究背景13
  • 1.2 課題研究的目的和意義13-15
  • 1.3 國內(nèi)外研究現(xiàn)狀15-21
  • 1.3.1 基于知識庫的實體語義關(guān)系抽取15-16
  • 1.3.2 基于機器學(xué)習(xí)的實體語義關(guān)系抽取16-21
  • 1.3.2.1 有指導(dǎo)的機器學(xué)習(xí)方法16-19
  • 1.3.2.2 無指導(dǎo)的機器學(xué)習(xí)方法19
  • 1.3.2.3 弱指導(dǎo)的機器學(xué)習(xí)方法19-21
  • 1.4 本文主要研究內(nèi)容21-23
  • 1.5 本文組織結(jié)構(gòu)23-24
  • 第二章 相關(guān)技術(shù)24-33
  • 2.1 實體語義關(guān)系抽取概念24-28
  • 2.1.1 關(guān)系抽取的發(fā)展24
  • 2.1.2 信息抽取系統(tǒng)體系結(jié)構(gòu)24-26
  • 2.1.3 實體關(guān)系抽取相關(guān)概念26-27
  • 2.1.4 關(guān)系抽取評價指標27-28
  • 2.2 實體語義關(guān)系抽取技術(shù)28-30
  • 2.2.1 基于知識庫的方法28-29
  • 2.2.2 基于特征向量的機器學(xué)習(xí)方法29
  • 2.2.3 基于核函數(shù)的機器學(xué)習(xí)方法29-30
  • 2.2.4 Bootstrapping方法30
  • 2.3 抽取技術(shù)分析30-31
  • 2.4 本章小結(jié)31-33
  • 第三章 語義關(guān)系抽取方法研究33-43
  • 3.1 引言33-34
  • 3.2 模式表示方法研究34-35
  • 3.2.1 關(guān)鍵詞信息34
  • 3.2.2 關(guān)鍵詞和實體相對詞序位置信息34-35
  • 3.2.3 模式表示形式化35
  • 3.3 特征項權(quán)重計算35-37
  • 3.4 模式相似度計算37-38
  • 3.5 原始關(guān)系模式獲取與泛化38-40
  • 3.5.1 原始關(guān)系模式獲取38-39
  • 3.5.2 原始關(guān)系模式泛化39-40
  • 3.6 關(guān)系抽取方法研究40-41
  • 3.7 本章小結(jié)41-43
  • 第四章 模型系統(tǒng)設(shè)計43-55
  • 4.1 引言43
  • 4.2 系統(tǒng)整體架構(gòu)設(shè)計43-46
  • 4.3 系統(tǒng)模塊詳細設(shè)計46-54
  • 4.3.1 種子構(gòu)建模塊設(shè)計47
  • 4.3.2 數(shù)據(jù)抓取模塊設(shè)計47-49
  • 4.3.3 數(shù)據(jù)預(yù)處理模塊設(shè)計49-50
  • 4.3.4 原始關(guān)系模式獲取設(shè)計50-52
  • 4.3.5 關(guān)系模式泛化模塊設(shè)計52-53
  • 4.3.6 關(guān)系元組抽取模塊設(shè)計53-54
  • 4.4 本章小結(jié)54-55
  • 第五章 模型系統(tǒng)運行實例與實驗結(jié)果分析55-69
  • 5.1 引言55
  • 5.2 模型系統(tǒng)運行實例55-65
  • 5.2.1 種子構(gòu)建55-56
  • 5.2.2 數(shù)據(jù)抓取56-57
  • 5.2.3 數(shù)據(jù)預(yù)處理57-60
  • 5.2.4 原始關(guān)系模式獲取60-62
  • 5.2.5 原始關(guān)系模式泛化62-63
  • 5.2.6 關(guān)系元組的抽取63-64
  • 5.2.7 關(guān)系元組的確認64-65
  • 5.3 實驗結(jié)果與分析65-68
  • 5.3.1 實驗數(shù)據(jù)65-66
  • 5.3.2 評價標準66
  • 5.3.3 實驗結(jié)果與分析66-68
  • 5.4 本章小結(jié)68-69
  • 第六章 結(jié)論與展望69-72
  • 6.1 結(jié)論69-70
  • 6.2 展望70-72
  • 參考文獻72-76
  • 作者在攻讀碩士學(xué)位期間公開發(fā)表的論文76-77
  • 作者在攻讀碩士學(xué)位期間所作的項目77-78
  • 致謝78

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前1條

1 魯松,白碩;自然語言處理中詞語上下文有效范圍的定量描述[J];計算機學(xué)報;2001年07期


  本文關(guān)鍵詞:基于弱指導(dǎo)的實體語義關(guān)系抽取研究,由筆耕文化傳播整理發(fā)布。

,

本文編號:411302

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/411302.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶c25e2***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com