基于石油領(lǐng)域本體的Web信息抽取技術(shù)研究
發(fā)布時間:2017-05-19 20:02
本文關(guān)鍵詞:基于石油領(lǐng)域本體的Web信息抽取技術(shù)研究,由筆耕文化傳播整理發(fā)布。
【摘要】:從數(shù)字油田到智能油田轉(zhuǎn)變的過程中,油田信息來源變得越來越廣泛。在信息應(yīng)用的過程中,用戶除了管理油田內(nèi)部的數(shù)據(jù)外,還需要從各種文檔信息中獲取數(shù)據(jù),如Web網(wǎng)頁、研究報告、文獻等。本文主要針對當(dāng)前油田企業(yè)搜索引擎本身不能直接、自動、高效的從油田各種文檔中抽取出精確信息(如井的井號、井位置等),語義信息不清晰,而且模式不明確的現(xiàn)狀進行分析,構(gòu)建一種適合于石油領(lǐng)域的Web信息抽取系統(tǒng)。本文的研究會為以后油田自動報表生成和知識推理等提供依據(jù),具有很大的現(xiàn)實意義和實用價值。本文在對當(dāng)前基于本體的信息抽取技術(shù)的研究基礎(chǔ)上,提出了基于石油領(lǐng)域本體的Web信息抽取架構(gòu)模型,并設(shè)計實現(xiàn)了基于該模型的原型系統(tǒng)。本文主要研究內(nèi)容有:1.針對文本中代詞指代現(xiàn)象對信息抽取造成的不確定性問題,本文提出兩種指代消解方法。針對顯性代詞指代問題,提出一種規(guī)則和統(tǒng)計相結(jié)合的方法,該方法首先采用自定義規(guī)則對特征屬性進行過濾,然后采用C4.5決策樹算法構(gòu)建分類器,實現(xiàn)指代關(guān)系的判定。針對省略代詞指代形式的消解問題,提出了一種省略代詞指代消解模型。該模型將消解任務(wù)分成三個步驟,分別對應(yīng)一個具體實現(xiàn)算法,共同完成指代消解。2.針對石油領(lǐng)域文本信息抽取不精確和語義信息不清晰的問題,本文提出了一種基于石油領(lǐng)域本體的信息抽取方法。針對油田屬性語義特點和句子形式,利用本體解析后的信息構(gòu)建抽取規(guī)則,通過屬性和三元組規(guī)則對句子中實體及關(guān)系進行抽取。最后,本文設(shè)計實現(xiàn)了基于石油領(lǐng)域本體的Web信息抽取系統(tǒng)平臺,并以石油領(lǐng)域相關(guān)網(wǎng)站的Web頁面為實驗對象,驗證了系統(tǒng)信息抽取的性能。實驗結(jié)果達到了預(yù)期目標,表明了本文設(shè)計在技術(shù)和方法上的可行性,具有一定的參考性和實際應(yīng)用價值。
【關(guān)鍵詞】:本體 指代消解 規(guī)則 信息抽取
【學(xué)位授予單位】:東北石油大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.1
【目錄】:
- 摘要4-5
- ABSTRACT5-7
- 創(chuàng)新點摘要7-10
- 第一章 緒論10-15
- 1.1 課題研究背景及意義10
- 1.2 國內(nèi)外研究現(xiàn)狀10-12
- 1.2.1 信息抽取研究現(xiàn)狀10-11
- 1.2.2 基于領(lǐng)域本體的Web信息抽取研究現(xiàn)狀11-12
- 1.3 本文主要研究內(nèi)容及論文組織結(jié)構(gòu)12-14
- 1.3.1 主要研究內(nèi)容12-13
- 1.3.2 論文組織結(jié)構(gòu)13-14
- 1.4 本章小結(jié)14-15
- 第二章 基于石油領(lǐng)域本體的Web信息抽取系統(tǒng)總體架構(gòu)15-21
- 2.1 POWIES系統(tǒng)總體架構(gòu)15-16
- 2.2 預(yù)處理模塊16-17
- 2.3 規(guī)則構(gòu)建模塊17-19
- 2.3.1 本體理論概述17-18
- 2.3.2 規(guī)則構(gòu)建模塊18-19
- 2.4 信息抽取模塊19
- 2.5 信息抽取效果的評價指標19-20
- 2.6 本章小結(jié)20-21
- 第三章 文本預(yù)處理分析21-44
- 3.1 Web網(wǎng)頁正文提取21-24
- 3.1.1 石油領(lǐng)域Web頁面結(jié)構(gòu)特點分析21
- 3.1.2 Web網(wǎng)頁正文提取算法21-24
- 3.2 命名實體識別24-30
- 3.2.1 詞法分析24-26
- 3.2.2 句法分析26
- 3.2.3 句式轉(zhuǎn)換26-27
- 3.2.4 命名實體識別27-30
- 3.3 基于統(tǒng)計和規(guī)則相結(jié)合的決策樹算法的指代消解30-40
- 3.3.1 指代消解及研究的問題域30-31
- 3.3.2 決策樹算法31-35
- 3.3.3 基于SR決策樹的指代消解35-39
- 3.3.4 實驗及結(jié)果分析39-40
- 3.4 省略代詞指代消解方法40-43
- 3.4.1 省略代詞消解問題描述40-41
- 3.4.2 基本定義41
- 3.4.3 省略代詞指代消解模型41-43
- 3.5 本章小結(jié)43-44
- 第四章 基于石油領(lǐng)域本體的實體關(guān)系抽取44-54
- 4.1 本體解析及字典設(shè)計44-47
- 4.1.1 本體解析44-46
- 4.1.2 字典設(shè)計46-47
- 4.2 基于石油領(lǐng)域本體的規(guī)則構(gòu)建方法47-48
- 4.2.1 利用屬性的語義特點構(gòu)建抽取規(guī)則47-48
- 4.2.2 利用三元組構(gòu)建抽取規(guī)則48
- 4.3 信息抽取器的設(shè)計48-53
- 4.3.1 信息抽取的過程48-53
- 4.3.2 信息抽取結(jié)果存儲和用戶查詢53
- 4.4 本章小結(jié)53-54
- 第五章 POWIES的設(shè)計與實現(xiàn)54-67
- 5.1 實驗環(huán)境及開發(fā)工具54
- 5.2 石油領(lǐng)域詞庫構(gòu)建54-56
- 5.3 石油領(lǐng)域本體參考標準56-59
- 5.4 系統(tǒng)的設(shè)計59-62
- 5.4.1 系統(tǒng)總體功能模塊設(shè)計59-60
- 5.4.2 系統(tǒng)流程60-61
- 5.4.3 系統(tǒng)數(shù)據(jù)流圖61-62
- 5.4.4 系統(tǒng)數(shù)據(jù)庫模型設(shè)計62
- 5.5 實驗與結(jié)果分析62-66
- 5.5.1 POWIES抽取結(jié)果展示62-64
- 5.5.2 結(jié)果分析64-66
- 5.6 本章小結(jié)66-67
- 結(jié)論67-68
- 參考文獻68-71
- 發(fā)表文章目錄71-72
- 致謝72-73
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前1條
1 王智強;李蕾;王樅;;基于決策樹的漢語代詞共指消解[J];北京郵電大學(xué)學(xué)報;2006年04期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 陳蘭;基于ontology的信息抽取系統(tǒng)的研究與實現(xiàn)[D];電子科技大學(xué);2004年
本文關(guān)鍵詞:基于石油領(lǐng)域本體的Web信息抽取技術(shù)研究,由筆耕文化傳播整理發(fā)布。
,本文編號:379682
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/379682.html
最近更新
教材專著