Web信息抽取框架技術(shù)研究
發(fā)布時間:2017-09-21 00:00
本文關(guān)鍵詞:Web信息抽取框架技術(shù)研究
更多相關(guān)文章: 信息結(jié)構(gòu)化 Web信息抽取框架 分類 知識圖譜 抽取規(guī)則
【摘要】:從非結(jié)構(gòu)化和半結(jié)構(gòu)化的互聯(lián)網(wǎng)信息中抽取結(jié)構(gòu)化信息的技術(shù)廣泛應(yīng)用于商業(yè)數(shù)據(jù)挖掘、社交網(wǎng)絡(luò)分析和垂直搜索引擎等領(lǐng)域。信息結(jié)構(gòu)化包括一系列環(huán)節(jié):設(shè)定信息抽取范圍、網(wǎng)頁爬取、網(wǎng)頁預(yù)處理、定義抽取內(nèi)容、構(gòu)建抽取規(guī)則和信息存儲,進(jìn)一步可以分為應(yīng)用依賴的和應(yīng)用獨(dú)立的環(huán)節(jié)。本文提出信息結(jié)構(gòu)化的一般框架,基本思想是設(shè)定信息抽取的范圍和內(nèi)容是框架中應(yīng)用依賴的環(huán)節(jié),而其他環(huán)節(jié)具有應(yīng)用獨(dú)立性,通過設(shè)計一套描述方法配置應(yīng)用依賴的操作,將應(yīng)用獨(dú)立的環(huán)節(jié)向開發(fā)人員屏蔽,提高框架的通用性和應(yīng)用開發(fā)效率。具體貢獻(xiàn)如下:(1)設(shè)計并實現(xiàn)了一個通用的Web信息抽取框架。從信息結(jié)構(gòu)化流程中抽象出該框架,框架提供了一個統(tǒng)一的Web信息抽取模型;基于抽象和信息隱蔽的工程原則對框架進(jìn)行總體設(shè)計,將信息結(jié)構(gòu)化過程抽象為應(yīng)用依賴的信息范圍和內(nèi)容描述與應(yīng)用獨(dú)立的其他環(huán)節(jié),讓開發(fā)人員配置應(yīng)用依賴的操作而屏蔽應(yīng)用獨(dú)立的環(huán)節(jié),提高框架的通用性和應(yīng)用開發(fā)效率。(2)提出并實現(xiàn)了一種基于知識圖譜的詞類生成算法。本文引入詞類的概念分析網(wǎng)頁主題,并使用文檔-詞類向量對網(wǎng)頁分類,而手工構(gòu)建詞類比較困難。本文基于知識圖譜自動構(gòu)建有效的詞類,降低了詞類構(gòu)建的難度。(3)提出并實現(xiàn)了一種基于DOM節(jié)點(diǎn)分類的信息抽取方法。采用監(jiān)督學(xué)習(xí)的方法構(gòu)建信息的抽取規(guī)則,將信息抽取問題看作分類問題,以信息所在的DOM節(jié)點(diǎn)為粒度進(jìn)行分類,提出了DOM節(jié)點(diǎn)的樣式特征、內(nèi)容特征和上下文特征。(4)在文獻(xiàn)[46]的數(shù)據(jù)集上進(jìn)行了網(wǎng)頁分類實驗,與基準(zhǔn)方法進(jìn)行對比,實驗結(jié)果表明本文中提出的方法在分類效果上優(yōu)于基準(zhǔn)方案。在從Amazon等網(wǎng)站抽取的圖書信息頁面數(shù)據(jù)集上進(jìn)行了信息抽取實驗,其中對圖書的標(biāo)題、作者和價格信息進(jìn)行抽取,實驗結(jié)果表明本文提出的信息抽取方法能夠取得較好的效果,并且具有較好的擴(kuò)展性。
【關(guān)鍵詞】:信息結(jié)構(gòu)化 Web信息抽取框架 分類 知識圖譜 抽取規(guī)則
【學(xué)位授予單位】:東南大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.1
【目錄】:
- 摘要5-6
- ABSTRACT6-9
- 第一章 緒論9-13
- 1.1 研究背景和意義9-10
- 1.2 國內(nèi)外研究現(xiàn)狀10-11
- 1.3 論文研究內(nèi)容11-12
- 1.4 論文組織結(jié)構(gòu)12-13
- 第二章 相關(guān)技術(shù)與理論13-23
- 2.1 WEB信息抽取概述13-15
- 2.1.1 Web信息抽取的定義和評價標(biāo)準(zhǔn)13
- 2.1.2 Web信息抽取技術(shù)分類13-15
- 2.2 布隆過濾器15-16
- 2.3 知識圖譜技術(shù)16-18
- 2.3.1 知識圖譜概述16-18
- 2.3.2 開源知識圖譜Freebase18
- 2.4 支持向量機(jī)18-20
- 2.5 邏輯回歸20-21
- 2.6 MONGODB數(shù)據(jù)庫21-22
- 2.7 本章小結(jié)22-23
- 第三章 WEB信息抽取框架設(shè)計23-33
- 3.1 WEB信息抽取框架總體設(shè)計23-24
- 3.2 信息范圍配置24-29
- 3.3 信息內(nèi)容配置29-32
- 3.3.1 數(shù)據(jù)模式定義接口29-30
- 3.3.2 信息語義配置接口30-32
- 3.4 本章小結(jié)32-33
- 第四章 WEB信息抽取框架實現(xiàn)33-45
- 4.1 框架的系統(tǒng)結(jié)構(gòu)與模塊劃分33
- 4.2 框架中的功能性模塊33-40
- 4.2.1 網(wǎng)頁檢索33-35
- 4.2.2 網(wǎng)頁分類35-39
- 4.2.3 信息抽取39-40
- 4.3 框架中的非功能性模塊40-44
- 4.3.1 網(wǎng)頁去重40-42
- 4.3.2 網(wǎng)頁預(yù)處理42-44
- 4.3.3 信息存儲44
- 4.4 本章小結(jié)44-45
- 第五章 框架中的關(guān)鍵技術(shù)45-53
- 5.1 詞類構(gòu)建與文檔-詞類向量計算45-49
- 5.1.1 詞類定義的難點(diǎn)45
- 5.1.2 詞類生成算法45-48
- 5.1.3 文檔-詞類向量48-49
- 5.2 信息抽取規(guī)則構(gòu)建49-52
- 5.2.1 Web信息抽取原理49-50
- 5.2.2 特征向量構(gòu)建50-51
- 5.2.3 抽取規(guī)則生成51-52
- 5.3 本章小結(jié)52-53
- 第六章 應(yīng)用場景與實驗分析53-61
- 6.1 典型應(yīng)用場景53-57
- 6.1.1 商品信息抽取53-55
- 6.1.2 網(wǎng)站聯(lián)系信息抽取55-57
- 6.2 實驗環(huán)境57
- 6.3 網(wǎng)頁分類實驗57-59
- 6.3.1 實驗數(shù)據(jù)57
- 6.3.2 實驗結(jié)果與分析57-59
- 6.4 信息抽取實驗59-60
- 6.4.1 實驗數(shù)據(jù)59
- 6.4.2 實驗結(jié)果與分析59-60
- 6.5 本章小結(jié)60-61
- 第七章 總結(jié)與展望61-62
- 致謝62-63
- 參考文獻(xiàn)63-66
- 碩士期間發(fā)表的論文66
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前2條
1 顧韻華;田偉;;基于DOM模型擴(kuò)展的Web信息提取[J];計算機(jī)科學(xué);2009年11期
2 曹冬林;廖祥文;許洪波;白碩;;基于網(wǎng)頁格式信息量的博客文章和評論抽取模型[J];軟件學(xué)報;2009年05期
,本文編號:891150
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/891150.html
最近更新
教材專著