Web信息抽取框架技術(shù)研究

發(fā)布時間：2017-09-21 00:00

本文關(guān)鍵詞：Web信息抽取框架技術(shù)研究

【摘要】：從非結(jié)構(gòu)化和半結(jié)構(gòu)化的互聯(lián)網(wǎng)信息中抽取結(jié)構(gòu)化信息的技術(shù)廣泛應(yīng)用于商業(yè)數(shù)據(jù)挖掘、社交網(wǎng)絡(luò)分析和垂直搜索引擎等領(lǐng)域。信息結(jié)構(gòu)化包括一系列環(huán)節(jié)：設(shè)定信息抽取范圍、網(wǎng)頁爬取、網(wǎng)頁預(yù)處理、定義抽取內(nèi)容、構(gòu)建抽取規(guī)則和信息存儲,進(jìn)一步可以分為應(yīng)用依賴的和應(yīng)用獨立的環(huán)節(jié)。本文提出信息結(jié)構(gòu)化的一般框架,基本思想是設(shè)定信息抽取的范圍和內(nèi)容是框架中應(yīng)用依賴的環(huán)節(jié),而其他環(huán)節(jié)具有應(yīng)用獨立性,通過設(shè)計一套描述方法配置應(yīng)用依賴的操作,將應(yīng)用獨立的環(huán)節(jié)向開發(fā)人員屏蔽,提高框架的通用性和應(yīng)用開發(fā)效率。具體貢獻(xiàn)如下：(1)設(shè)計并實現(xiàn)了一個通用的Web信息抽取框架。從信息結(jié)構(gòu)化流程中抽象出該框架,框架提供了一個統(tǒng)一的Web信息抽取模型；基于抽象和信息隱蔽的工程原則對框架進(jìn)行總體設(shè)計,將信息結(jié)構(gòu)化過程抽象為應(yīng)用依賴的信息范圍和內(nèi)容描述與應(yīng)用獨立的其他環(huán)節(jié),讓開發(fā)人員配置應(yīng)用依賴的操作而屏蔽應(yīng)用獨立的環(huán)節(jié),提高框架的通用性和應(yīng)用開發(fā)效率。(2)提出并實現(xiàn)了一種基于知識圖譜的詞類生成算法。本文引入詞類的概念分析網(wǎng)頁主題,并使用文檔-詞類向量對網(wǎng)頁分類,而手工構(gòu)建詞類比較困難。本文基于知識圖譜自動構(gòu)建有效的詞類,降低了詞類構(gòu)建的難度。(3)提出并實現(xiàn)了一種基于DOM節(jié)點分類的信息抽取方法。采用監(jiān)督學(xué)習(xí)的方法構(gòu)建信息的抽取規(guī)則,將信息抽取問題看作分類問題,以信息所在的DOM節(jié)點為粒度進(jìn)行分類,提出了DOM節(jié)點的樣式特征、內(nèi)容特征和上下文特征。(4)在文獻(xiàn)[46]的數(shù)據(jù)集上進(jìn)行了網(wǎng)頁分類實驗,與基準(zhǔn)方法進(jìn)行對比,實驗結(jié)果表明本文中提出的方法在分類效果上優(yōu)于基準(zhǔn)方案。在從Amazon等網(wǎng)站抽取的圖書信息頁面數(shù)據(jù)集上進(jìn)行了信息抽取實驗,其中對圖書的標(biāo)題、作者和價格信息進(jìn)行抽取,實驗結(jié)果表明本文提出的信息抽取方法能夠取得較好的效果,并且具有較好的擴(kuò)展性。
【關(guān)鍵詞】：信息結(jié)構(gòu)化 Web信息抽取框架 分類 知識圖譜 抽取規(guī)則
【學(xué)位授予單位】：東南大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2016
【分類號】：TP391.1
【目錄】：

摘要5-6
ABSTRACT6-9
第一章緒論9-13
1.1 研究背景和意義9-10
1.2 國內(nèi)外研究現(xiàn)狀10-11
1.3 論文研究內(nèi)容11-12
1.4 論文組織結(jié)構(gòu)12-13
第二章相關(guān)技術(shù)與理論13-23
2.1 WEB信息抽取概述13-15
2.1.1 Web信息抽取的定義和評價標(biāo)準(zhǔn)13
2.1.2 Web信息抽取技術(shù)分類13-15
2.2 布隆過濾器15-16
2.3 知識圖譜技術(shù)16-18
2.3.1 知識圖譜概述16-18
2.3.2 開源知識圖譜Freebase18
2.4 支持向量機(jī)18-20
2.5 邏輯回歸20-21
2.6 MONGODB數(shù)據(jù)庫21-22
2.7 本章小結(jié)22-23
第三章 WEB信息抽取框架設(shè)計23-33
3.1 WEB信息抽取框架總體設(shè)計23-24
3.2 信息范圍配置24-29
3.3 信息內(nèi)容配置29-32
3.3.1 數(shù)據(jù)模式定義接口29-30
3.3.2 信息語義配置接口30-32
3.4 本章小結(jié)32-33
第四章 WEB信息抽取框架實現(xiàn)33-45
4.1 框架的系統(tǒng)結(jié)構(gòu)與模塊劃分33
4.2 框架中的功能性模塊33-40
4.2.1 網(wǎng)頁檢索33-35
4.2.2 網(wǎng)頁分類35-39
4.2.3 信息抽取39-40
4.3 框架中的非功能性模塊40-44
4.3.1 網(wǎng)頁去重40-42
4.3.2 網(wǎng)頁預(yù)處理42-44
4.3.3 信息存儲44
4.4 本章小結(jié)44-45
第五章框架中的關(guān)鍵技術(shù)45-53
5.1 詞類構(gòu)建與文檔-詞類向量計算45-49
5.1.1 詞類定義的難點45
5.1.2 詞類生成算法45-48
5.1.3 文檔-詞類向量48-49
5.2 信息抽取規(guī)則構(gòu)建49-52
5.2.1 Web信息抽取原理49-50
5.2.2 特征向量構(gòu)建50-51
5.2.3 抽取規(guī)則生成51-52
5.3 本章小結(jié)52-53
第六章應(yīng)用場景與實驗分析53-61
6.1 典型應(yīng)用場景53-57
6.1.1 商品信息抽取53-55
6.1.2 網(wǎng)站聯(lián)系信息抽取55-57
6.2 實驗環(huán)境57
6.3 網(wǎng)頁分類實驗57-59
6.3.1 實驗數(shù)據(jù)57
6.3.2 實驗結(jié)果與分析57-59
6.4 信息抽取實驗59-60
6.4.1 實驗數(shù)據(jù)59
6.4.2 實驗結(jié)果與分析59-60
6.5 本章小結(jié)60-61
第七章總結(jié)與展望61-62
致謝62-63
參考文獻(xiàn)63-66
碩士期間發(fā)表的論文66

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫前2條

1 顧韻華;田偉;;基于DOM模型擴(kuò)展的Web信息提取[J];計算機(jī)科學(xué);2009年11期

2 曹冬林;廖祥文;許洪波;白碩;;基于網(wǎng)頁格式信息量的博客文章和評論抽取模型[J];軟件學(xué)報;2009年05期

，

本文編號：891150

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/891150.html

上一篇：從網(wǎng)絡(luò)新聞評議會和新浪經(jīng)驗談微博自律
下一篇：搜索引擎機(jī)器人抓取行為的合法性剖析

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

Web信息抽取框架技術(shù)研究