當(dāng)前位置：主頁 > 管理論文 > 移動網(wǎng)絡(luò)論文 >

一種通用的網(wǎng)頁內(nèi)容抽取模塊的設(shè)計與實現(xiàn)

發(fā)布時間：2017-04-25 19:03

本文關(guān)鍵詞：一種通用的網(wǎng)頁內(nèi)容抽取模塊的設(shè)計與實現(xiàn)，由筆耕文化傳播整理發(fā)布。

【摘要】：經(jīng)過數(shù)十年的飛速發(fā)展，互聯(lián)網(wǎng)已經(jīng)成為最主要的信息存儲容器,而互聯(lián)網(wǎng)中絕大部分信息都以HTML頁面形式存在,然而HTML頁面中信息本身與信息的展現(xiàn)方式(HTML代碼)混雜在一起而沒有明確的界限,如果脫離了頁面信息也就失去了使用價值。本文介紹了一種可以將頁面中的信息成功抽取并結(jié)構(gòu)化存儲的方案,旨在賦予互聯(lián)網(wǎng)網(wǎng)頁中信息二次利用的價值。本文針對結(jié)構(gòu)化頁面提出了一種通用的內(nèi)容抽取方案。結(jié)構(gòu)化頁面根據(jù)不同展現(xiàn)形式可分為三類：靜態(tài)簡單頁面,靜態(tài)自相似頁面和動態(tài)頁面。本文針對不同類型頁面采用并實現(xiàn)了三種抽取方法： (1)靜態(tài)簡單頁面的抽取主要基于XML配置文件,通過配置節(jié)點信息以及字段描述,完成頁面信息的抽取。 (2)靜態(tài)自相似頁面主要是指列表類的頁面,關(guān)鍵在于抽取出列表里面的信息,找到頁面中每個列表項的位置,完成列表內(nèi)信息的抽取。 (3)動態(tài)頁面主要是指在用戶瀏覽時頁面的展示信息與展示方式會動態(tài)發(fā)生變化的頁面。需要模擬瀏覽器環(huán)境先將動態(tài)頁面靜態(tài)化,再按照靜態(tài)頁面抽取方法抽取。最后本文以新聞詳情頁測試了靜態(tài)簡單頁面的抽取結(jié)果,以動態(tài)加載的新聞列表頁測試了靜態(tài)自相似頁面以及動態(tài)網(wǎng)頁的抽取效果,并測試了系統(tǒng)抽取大量頁面時的時間耗費情況。
【關(guān)鍵詞】：HTML 格式化 信息抽取 Ajax 網(wǎng)頁內(nèi)容
【學(xué)位授予單位】：北京郵電大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2015
【分類號】：TP393.092;TP391.1
【目錄】：

摘要4-5
ABSTRACT5-9
第1章緒論9-14
1.1 課題背景和意義9
1.2 國內(nèi)外研究現(xiàn)狀9-11
1.3 實際項目需求11
1.4 研究內(nèi)容11-13
1.4.1 頁面格式化抽取11-12
1.4.2 頁面數(shù)據(jù)來源12-13
1.4.3 抽取結(jié)果的保存13
1.5 論文結(jié)構(gòu)安排13-14
第2章相關(guān)技術(shù)14-25
2.1 頁面格式化抽取14-16
2.1.1 格式化抽取的含義14
2.1.2 格式化抽取技術(shù)14-16
2.2 DOM16-21
2.2.1 DOM簡介16-19
2.2.2 JSoup簡介19-20
2.2.3 SAX簡介20-21
2.3 Ajax框架21-23
2.3.1 Ajax簡介21-22
2.3.2 Ajax的工作原理22
2.3.3 Ajax給頁面抽取帶來的挑戰(zhàn)22-23
2.4 本章小結(jié)23-25
第3章頁面抽取模塊的設(shè)計25-37
3.1 抽取流程設(shè)計25-32
3.1.1 頁面獲取與過濾26
3.1.2 頁面解析與抽取26-32
3.1.3 頁面索引與存儲32
3.2 系統(tǒng)模型設(shè)計32-34
3.2.1 抽取模塊33
3.2.2 索引模塊33-34
3.3 系統(tǒng)流程優(yōu)化34-36
3.3.1 流程分析34
3.3.2 流程優(yōu)化34-36
3.4 本章小結(jié)36-37
第4章頁面抽取模塊的實現(xiàn)37-56
4.1 系統(tǒng)主體的實現(xiàn)37-39
4.1.1 抽取系統(tǒng)主體設(shè)計37-38
4.1.2 并行抽取方法的詳細(xì)設(shè)計38-39
4.2 靜態(tài)簡單頁面抽取模塊39-45
4.2.1 配置文件的設(shè)計與實現(xiàn)39-42
4.2.2 抽取過程的實現(xiàn)42-45
4.3 靜態(tài)自相似頁面抽取模塊45-50
4.3.1 配置文件的設(shè)計與實現(xiàn)45
4.3.2 抽取流程的詳細(xì)設(shè)計與實現(xiàn)45-50
4.4 動態(tài)頁面抽取模塊50-53
4.4.1 HtmlUnit簡介50-51
4.4.2 動態(tài)頁面靜態(tài)化51-52
4.4.3 頁面抽取52-53
4.5 索引存儲模塊53-55
4.5.1 索引存儲模塊的實現(xiàn)53-54
4.5.2 增量全量更新策略54-55
4.6 本章小結(jié)55-56
第5章測試和結(jié)果分析56-63
5.1 測試環(huán)境56-57
5.2 靜態(tài)簡單頁面抽取測試57-59
5.3 靜態(tài)自相似頁面及動態(tài)頁面抽取測試59-61
5.4 本章小結(jié)61-63
第6章結(jié)束語63-65
6.1 總結(jié)63-64
6.2 展望64-65
參考文獻(xiàn)65-67
致謝67

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫前5條

1 陳少飛,郝亞南,李天柱,徐林昊,楊文柱;Web信息抽取技術(shù)研究進(jìn)展[J];河北大學(xué)學(xué)報(自然科學(xué)版);2003年01期

2 李盛韜;余智華;程學(xué)旗;白碩;;Web信息采集研究進(jìn)展[J];計算機(jī)科學(xué);2003年02期

3 李效東,顧毓清;基于DOM的Web信息提取[J];計算機(jī)學(xué)報;2002年05期

4 趙欣欣;索紅光;劉玉樹;;基于標(biāo)記窗的網(wǎng)頁正文信息提取方法[J];計算機(jī)應(yīng)用研究;2007年03期

5 馬志強(qiáng);劉利民;蘇依拉;馬瑞明;;基于Lucene的站內(nèi)搜索引擎研究[J];內(nèi)蒙古工業(yè)大學(xué)學(xué)報(自然科學(xué)版);2009年01期

本文關(guān)鍵詞：一種通用的網(wǎng)頁內(nèi)容抽取模塊的設(shè)計與實現(xiàn)，，由筆耕文化傳播整理發(fā)布。

本文編號：326863

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/guanlilunwen/ydhl/326863.html

上一篇：基于Web的管線工程三維在線審批系統(tǒng)的研究與實現(xiàn)
下一篇：網(wǎng)絡(luò)協(xié)議分析與網(wǎng)絡(luò)異常流量識別技術(shù)的研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

一種通用的網(wǎng)頁內(nèi)容抽取模塊的設(shè)計與實現(xiàn)