一種通用的網(wǎng)頁(yè)內(nèi)容抽取模塊的設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時(shí)間:2017-04-25 19:03
本文關(guān)鍵詞:一種通用的網(wǎng)頁(yè)內(nèi)容抽取模塊的設(shè)計(jì)與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
【摘要】:經(jīng)過(guò)數(shù)十年的飛速發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為最主要的信息存儲(chǔ)容器,而互聯(lián)網(wǎng)中絕大部分信息都以HTML頁(yè)面形式存在,然而HTML頁(yè)面中信息本身與信息的展現(xiàn)方式(HTML代碼)混雜在一起而沒(méi)有明確的界限,如果脫離了頁(yè)面信息也就失去了使用價(jià)值。本文介紹了一種可以將頁(yè)面中的信息成功抽取并結(jié)構(gòu)化存儲(chǔ)的方案,旨在賦予互聯(lián)網(wǎng)網(wǎng)頁(yè)中信息二次利用的價(jià)值。 本文針對(duì)結(jié)構(gòu)化頁(yè)面提出了一種通用的內(nèi)容抽取方案。結(jié)構(gòu)化頁(yè)面根據(jù)不同展現(xiàn)形式可分為三類:靜態(tài)簡(jiǎn)單頁(yè)面,靜態(tài)自相似頁(yè)面和動(dòng)態(tài)頁(yè)面。本文針對(duì)不同類型頁(yè)面采用并實(shí)現(xiàn)了三種抽取方法: (1)靜態(tài)簡(jiǎn)單頁(yè)面的抽取主要基于XML配置文件,通過(guò)配置節(jié)點(diǎn)信息以及字段描述,完成頁(yè)面信息的抽取。 (2)靜態(tài)自相似頁(yè)面主要是指列表類的頁(yè)面,關(guān)鍵在于抽取出列表里面的信息,找到頁(yè)面中每個(gè)列表項(xiàng)的位置,完成列表內(nèi)信息的抽取。 (3)動(dòng)態(tài)頁(yè)面主要是指在用戶瀏覽時(shí)頁(yè)面的展示信息與展示方式會(huì)動(dòng)態(tài)發(fā)生變化的頁(yè)面。需要模擬瀏覽器環(huán)境先將動(dòng)態(tài)頁(yè)面靜態(tài)化,再按照靜態(tài)頁(yè)面抽取方法抽取。 最后本文以新聞詳情頁(yè)測(cè)試了靜態(tài)簡(jiǎn)單頁(yè)面的抽取結(jié)果,以動(dòng)態(tài)加載的新聞列表頁(yè)測(cè)試了靜態(tài)自相似頁(yè)面以及動(dòng)態(tài)網(wǎng)頁(yè)的抽取效果,并測(cè)試了系統(tǒng)抽取大量頁(yè)面時(shí)的時(shí)間耗費(fèi)情況。
【關(guān)鍵詞】:HTML 格式化 信息抽取 Ajax 網(wǎng)頁(yè)內(nèi)容
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP393.092;TP391.1
【目錄】:
- 摘要4-5
- ABSTRACT5-9
- 第1章 緒論9-14
- 1.1 課題背景和意義9
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀9-11
- 1.3 實(shí)際項(xiàng)目需求11
- 1.4 研究?jī)?nèi)容11-13
- 1.4.1 頁(yè)面格式化抽取11-12
- 1.4.2 頁(yè)面數(shù)據(jù)來(lái)源12-13
- 1.4.3 抽取結(jié)果的保存13
- 1.5 論文結(jié)構(gòu)安排13-14
- 第2章 相關(guān)技術(shù)14-25
- 2.1 頁(yè)面格式化抽取14-16
- 2.1.1 格式化抽取的含義14
- 2.1.2 格式化抽取技術(shù)14-16
- 2.2 DOM16-21
- 2.2.1 DOM簡(jiǎn)介16-19
- 2.2.2 JSoup簡(jiǎn)介19-20
- 2.2.3 SAX簡(jiǎn)介20-21
- 2.3 Ajax框架21-23
- 2.3.1 Ajax簡(jiǎn)介21-22
- 2.3.2 Ajax的工作原理22
- 2.3.3 Ajax給頁(yè)面抽取帶來(lái)的挑戰(zhàn)22-23
- 2.4 本章小結(jié)23-25
- 第3章 頁(yè)面抽取模塊的設(shè)計(jì)25-37
- 3.1 抽取流程設(shè)計(jì)25-32
- 3.1.1 頁(yè)面獲取與過(guò)濾26
- 3.1.2 頁(yè)面解析與抽取26-32
- 3.1.3 頁(yè)面索引與存儲(chǔ)32
- 3.2 系統(tǒng)模型設(shè)計(jì)32-34
- 3.2.1 抽取模塊33
- 3.2.2 索引模塊33-34
- 3.3 系統(tǒng)流程優(yōu)化34-36
- 3.3.1 流程分析34
- 3.3.2 流程優(yōu)化34-36
- 3.4 本章小結(jié)36-37
- 第4章 頁(yè)面抽取模塊的實(shí)現(xiàn)37-56
- 4.1 系統(tǒng)主體的實(shí)現(xiàn)37-39
- 4.1.1 抽取系統(tǒng)主體設(shè)計(jì)37-38
- 4.1.2 并行抽取方法的詳細(xì)設(shè)計(jì)38-39
- 4.2 靜態(tài)簡(jiǎn)單頁(yè)面抽取模塊39-45
- 4.2.1 配置文件的設(shè)計(jì)與實(shí)現(xiàn)39-42
- 4.2.2 抽取過(guò)程的實(shí)現(xiàn)42-45
- 4.3 靜態(tài)自相似頁(yè)面抽取模塊45-50
- 4.3.1 配置文件的設(shè)計(jì)與實(shí)現(xiàn)45
- 4.3.2 抽取流程的詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)45-50
- 4.4 動(dòng)態(tài)頁(yè)面抽取模塊50-53
- 4.4.1 HtmlUnit簡(jiǎn)介50-51
- 4.4.2 動(dòng)態(tài)頁(yè)面靜態(tài)化51-52
- 4.4.3 頁(yè)面抽取52-53
- 4.5 索引存儲(chǔ)模塊53-55
- 4.5.1 索引存儲(chǔ)模塊的實(shí)現(xiàn)53-54
- 4.5.2 增量全量更新策略54-55
- 4.6 本章小結(jié)55-56
- 第5章 測(cè)試和結(jié)果分析56-63
- 5.1 測(cè)試環(huán)境56-57
- 5.2 靜態(tài)簡(jiǎn)單頁(yè)面抽取測(cè)試57-59
- 5.3 靜態(tài)自相似頁(yè)面及動(dòng)態(tài)頁(yè)面抽取測(cè)試59-61
- 5.4 本章小結(jié)61-63
- 第6章 結(jié)束語(yǔ)63-65
- 6.1 總結(jié)63-64
- 6.2 展望64-65
- 參考文獻(xiàn)65-67
- 致謝67
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前5條
1 陳少飛,郝亞南,李天柱,徐林昊,楊文柱;Web信息抽取技術(shù)研究進(jìn)展[J];河北大學(xué)學(xué)報(bào)(自然科學(xué)版);2003年01期
2 李盛韜;余智華;程學(xué)旗;白碩;;Web信息采集研究進(jìn)展[J];計(jì)算機(jī)科學(xué);2003年02期
3 李效東,顧毓清;基于DOM的Web信息提取[J];計(jì)算機(jī)學(xué)報(bào);2002年05期
4 趙欣欣;索紅光;劉玉樹;;基于標(biāo)記窗的網(wǎng)頁(yè)正文信息提取方法[J];計(jì)算機(jī)應(yīng)用研究;2007年03期
5 馬志強(qiáng);劉利民;蘇依拉;馬瑞明;;基于Lucene的站內(nèi)搜索引擎研究[J];內(nèi)蒙古工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年01期
本文關(guān)鍵詞:一種通用的網(wǎng)頁(yè)內(nèi)容抽取模塊的設(shè)計(jì)與實(shí)現(xiàn),,由筆耕文化傳播整理發(fā)布。
本文編號(hào):326863
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/326863.html
最近更新
教材專著