互聯(lián)網(wǎng)數(shù)據(jù)增量采集系統(tǒng)的設(shè)計與實現(xiàn)
發(fā)布時間:2017-10-30 01:23
本文關(guān)鍵詞:互聯(lián)網(wǎng)數(shù)據(jù)增量采集系統(tǒng)的設(shè)計與實現(xiàn)
更多相關(guān)文章: 網(wǎng)絡(luò)爬蟲 增量抓取 Heritrix index 型網(wǎng)頁
【摘要】:隨著互聯(lián)網(wǎng)的高速發(fā)展,其數(shù)據(jù)量呈指數(shù)級爆炸性增長。互聯(lián)網(wǎng)中的各類門戶網(wǎng)站、社交媒體、博客論壇每天都會產(chǎn)生大量新網(wǎng)頁新數(shù)據(jù),這些數(shù)據(jù)中可能蘊含大量有價值的信息。若能及時對這些數(shù)據(jù)進(jìn)行增量采集,并加以分析處理,提煉有價值的內(nèi)容,其意義不言而喻。增量式網(wǎng)絡(luò)爬蟲是增量采集互聯(lián)網(wǎng)數(shù)據(jù)的有力工具,設(shè)計并實現(xiàn)一個增量式爬蟲是獲取有價值信息的第一步。 互聯(lián)網(wǎng)中存在大量格式良好,頁面中鏈接更新頻率高的index型網(wǎng)頁。重點分析并采集這類網(wǎng)頁可以提高增量式網(wǎng)絡(luò)爬蟲的效率,對于從互聯(lián)網(wǎng)中發(fā)現(xiàn)新信息十分重要。本文設(shè)計并實現(xiàn)了一個針對index型網(wǎng)頁的增量式數(shù)據(jù)采集系統(tǒng)。該系統(tǒng)基于Heritrix3.1.1開發(fā),對Heritrix的增量功能進(jìn)行了改進(jìn),并實現(xiàn)了一套針對index網(wǎng)頁的的開發(fā)接口,開發(fā)者可以快速向系統(tǒng)中添加新的數(shù)據(jù)源。 本文首先對Heritrix相關(guān)技術(shù)原理進(jìn)行研究,針對Heritirx功能的不足之處提出改進(jìn)方案。然后根據(jù)index型網(wǎng)頁的特點,設(shè)計了針對這類網(wǎng)頁的增量策略。本文對網(wǎng)絡(luò)爬蟲運行時會遇到的常見問題也提出了解決方案。在本文整體設(shè)計與詳細(xì)設(shè)計相關(guān)章節(jié)中,詳細(xì)描述了互聯(lián)網(wǎng)數(shù)據(jù)增量采集系統(tǒng)的設(shè)計與實現(xiàn)過程。系統(tǒng)開發(fā)完成后,通過對其進(jìn)行大量功能與性能測試,證明系統(tǒng)達(dá)到了預(yù)期設(shè)計目標(biāo)。目前系統(tǒng)穩(wěn)定運行,增量采集了大量數(shù)據(jù),充分驗證了系統(tǒng)的可用性與可靠性。本文最后對互聯(lián)網(wǎng)增量采集系統(tǒng)相關(guān)開發(fā)工作進(jìn)行了總結(jié),指出系統(tǒng)當(dāng)前存在的不足和未來改進(jìn)方向。
【關(guān)鍵詞】:網(wǎng)絡(luò)爬蟲 增量抓取 Heritrix index 型網(wǎng)頁
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP393.092;TP274.2
【目錄】:
- 摘要4-5
- ABSTRACT5-7
- 目錄7-9
- 第一章 緒論9-13
- 1.1. 研究背景與意義9
- 1.2. 國內(nèi)外研究現(xiàn)狀9-10
- 1.3. 研究內(nèi)容與本文工作10-12
- 1.4. 論文內(nèi)容與結(jié)構(gòu)12-13
- 第二章 技術(shù)介紹與需求分析13-21
- 2.1. 技術(shù)介紹13-18
- 2.1.1. Heritrix13-17
- 2.1.2. Spring17-18
- 2.2. 需求分析18-21
- 2.2.1. 增量采集功能18
- 2.2.2. 多任務(wù)機(jī)制18-19
- 2.2.3. 快速開發(fā)接口19
- 2.2.4. 爬蟲工具包19-20
- 2.2.5. 數(shù)據(jù)存儲20-21
- 第三章 增量采集系統(tǒng)的設(shè)計21-40
- 3.1. 系統(tǒng)設(shè)計目標(biāo)21
- 3.2. 系統(tǒng)總體框架21-22
- 3.3. 系統(tǒng)功能設(shè)計22-40
- 3.3.1. 增量控制23-26
- 3.3.2. 爬蟲任務(wù)管理26-28
- 3.3.3. 快速開發(fā)接口28-32
- 3.3.4. 爬蟲工具類32-36
- 3.3.5. 增量策略36-37
- 3.3.6. 數(shù)據(jù)存儲37-38
- 3.3.7. 增量統(tǒng)計38-40
- 第四章 增量采集系統(tǒng)的實現(xiàn)40-58
- 4.1. 系統(tǒng)核心功能40-50
- 4.1.1. 爬蟲任務(wù)管理41-43
- 4.1.2. 任務(wù)配置43
- 4.1.3. 增量控制43-45
- 4.1.4. 任務(wù)開發(fā)接口45-46
- 4.1.5. 爬蟲代理46-47
- 4.1.6. 鏈接隊列47-48
- 4.1.7. js動態(tài)解析48
- 4.1.8. 增量統(tǒng)計48-49
- 4.1.9. 數(shù)據(jù)存儲49-50
- 4.2. 爬蟲任務(wù)開發(fā)50-58
- 4.2.1. 確定數(shù)據(jù)源51
- 4.2.2. 接口實現(xiàn)51-53
- 4.2.3. 任務(wù)開發(fā)過程53-58
- 第五章 系統(tǒng)應(yīng)用與測試58-66
- 5.1. 系統(tǒng)部署58-59
- 5.1.1. 部署環(huán)境58
- 5.1.2. 部署步驟58-59
- 5.2. 系統(tǒng)測試59-64
- 5.2.1. 功能測試59-62
- 5.2.2. 性能測試62-64
- 5.3. 測試總結(jié)64-66
- 第六章 總結(jié)與展望66-68
- 6.1. 總結(jié)66
- 6.2. 展望66-68
- 參考文獻(xiàn)68-70
- 致謝70-71
- 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄71
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前7條
1 孫立偉;何國輝;吳禮發(fā);;網(wǎng)絡(luò)爬蟲技術(shù)的研究[J];電腦知識與技術(shù);2010年15期
2 吳偉;陳建峽;;基于Heritrix的web信息抽取優(yōu)化與實現(xiàn)[J];湖北工業(yè)大學(xué)學(xué)報;2012年02期
3 李盛韜;余智華;程學(xué)旗;白碩;;Web信息采集研究進(jìn)展[J];計算機(jī)科學(xué);2003年02期
4 蔡欣寶;郭若飛;趙朋朋;崔志明;;Web論壇數(shù)據(jù)源增量爬蟲的研究[J];計算機(jī)工程;2010年09期
5 白萬民;蘇希樂;;Heritrix在垂直搜索引擎中的應(yīng)用[J];計算機(jī)時代;2011年09期
6 張敏;孫敏;;基于Heritrix限定爬蟲的設(shè)計與實現(xiàn)[J];計算機(jī)應(yīng)用與軟件;2013年04期
7 張皓;周學(xué)廣;;基于網(wǎng)頁去噪Hash的增量式網(wǎng)絡(luò)爬蟲研究[J];艦船電子工程;2014年02期
,本文編號:1115504
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1115504.html
最近更新
教材專著