天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

互聯(lián)網(wǎng)數(shù)據(jù)增量采集系統(tǒng)的設(shè)計與實現(xiàn)

發(fā)布時間:2017-10-30 01:23

  本文關(guān)鍵詞:互聯(lián)網(wǎng)數(shù)據(jù)增量采集系統(tǒng)的設(shè)計與實現(xiàn)


  更多相關(guān)文章: 網(wǎng)絡(luò)爬蟲 增量抓取 Heritrix index 型網(wǎng)頁


【摘要】:隨著互聯(lián)網(wǎng)的高速發(fā)展,其數(shù)據(jù)量呈指數(shù)級爆炸性增長。互聯(lián)網(wǎng)中的各類門戶網(wǎng)站、社交媒體、博客論壇每天都會產(chǎn)生大量新網(wǎng)頁新數(shù)據(jù),這些數(shù)據(jù)中可能蘊含大量有價值的信息。若能及時對這些數(shù)據(jù)進(jìn)行增量采集,并加以分析處理,提煉有價值的內(nèi)容,其意義不言而喻。增量式網(wǎng)絡(luò)爬蟲是增量采集互聯(lián)網(wǎng)數(shù)據(jù)的有力工具,設(shè)計并實現(xiàn)一個增量式爬蟲是獲取有價值信息的第一步。 互聯(lián)網(wǎng)中存在大量格式良好,頁面中鏈接更新頻率高的index型網(wǎng)頁。重點分析并采集這類網(wǎng)頁可以提高增量式網(wǎng)絡(luò)爬蟲的效率,對于從互聯(lián)網(wǎng)中發(fā)現(xiàn)新信息十分重要。本文設(shè)計并實現(xiàn)了一個針對index型網(wǎng)頁的增量式數(shù)據(jù)采集系統(tǒng)。該系統(tǒng)基于Heritrix3.1.1開發(fā),對Heritrix的增量功能進(jìn)行了改進(jìn),并實現(xiàn)了一套針對index網(wǎng)頁的的開發(fā)接口,開發(fā)者可以快速向系統(tǒng)中添加新的數(shù)據(jù)源。 本文首先對Heritrix相關(guān)技術(shù)原理進(jìn)行研究,針對Heritirx功能的不足之處提出改進(jìn)方案。然后根據(jù)index型網(wǎng)頁的特點,設(shè)計了針對這類網(wǎng)頁的增量策略。本文對網(wǎng)絡(luò)爬蟲運行時會遇到的常見問題也提出了解決方案。在本文整體設(shè)計與詳細(xì)設(shè)計相關(guān)章節(jié)中,詳細(xì)描述了互聯(lián)網(wǎng)數(shù)據(jù)增量采集系統(tǒng)的設(shè)計與實現(xiàn)過程。系統(tǒng)開發(fā)完成后,通過對其進(jìn)行大量功能與性能測試,證明系統(tǒng)達(dá)到了預(yù)期設(shè)計目標(biāo)。目前系統(tǒng)穩(wěn)定運行,增量采集了大量數(shù)據(jù),充分驗證了系統(tǒng)的可用性與可靠性。本文最后對互聯(lián)網(wǎng)增量采集系統(tǒng)相關(guān)開發(fā)工作進(jìn)行了總結(jié),指出系統(tǒng)當(dāng)前存在的不足和未來改進(jìn)方向。
【關(guān)鍵詞】:網(wǎng)絡(luò)爬蟲 增量抓取 Heritrix index 型網(wǎng)頁
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP393.092;TP274.2
【目錄】:
  • 摘要4-5
  • ABSTRACT5-7
  • 目錄7-9
  • 第一章 緒論9-13
  • 1.1. 研究背景與意義9
  • 1.2. 國內(nèi)外研究現(xiàn)狀9-10
  • 1.3. 研究內(nèi)容與本文工作10-12
  • 1.4. 論文內(nèi)容與結(jié)構(gòu)12-13
  • 第二章 技術(shù)介紹與需求分析13-21
  • 2.1. 技術(shù)介紹13-18
  • 2.1.1. Heritrix13-17
  • 2.1.2. Spring17-18
  • 2.2. 需求分析18-21
  • 2.2.1. 增量采集功能18
  • 2.2.2. 多任務(wù)機(jī)制18-19
  • 2.2.3. 快速開發(fā)接口19
  • 2.2.4. 爬蟲工具包19-20
  • 2.2.5. 數(shù)據(jù)存儲20-21
  • 第三章 增量采集系統(tǒng)的設(shè)計21-40
  • 3.1. 系統(tǒng)設(shè)計目標(biāo)21
  • 3.2. 系統(tǒng)總體框架21-22
  • 3.3. 系統(tǒng)功能設(shè)計22-40
  • 3.3.1. 增量控制23-26
  • 3.3.2. 爬蟲任務(wù)管理26-28
  • 3.3.3. 快速開發(fā)接口28-32
  • 3.3.4. 爬蟲工具類32-36
  • 3.3.5. 增量策略36-37
  • 3.3.6. 數(shù)據(jù)存儲37-38
  • 3.3.7. 增量統(tǒng)計38-40
  • 第四章 增量采集系統(tǒng)的實現(xiàn)40-58
  • 4.1. 系統(tǒng)核心功能40-50
  • 4.1.1. 爬蟲任務(wù)管理41-43
  • 4.1.2. 任務(wù)配置43
  • 4.1.3. 增量控制43-45
  • 4.1.4. 任務(wù)開發(fā)接口45-46
  • 4.1.5. 爬蟲代理46-47
  • 4.1.6. 鏈接隊列47-48
  • 4.1.7. js動態(tài)解析48
  • 4.1.8. 增量統(tǒng)計48-49
  • 4.1.9. 數(shù)據(jù)存儲49-50
  • 4.2. 爬蟲任務(wù)開發(fā)50-58
  • 4.2.1. 確定數(shù)據(jù)源51
  • 4.2.2. 接口實現(xiàn)51-53
  • 4.2.3. 任務(wù)開發(fā)過程53-58
  • 第五章 系統(tǒng)應(yīng)用與測試58-66
  • 5.1. 系統(tǒng)部署58-59
  • 5.1.1. 部署環(huán)境58
  • 5.1.2. 部署步驟58-59
  • 5.2. 系統(tǒng)測試59-64
  • 5.2.1. 功能測試59-62
  • 5.2.2. 性能測試62-64
  • 5.3. 測試總結(jié)64-66
  • 第六章 總結(jié)與展望66-68
  • 6.1. 總結(jié)66
  • 6.2. 展望66-68
  • 參考文獻(xiàn)68-70
  • 致謝70-71
  • 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄71

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前7條

1 孫立偉;何國輝;吳禮發(fā);;網(wǎng)絡(luò)爬蟲技術(shù)的研究[J];電腦知識與技術(shù);2010年15期

2 吳偉;陳建峽;;基于Heritrix的web信息抽取優(yōu)化與實現(xiàn)[J];湖北工業(yè)大學(xué)學(xué)報;2012年02期

3 李盛韜;余智華;程學(xué)旗;白碩;;Web信息采集研究進(jìn)展[J];計算機(jī)科學(xué);2003年02期

4 蔡欣寶;郭若飛;趙朋朋;崔志明;;Web論壇數(shù)據(jù)源增量爬蟲的研究[J];計算機(jī)工程;2010年09期

5 白萬民;蘇希樂;;Heritrix在垂直搜索引擎中的應(yīng)用[J];計算機(jī)時代;2011年09期

6 張敏;孫敏;;基于Heritrix限定爬蟲的設(shè)計與實現(xiàn)[J];計算機(jī)應(yīng)用與軟件;2013年04期

7 張皓;周學(xué)廣;;基于網(wǎng)頁去噪Hash的增量式網(wǎng)絡(luò)爬蟲研究[J];艦船電子工程;2014年02期

,

本文編號:1115504

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1115504.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶70e4c***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com