面向多爬蟲的監(jiān)控系統(tǒng)的設計與實現(xiàn)
發(fā)布時間:2017-08-07 14:02
本文關(guān)鍵詞:面向多爬蟲的監(jiān)控系統(tǒng)的設計與實現(xiàn)
更多相關(guān)文章: Heritrix 網(wǎng)絡爬蟲 監(jiān)控系統(tǒng) Restlet Yii
【摘要】:隨著我國網(wǎng)絡技術(shù)的快速發(fā)展,互聯(lián)網(wǎng)上的數(shù)據(jù)也成指數(shù)級的增長,人們越來越關(guān)注如何快速有效地從網(wǎng)絡里提取出有價值的信息,使之在決策階段起到作用。這給現(xiàn)在的搜索引擎技術(shù)帶來了很大的挑戰(zhàn)。而搜索引擎的數(shù)據(jù)源是來自于網(wǎng)絡爬蟲爬取的信息,一個搜索引擎搜索結(jié)果的數(shù)量和質(zhì)量在一定程度上取決于網(wǎng)絡爬蟲爬取內(nèi)容的數(shù)量和質(zhì)量,而如何組織這些爬蟲也成了一件能影響爬蟲的爬取結(jié)果的事情。隨著在服務器上部署的爬蟲的增加,對爬蟲監(jiān)控系統(tǒng)的需求也越來越緊迫。監(jiān)控管理系統(tǒng)的部署將會給爬蟲的管理帶來很大的方便。 基于上述背景,本文提出了一個基于開源爬蟲的監(jiān)控系統(tǒng)的設計和實現(xiàn)方案,幫助爬蟲管理員能在有效的時間內(nèi)分析多個爬蟲任務的狀態(tài),并能對多個分布式的爬蟲進行控制,根據(jù)爬蟲的狀態(tài)遠程地添加爬取任務等操作,提高了爬蟲管理的效率,從而更好地為項目組其它的功能模塊提供更好的底層數(shù)據(jù)支持。 本論文基于Yii開發(fā)框架和開源的Java爬蟲Heritrix,實現(xiàn)了一個面向多個分布式爬蟲的監(jiān)控系統(tǒng)。首先,研究了Yii開發(fā)框架和Heritrix源代碼,進行了系統(tǒng)的需求分析,提出了面向多爬蟲監(jiān)控系統(tǒng)的邏輯架構(gòu)方案和物理部署架構(gòu)方案。其次,對系統(tǒng)的主要功能模塊進行了劃分,并對系統(tǒng)的主要工作流程進行了詳細的分析。之后對各個模塊進行了具體的實現(xiàn),其中重點介紹了功能描述和工作原理。 最后,本文針對所實現(xiàn)的監(jiān)控系統(tǒng)進行了詳細的測試,分別對各個功能模塊和整體進行了詳細的功能測試。對得到的測試的結(jié)果進行了分析,測試結(jié)果符合要求。除此之外,本文還對系統(tǒng)中不完善的地方提出了改進的計劃。
【關(guān)鍵詞】:Heritrix 網(wǎng)絡爬蟲 監(jiān)控系統(tǒng) Restlet Yii
【學位授予單位】:北京郵電大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP277
【目錄】:
- 摘要4-5
- ABSTRACT5-10
- 第一章 引言10-16
- 1.1 研究背景及意義10-13
- 1.2 研究內(nèi)容及目標13
- 1.3 國內(nèi)外研究現(xiàn)狀13-14
- 1.4 論文的章節(jié)安排14-15
- 1.5 本章小結(jié)15-16
- 第二章 相關(guān)技術(shù)研究16-29
- 2.1 網(wǎng)絡爬蟲Heritrix16-24
- 2.1.1 Heritrix架構(gòu)分析16-17
- 2.1.2 CrawlJob抓取任務類17
- 2.1.3 CrawlController中央控制器17-18
- 2.1.4 Frontier鏈接工廠18-20
- 2.1.5 多線程相關(guān)的ToeThread和ToePool20-22
- 2.1.6 處理鏈和Processor22-24
- 2.2 REST架構(gòu)和Restful技術(shù)24-28
- 2.2.1 REST簡介24-25
- 2.2.2 RestFul Web服務的架構(gòu)25-27
- 2.2.3 RESTful Web服務框架27-28
- 2.3 Yii框架28
- 2.4 本章小結(jié)28-29
- 第三章 爬蟲監(jiān)控系統(tǒng)的需求分析29-34
- 3.1 需求概述29
- 3.2 運行環(huán)境需求29
- 3.2.1 硬件環(huán)境需求29
- 3.2.2 軟件環(huán)境需求29
- 3.3 功能需求29-32
- 3.3.1 爬蟲的狀態(tài)監(jiān)控功能29-30
- 3.3.2 爬取結(jié)果的可視化展示功能30
- 3.3.3 動態(tài)新增加任務的功能30-31
- 3.3.4 爬蟲異常警告功能31
- 3.3.5 監(jiān)控系統(tǒng)的權(quán)限控制31
- 3.3.6 針對爬蟲的缺點進行的改造31-32
- 3.4 其他需求32-33
- 3.4.1 可定制性32
- 3.4.2 用戶友好性32
- 3.4.3 可擴展性32-33
- 3.4.4 可靠性33
- 3.5 本章小結(jié)33-34
- 第四章 爬蟲監(jiān)控系統(tǒng)的整體設計34-44
- 4.1 邏輯架構(gòu)設計34-35
- 4.2 物理部署架構(gòu)設計35-37
- 4.3 系統(tǒng)的主要工作流程37-40
- 4.3.1 單機Heritrix爬蟲的工作流程37-38
- 4.3.2 多爬蟲監(jiān)控系統(tǒng)的工作流程38-40
- 4.4 功能模塊劃分40-42
- 4.5 重要的數(shù)據(jù)表設計42-43
- 4.6 本章小結(jié)43-44
- 第五章 爬蟲監(jiān)控系統(tǒng)的具體實現(xiàn)44-62
- 5.1 監(jiān)控系統(tǒng)前端模塊44-49
- 5.1.1 功能概述44
- 5.1.2 工作原理44-49
- 5.2 狀態(tài)監(jiān)控模塊49-53
- 5.2.1 功能概述49
- 5.2.2 工作原理49-53
- 5.3 動態(tài)新增加任務模塊53-56
- 5.3.1 功能概述53
- 5.3.2 工作原理53-56
- 5.4 異常告警模塊56-59
- 5.4.1 功能概述56-57
- 5.4.2 工作原理57-59
- 5.5 其它模塊59-61
- 5.6 本章小結(jié)61-62
- 第六章 測試和結(jié)果分析62-67
- 6.1 測試環(huán)境62-63
- 6.1.1 硬件環(huán)境62
- 6.1.2 軟件環(huán)境62-63
- 6.2 系統(tǒng)功能測試63-66
- 6.2.1 監(jiān)控系統(tǒng)前端模塊測試63-64
- 6.2.2 狀態(tài)控制模塊測試64
- 6.2.3 動態(tài)新增加任務模塊測試64-65
- 6.2.4 總體功能測試65-66
- 6.3 測試結(jié)論66-67
- 第七章 總結(jié)與展望67-69
- 7.1 本論文工作總結(jié)67
- 7.2 下一步工作計劃67-69
- 參考文獻69-71
- 致謝71-72
- 攻讀學位期間發(fā)表的學術(shù)論文72
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前3條
1 趙永鑫;雷霖;;Heritrix在電子信息垂直搜索平臺中的應用[J];成都大學學報(自然科學版);2013年02期
2 閔超;汪豐;朱家煜;;遠程高血壓管理平臺的設計與構(gòu)建[J];工業(yè)控制計算機;2014年06期
3 金嬋鳴;徐東平;;搜索引擎系統(tǒng)中網(wǎng)頁抓取模塊研究[J];現(xiàn)代計算機(專業(yè)版);2010年03期
,本文編號:635000
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/635000.html
最近更新
教材專著