面向多爬蟲的監(jiān)控系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時(shí)間:2017-08-07 14:02
本文關(guān)鍵詞:面向多爬蟲的監(jiān)控系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
更多相關(guān)文章: Heritrix 網(wǎng)絡(luò)爬蟲 監(jiān)控系統(tǒng) Restlet Yii
【摘要】:隨著我國(guó)網(wǎng)絡(luò)技術(shù)的快速發(fā)展,互聯(lián)網(wǎng)上的數(shù)據(jù)也成指數(shù)級(jí)的增長(zhǎng),人們?cè)絹碓疥P(guān)注如何快速有效地從網(wǎng)絡(luò)里提取出有價(jià)值的信息,使之在決策階段起到作用。這給現(xiàn)在的搜索引擎技術(shù)帶來了很大的挑戰(zhàn)。而搜索引擎的數(shù)據(jù)源是來自于網(wǎng)絡(luò)爬蟲爬取的信息,一個(gè)搜索引擎搜索結(jié)果的數(shù)量和質(zhì)量在一定程度上取決于網(wǎng)絡(luò)爬蟲爬取內(nèi)容的數(shù)量和質(zhì)量,而如何組織這些爬蟲也成了一件能影響爬蟲的爬取結(jié)果的事情。隨著在服務(wù)器上部署的爬蟲的增加,對(duì)爬蟲監(jiān)控系統(tǒng)的需求也越來越緊迫。監(jiān)控管理系統(tǒng)的部署將會(huì)給爬蟲的管理帶來很大的方便。 基于上述背景,本文提出了一個(gè)基于開源爬蟲的監(jiān)控系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)方案,幫助爬蟲管理員能在有效的時(shí)間內(nèi)分析多個(gè)爬蟲任務(wù)的狀態(tài),并能對(duì)多個(gè)分布式的爬蟲進(jìn)行控制,根據(jù)爬蟲的狀態(tài)遠(yuǎn)程地添加爬取任務(wù)等操作,提高了爬蟲管理的效率,從而更好地為項(xiàng)目組其它的功能模塊提供更好的底層數(shù)據(jù)支持。 本論文基于Yii開發(fā)框架和開源的Java爬蟲Heritrix,實(shí)現(xiàn)了一個(gè)面向多個(gè)分布式爬蟲的監(jiān)控系統(tǒng)。首先,研究了Yii開發(fā)框架和Heritrix源代碼,進(jìn)行了系統(tǒng)的需求分析,提出了面向多爬蟲監(jiān)控系統(tǒng)的邏輯架構(gòu)方案和物理部署架構(gòu)方案。其次,對(duì)系統(tǒng)的主要功能模塊進(jìn)行了劃分,并對(duì)系統(tǒng)的主要工作流程進(jìn)行了詳細(xì)的分析。之后對(duì)各個(gè)模塊進(jìn)行了具體的實(shí)現(xiàn),其中重點(diǎn)介紹了功能描述和工作原理。 最后,本文針對(duì)所實(shí)現(xiàn)的監(jiān)控系統(tǒng)進(jìn)行了詳細(xì)的測(cè)試,分別對(duì)各個(gè)功能模塊和整體進(jìn)行了詳細(xì)的功能測(cè)試。對(duì)得到的測(cè)試的結(jié)果進(jìn)行了分析,測(cè)試結(jié)果符合要求。除此之外,本文還對(duì)系統(tǒng)中不完善的地方提出了改進(jìn)的計(jì)劃。
【關(guān)鍵詞】:Heritrix 網(wǎng)絡(luò)爬蟲 監(jiān)控系統(tǒng) Restlet Yii
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP277
【目錄】:
- 摘要4-5
- ABSTRACT5-10
- 第一章 引言10-16
- 1.1 研究背景及意義10-13
- 1.2 研究?jī)?nèi)容及目標(biāo)13
- 1.3 國(guó)內(nèi)外研究現(xiàn)狀13-14
- 1.4 論文的章節(jié)安排14-15
- 1.5 本章小結(jié)15-16
- 第二章 相關(guān)技術(shù)研究16-29
- 2.1 網(wǎng)絡(luò)爬蟲Heritrix16-24
- 2.1.1 Heritrix架構(gòu)分析16-17
- 2.1.2 CrawlJob抓取任務(wù)類17
- 2.1.3 CrawlController中央控制器17-18
- 2.1.4 Frontier鏈接工廠18-20
- 2.1.5 多線程相關(guān)的ToeThread和ToePool20-22
- 2.1.6 處理鏈和Processor22-24
- 2.2 REST架構(gòu)和Restful技術(shù)24-28
- 2.2.1 REST簡(jiǎn)介24-25
- 2.2.2 RestFul Web服務(wù)的架構(gòu)25-27
- 2.2.3 RESTful Web服務(wù)框架27-28
- 2.3 Yii框架28
- 2.4 本章小結(jié)28-29
- 第三章 爬蟲監(jiān)控系統(tǒng)的需求分析29-34
- 3.1 需求概述29
- 3.2 運(yùn)行環(huán)境需求29
- 3.2.1 硬件環(huán)境需求29
- 3.2.2 軟件環(huán)境需求29
- 3.3 功能需求29-32
- 3.3.1 爬蟲的狀態(tài)監(jiān)控功能29-30
- 3.3.2 爬取結(jié)果的可視化展示功能30
- 3.3.3 動(dòng)態(tài)新增加任務(wù)的功能30-31
- 3.3.4 爬蟲異常警告功能31
- 3.3.5 監(jiān)控系統(tǒng)的權(quán)限控制31
- 3.3.6 針對(duì)爬蟲的缺點(diǎn)進(jìn)行的改造31-32
- 3.4 其他需求32-33
- 3.4.1 可定制性32
- 3.4.2 用戶友好性32
- 3.4.3 可擴(kuò)展性32-33
- 3.4.4 可靠性33
- 3.5 本章小結(jié)33-34
- 第四章 爬蟲監(jiān)控系統(tǒng)的整體設(shè)計(jì)34-44
- 4.1 邏輯架構(gòu)設(shè)計(jì)34-35
- 4.2 物理部署架構(gòu)設(shè)計(jì)35-37
- 4.3 系統(tǒng)的主要工作流程37-40
- 4.3.1 單機(jī)Heritrix爬蟲的工作流程37-38
- 4.3.2 多爬蟲監(jiān)控系統(tǒng)的工作流程38-40
- 4.4 功能模塊劃分40-42
- 4.5 重要的數(shù)據(jù)表設(shè)計(jì)42-43
- 4.6 本章小結(jié)43-44
- 第五章 爬蟲監(jiān)控系統(tǒng)的具體實(shí)現(xiàn)44-62
- 5.1 監(jiān)控系統(tǒng)前端模塊44-49
- 5.1.1 功能概述44
- 5.1.2 工作原理44-49
- 5.2 狀態(tài)監(jiān)控模塊49-53
- 5.2.1 功能概述49
- 5.2.2 工作原理49-53
- 5.3 動(dòng)態(tài)新增加任務(wù)模塊53-56
- 5.3.1 功能概述53
- 5.3.2 工作原理53-56
- 5.4 異常告警模塊56-59
- 5.4.1 功能概述56-57
- 5.4.2 工作原理57-59
- 5.5 其它模塊59-61
- 5.6 本章小結(jié)61-62
- 第六章 測(cè)試和結(jié)果分析62-67
- 6.1 測(cè)試環(huán)境62-63
- 6.1.1 硬件環(huán)境62
- 6.1.2 軟件環(huán)境62-63
- 6.2 系統(tǒng)功能測(cè)試63-66
- 6.2.1 監(jiān)控系統(tǒng)前端模塊測(cè)試63-64
- 6.2.2 狀態(tài)控制模塊測(cè)試64
- 6.2.3 動(dòng)態(tài)新增加任務(wù)模塊測(cè)試64-65
- 6.2.4 總體功能測(cè)試65-66
- 6.3 測(cè)試結(jié)論66-67
- 第七章 總結(jié)與展望67-69
- 7.1 本論文工作總結(jié)67
- 7.2 下一步工作計(jì)劃67-69
- 參考文獻(xiàn)69-71
- 致謝71-72
- 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文72
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫 前3條
1 趙永鑫;雷霖;;Heritrix在電子信息垂直搜索平臺(tái)中的應(yīng)用[J];成都大學(xué)學(xué)報(bào)(自然科學(xué)版);2013年02期
2 閔超;汪豐;朱家煜;;遠(yuǎn)程高血壓管理平臺(tái)的設(shè)計(jì)與構(gòu)建[J];工業(yè)控制計(jì)算機(jī);2014年06期
3 金嬋鳴;徐東平;;搜索引擎系統(tǒng)中網(wǎng)頁抓取模塊研究[J];現(xiàn)代計(jì)算機(jī)(專業(yè)版);2010年03期
,本文編號(hào):635000
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/635000.html
最近更新
教材專著