基于Chrome瀏覽器插件的爬蟲系統(tǒng)
本文關(guān)鍵詞:基于Chrome瀏覽器插件的爬蟲系統(tǒng)
更多相關(guān)文章: 網(wǎng)絡(luò)爬蟲 Chrome擴(kuò)展 JavaScript Netty 主從庫(kù)
【摘要】:隨著大數(shù)據(jù)時(shí)代的來(lái)臨,網(wǎng)絡(luò)信息以“爆炸”的方式增長(zhǎng),以新浪微博為例,其日均微博更新多達(dá)1.2億條,但在信息空前豐富的前提下,用戶獲取自己需要數(shù)據(jù)的難度也日趨增加。傳統(tǒng)搜索引擎如百度、Google等提供的零散結(jié)果已經(jīng)不能滿足用戶的需求,人們不論在專業(yè)數(shù)據(jù)分析還是在日常生活方面更需要的是經(jīng)過(guò)有效整合的數(shù)據(jù),整合互聯(lián)網(wǎng)數(shù)據(jù)要使用網(wǎng)絡(luò)爬蟲技術(shù)。然而目前常用的網(wǎng)絡(luò)爬蟲系統(tǒng)開發(fā)難度大,穩(wěn)定性差并且使用不友好,已經(jīng)不能滿足當(dāng)今用戶的需求,因此研究設(shè)計(jì)一種開發(fā)擴(kuò)展簡(jiǎn)單,穩(wěn)定性高,適用范圍廣以及使用友好的網(wǎng)絡(luò)爬蟲系統(tǒng)具有非常重要的價(jià)值。本文先研究了國(guó)內(nèi)外現(xiàn)有網(wǎng)絡(luò)爬蟲技術(shù)、網(wǎng)絡(luò)爬蟲系統(tǒng)和反爬蟲策略的現(xiàn)狀,分析了現(xiàn)有網(wǎng)絡(luò)爬蟲系統(tǒng)實(shí)現(xiàn)過(guò)程復(fù)雜、穩(wěn)定性差和使用不友好的原因,并且基于此提出了基于Chrome擴(kuò)展的網(wǎng)絡(luò)爬蟲系統(tǒng)。其次,為了滿足不同的需求和發(fā)揮互聯(lián)網(wǎng)的優(yōu)勢(shì),提出了在基于Chrome擴(kuò)展的網(wǎng)絡(luò)爬蟲系統(tǒng)中實(shí)現(xiàn)兩種信息抓取模塊,分別是個(gè)人版信息抓取模塊和服務(wù)器版信息抓取模塊。最后,為了支持個(gè)人版信息抓取模塊對(duì)中央服務(wù)器模塊的高并發(fā)性需求,提出了基于Netty框架實(shí)現(xiàn)的中央服務(wù)器模塊和采用主從庫(kù)配置的數(shù)據(jù)庫(kù)模塊,并且為了在有更多新需求的情況下中央服務(wù)器模塊能夠更好的進(jìn)行擴(kuò)展,本文采用了面向接口編程并且引入了Spring框架來(lái)管理中央服務(wù)器模塊的類之間的依賴。本文設(shè)計(jì)和實(shí)現(xiàn)的網(wǎng)絡(luò)爬蟲系統(tǒng),不僅開發(fā)過(guò)程容易,擴(kuò)展方便,支持網(wǎng)頁(yè)類型多——包括普通靜態(tài)網(wǎng)頁(yè)、異步加載網(wǎng)頁(yè)和動(dòng)態(tài)生成信息,而且個(gè)人版信息抓取模塊還可以最大化的發(fā)揮互聯(lián)網(wǎng)的優(yōu)勢(shì),利用每個(gè)網(wǎng)絡(luò)爬蟲用戶來(lái)抓取信息。系統(tǒng)測(cè)試結(jié)果表明預(yù)期結(jié)果得以實(shí)現(xiàn),并且在使用友好度、高可用性方面有很大的提高。
【關(guān)鍵詞】:網(wǎng)絡(luò)爬蟲 Chrome擴(kuò)展 JavaScript Netty 主從庫(kù)
【學(xué)位授予單位】:東華大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP393.092;TP391.1
【目錄】:
- 摘要4-6
- ABSTRACT6-11
- 第一章 緒論11-17
- 1.1 研究背景與意義11-13
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀13-14
- 1.3 研究?jī)?nèi)容及研究目標(biāo)14-15
- 1.4 本文的組織結(jié)構(gòu)15-17
- 第二章 相關(guān)技術(shù)介紹17-31
- 2.1 網(wǎng)絡(luò)爬蟲技術(shù)與反爬蟲策略17-21
- 2.1.1 網(wǎng)絡(luò)爬蟲技術(shù)17-19
- 2.1.2 反爬蟲策略19-21
- 2.2 Chrome瀏覽器介紹21-22
- 2.3 Chrome擴(kuò)展技術(shù)介紹22-28
- 2.3.1 content_scripts23-25
- 2.3.2 background25
- 2.3.3 permissions25-26
- 2.3.4 Chrome擴(kuò)展頁(yè)面間的通信26-27
- 2.3.5 Chrome擴(kuò)展舉例27-28
- 2.4 Netty框架與Spring框架28-30
- 2.4.1 Netty框架28-29
- 2.4.2 Spring29-30
- 2.5 本章總結(jié)30-31
- 第三章 系統(tǒng)概要設(shè)計(jì)31-38
- 3.1 系統(tǒng)需求分析31-33
- 3.1.1 需求分析31-33
- 3.1.2 系統(tǒng)目標(biāo)33
- 3.2 系統(tǒng)概要設(shè)計(jì)33-37
- 3.2.1 信息抓取模塊34-35
- 3.2.2 中央服務(wù)器模塊35-36
- 3.2.3 主從數(shù)據(jù)庫(kù)模塊36-37
- 3.3 本章小結(jié)37-38
- 第四章 系統(tǒng)詳細(xì)設(shè)計(jì)38-46
- 4.1 模塊間交互設(shè)計(jì)38
- 4.2 信息抓取模塊38-42
- 4.2.1 與中央服務(wù)器模塊交互功能39-40
- 4.2.2 頁(yè)面信息提取40
- 4.2.3 測(cè)試功能40
- 4.2.4 待抓取頁(yè)面管理40-41
- 4.2.5 瀏覽器Tab管理41
- 4.2.6 日志監(jiān)控41-42
- 4.2.7 信息抓取模塊包設(shè)計(jì)42
- 4.3 中央服務(wù)器模塊42-45
- 4.3.1 JDBC封裝42-43
- 4.3.2 Exception封裝43
- 4.3.3 參數(shù)驗(yàn)證43
- 4.3.4 圖片相關(guān)功能43-44
- 4.3.5 數(shù)據(jù)去重44
- 4.3.6 業(yè)務(wù)邏輯44
- 4.3.7 測(cè)試功能44-45
- 4.4 本章小結(jié)45-46
- 第五章 系統(tǒng)實(shí)現(xiàn)46-57
- 5.1 系統(tǒng)實(shí)現(xiàn)概述46-47
- 5.2 信息抓取模塊47-52
- 5.2.1 JQuery包47-48
- 5.2.2 基礎(chǔ)文件48
- 5.2.3 后臺(tái)運(yùn)行文件48
- 5.2.4 信息提取腳本48-50
- 5.2.5 manifest.json配置50-51
- 5.2.6 測(cè)試51-52
- 5.3 中央服務(wù)器模塊52-54
- 5.3.1 共用功能52
- 5.3.2 業(yè)務(wù)邏輯52-53
- 5.3.3 測(cè)試53-54
- 5.4 主從庫(kù)模塊54-56
- 5.4.1 主庫(kù)授予從庫(kù)復(fù)制權(quán)限54
- 5.4.2 修改主庫(kù)的配置文件54-55
- 5.4.3 修改從庫(kù)的配置文件55
- 5.4.4 從庫(kù)啟動(dòng)復(fù)制55
- 5.4.5 測(cè)試55-56
- 5.5 本章小結(jié)56-57
- 第六章 系統(tǒng)驗(yàn)證57-63
- 6.1 實(shí)驗(yàn)準(zhǔn)備57
- 6.1.1 實(shí)驗(yàn)環(huán)境57
- 6.1.2 預(yù)期目標(biāo)57
- 6.2 信息抓取模塊部署57-58
- 6.3 結(jié)果驗(yàn)證58-60
- 6.4 系統(tǒng)優(yōu)缺點(diǎn)60-61
- 6.5 本章小結(jié)61-63
- 第七章 總結(jié)與展望63-65
- 7.1 總結(jié)63-64
- 7.2 展望64-65
- 參考文獻(xiàn)65-68
- 攻讀學(xué)位期間的研究成果目錄68-69
- 致謝69
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前5條
1 郭小丹;;幾種開源網(wǎng)絡(luò)爬蟲功能比較[J];黑龍江科技信息;2015年25期
2 徐金虎;宋斌;丁銳;;Spring MVC+Hibernate+jQeury模式開發(fā)框架應(yīng)用研究[J];自動(dòng)化技術(shù)與應(yīng)用;2015年03期
3 潘杰;周傳生;;基于jQuery框架的Web研究與實(shí)現(xiàn)[J];沈陽(yáng)師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2015年01期
4 張偉麗;江春華;魏勁超;;MySQL復(fù)制技術(shù)的研究及應(yīng)用[J];計(jì)算機(jī)科學(xué);2012年S3期
5 周立柱,林玲;聚焦爬蟲技術(shù)研究綜述[J];計(jì)算機(jī)應(yīng)用;2005年09期
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前6條
1 呂陽(yáng);分布式網(wǎng)絡(luò)爬蟲系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2013年
2 鄔柏;支持AJAX的分布式爬蟲系統(tǒng)的研究與實(shí)現(xiàn)[D];華中科技大學(xué);2013年
3 楊竹;金融數(shù)據(jù)Web抓取及處理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];北京交通大學(xué);2012年
4 吳海青;基于Webkit內(nèi)核的手機(jī)瀏覽器的設(shè)計(jì)與實(shí)現(xiàn)[D];北京郵電大學(xué);2011年
5 劉喜亮;面向主題的網(wǎng)絡(luò)爬蟲設(shè)計(jì)與實(shí)現(xiàn)[D];湖南大學(xué);2009年
6 羅兵;支持AJAX的互聯(lián)網(wǎng)搜索引擎爬蟲設(shè)計(jì)與實(shí)現(xiàn)[D];浙江大學(xué);2007年
,本文編號(hào):555466
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/555466.html