基于Scrapy框架的分布式爬蟲系統(tǒng)設(shè)計與實現(xiàn)

發(fā)布時間：2023-03-04 14:17

　　如今互聯(lián)網(wǎng)迅速發(fā)展,互聯(lián)網(wǎng)數(shù)據(jù)量爆炸式增長,數(shù)據(jù)形式和內(nèi)容豐富多樣。人們已經(jīng)認(rèn)識到海量數(shù)據(jù)背后巨大的商業(yè)價值和研究意義,同時海量的數(shù)據(jù)也給用戶獲取和挖掘信息帶來一定的挑戰(zhàn),因此如何快速、有效地做數(shù)據(jù)采集以及從海量數(shù)據(jù)中抽取有效信息是一個迫切需要解決的問題。網(wǎng)絡(luò)爬蟲獲取數(shù)據(jù)方便快捷,能夠幫助我們高效的獲取大規(guī)模數(shù)據(jù),但面向中小型網(wǎng)站的網(wǎng)絡(luò)爬蟲系統(tǒng)往往具有一定的局限,例如單機(jī)性能抓取速率的太慢,穩(wěn)定性有待提高,未能實現(xiàn)分布式抓取來提高速度;另一方面大多數(shù)成熟的爬蟲程序都是尚未開放,需要付費才能夠使用,因此對于爬蟲系統(tǒng)深度定制的研究具有很重要的意義�；谏鲜鰡栴},本文針對海量網(wǎng)頁信息的獲取及管理的問題,設(shè)計并實現(xiàn)一種基于Scrapy框架的輕量級分布式爬蟲系統(tǒng)。本文在Scrapy框架基礎(chǔ)上結(jié)合Redis和Elasticsearch搜索工作來對海量的網(wǎng)頁信息進(jìn)行存儲和管理,克服了單機(jī)爬蟲對數(shù)據(jù)管理的局限性。本文所做的工作主要有以下幾點:(1)針對傳統(tǒng)的內(nèi)存去重策略,實現(xiàn)了基于Redis的布隆過濾器去重方法,將URL字符串表示成二進(jìn)制向量,降低了字符串?dāng)?shù)據(jù)的空間占用率并且提高去除重復(fù)數(shù)據(jù)的效率,同...

【文章頁數(shù)】：75 頁

【學(xué)位級別】：碩士

【文章目錄】：
致謝
摘要
abstract
第一章緒論
    1.1 研究背景
    1.2 網(wǎng)絡(luò)爬蟲研究概述
    1.3 分布式爬蟲的研究
    1.4 本文的目標(biāo)與組織結(jié)構(gòu)
第二章爬蟲相關(guān)理論和技術(shù)
    2.1 網(wǎng)站解析技術(shù)
        2.1.1 URL去重技術(shù)
        2.1.2 網(wǎng)頁解析技術(shù)
        2.1.3 網(wǎng)絡(luò)爬蟲中存在的問題
    2.2 Scrapy框架相關(guān)介紹
        2.2.1 Scrapy框架基本原理
        2.2.2 Scrapy框架數(shù)據(jù)流
    2.3 網(wǎng)頁存儲技術(shù)
        2.3.1 MySQL數(shù)據(jù)庫
        2.3.2 Redis數(shù)據(jù)庫
        2.3.3 Elasticsearch搜索引擎
    2.4 分布式爬蟲系統(tǒng)的理論基礎(chǔ)
        2.4.1 分布式系統(tǒng)理論
        2.4.2 分布式爬蟲的系統(tǒng)結(jié)構(gòu)
        2.4.3 Scrapy-Redis的基本原理
第三章爬蟲系統(tǒng)的設(shè)計
    3.1 爬蟲系統(tǒng)的設(shè)計目標(biāo)
    3.2 分布式爬蟲系統(tǒng)的整體設(shè)計
    3.3 解析配置模塊的設(shè)計
        3.3.1 網(wǎng)頁結(jié)構(gòu)分析
        3.3.2 網(wǎng)頁解析原理
        3.3.3 模板化解析工具
        3.3.4 解析處理流程實例
    3.4 URL去重設(shè)計
    3.5 模擬登錄模塊的設(shè)計
        3.5.1 網(wǎng)站Cookie和 Session機(jī)制
        3.5.2 模擬登錄的實現(xiàn)流程
    3.6 數(shù)據(jù)存儲模塊設(shè)計
        3.6.1 Redis數(shù)據(jù)庫的設(shè)計
        3.6.2 MySQL數(shù)據(jù)庫的設(shè)計
        3.6.3 異步存儲設(shè)計
    3.7 擴(kuò)展模塊設(shè)計
第四章爬蟲系統(tǒng)具體功能實現(xiàn)
    4.1 動態(tài)加載模塊的具體實現(xiàn)
    4.2 布隆過濾器的實現(xiàn)
    4.3 模擬登錄模塊實現(xiàn)
    4.4 爬蟲系統(tǒng)主體功能的實現(xiàn)
        4.4.1 爬蟲的實現(xiàn)過程
        4.4.2 分布式爬蟲的具體實現(xiàn)
    4.5 防止爬蟲被封的措施
        4.5.1 動態(tài)IP的實現(xiàn)
        4.5.2 爬蟲自動限速組件的實現(xiàn)
        4.5.3 用戶代理的設(shè)置
    4.6 數(shù)據(jù)存儲模塊的實現(xiàn)
        4.6.1 Redis集群的搭建
        4.6.2 MyMQL環(huán)境搭建
        4.6.3 Scrapy-Redis的數(shù)據(jù)存儲
第五章系統(tǒng)測試及數(shù)據(jù)展示
    5.1 系統(tǒng)運行環(huán)境
    5.2 去重模塊單元測試
    5.3 數(shù)據(jù)驗證
    5.4 數(shù)據(jù)結(jié)果展示與分析
第六章總結(jié)與展望
    6.1 工作總結(jié)
    6.2 未來展望
參考文獻(xiàn)
攻讀碩士學(xué)位期間的學(xué)術(shù)活動及成果情況

本文編號：3754434

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3754434.html

上一篇：基于車聯(lián)網(wǎng)數(shù)據(jù)的車輛駕駛畫像分析和風(fēng)險研究
下一篇：基于本地差分隱私下頻繁模式挖掘關(guān)鍵技術(shù)研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Scrapy框架的分布式爬蟲系統(tǒng)設(shè)計與實現(xiàn)