天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

基于Scrapy框架的分布式爬蟲系統(tǒng)設(shè)計與實現(xiàn)

發(fā)布時間:2023-03-04 14:17
  如今互聯(lián)網(wǎng)迅速發(fā)展,互聯(lián)網(wǎng)數(shù)據(jù)量爆炸式增長,數(shù)據(jù)形式和內(nèi)容豐富多樣。人們已經(jīng)認識到海量數(shù)據(jù)背后巨大的商業(yè)價值和研究意義,同時海量的數(shù)據(jù)也給用戶獲取和挖掘信息帶來一定的挑戰(zhàn),因此如何快速、有效地做數(shù)據(jù)采集以及從海量數(shù)據(jù)中抽取有效信息是一個迫切需要解決的問題。網(wǎng)絡(luò)爬蟲獲取數(shù)據(jù)方便快捷,能夠幫助我們高效的獲取大規(guī)模數(shù)據(jù),但面向中小型網(wǎng)站的網(wǎng)絡(luò)爬蟲系統(tǒng)往往具有一定的局限,例如單機性能抓取速率的太慢,穩(wěn)定性有待提高,未能實現(xiàn)分布式抓取來提高速度;另一方面大多數(shù)成熟的爬蟲程序都是尚未開放,需要付費才能夠使用,因此對于爬蟲系統(tǒng)深度定制的研究具有很重要的意義;谏鲜鰡栴},本文針對海量網(wǎng)頁信息的獲取及管理的問題,設(shè)計并實現(xiàn)一種基于Scrapy框架的輕量級分布式爬蟲系統(tǒng)。本文在Scrapy框架基礎(chǔ)上結(jié)合Redis和Elasticsearch搜索工作來對海量的網(wǎng)頁信息進行存儲和管理,克服了單機爬蟲對數(shù)據(jù)管理的局限性。本文所做的工作主要有以下幾點:(1)針對傳統(tǒng)的內(nèi)存去重策略,實現(xiàn)了基于Redis的布隆過濾器去重方法,將URL字符串表示成二進制向量,降低了字符串數(shù)據(jù)的空間占用率并且提高去除重復數(shù)據(jù)的效率,同...

【文章頁數(shù)】:75 頁

【學位級別】:碩士

【文章目錄】:
致謝
摘要
abstract
第一章 緒論
    1.1 研究背景
    1.2 網(wǎng)絡(luò)爬蟲研究概述
    1.3 分布式爬蟲的研究
    1.4 本文的目標與組織結(jié)構(gòu)
第二章 爬蟲相關(guān)理論和技術(shù)
    2.1 網(wǎng)站解析技術(shù)
        2.1.1 URL去重技術(shù)
        2.1.2 網(wǎng)頁解析技術(shù)
        2.1.3 網(wǎng)絡(luò)爬蟲中存在的問題
    2.2 Scrapy框架相關(guān)介紹
        2.2.1 Scrapy框架基本原理
        2.2.2 Scrapy框架數(shù)據(jù)流
    2.3 網(wǎng)頁存儲技術(shù)
        2.3.1 MySQL數(shù)據(jù)庫
        2.3.2 Redis數(shù)據(jù)庫
        2.3.3 Elasticsearch搜索引擎
    2.4 分布式爬蟲系統(tǒng)的理論基礎(chǔ)
        2.4.1 分布式系統(tǒng)理論
        2.4.2 分布式爬蟲的系統(tǒng)結(jié)構(gòu)
        2.4.3 Scrapy-Redis的基本原理
第三章 爬蟲系統(tǒng)的設(shè)計
    3.1 爬蟲系統(tǒng)的設(shè)計目標
    3.2 分布式爬蟲系統(tǒng)的整體設(shè)計
    3.3 解析配置模塊的設(shè)計
        3.3.1 網(wǎng)頁結(jié)構(gòu)分析
        3.3.2 網(wǎng)頁解析原理
        3.3.3 模板化解析工具
        3.3.4 解析處理流程實例
    3.4 URL去重設(shè)計
    3.5 模擬登錄模塊的設(shè)計
        3.5.1 網(wǎng)站Cookie和 Session機制
        3.5.2 模擬登錄的實現(xiàn)流程
    3.6 數(shù)據(jù)存儲模塊設(shè)計
        3.6.1 Redis數(shù)據(jù)庫的設(shè)計
        3.6.2 MySQL數(shù)據(jù)庫的設(shè)計
        3.6.3 異步存儲設(shè)計
    3.7 擴展模塊設(shè)計
第四章 爬蟲系統(tǒng)具體功能實現(xiàn)
    4.1 動態(tài)加載模塊的具體實現(xiàn)
    4.2 布隆過濾器的實現(xiàn)
    4.3 模擬登錄模塊實現(xiàn)
    4.4 爬蟲系統(tǒng)主體功能的實現(xiàn)
        4.4.1 爬蟲的實現(xiàn)過程
        4.4.2 分布式爬蟲的具體實現(xiàn)
    4.5 防止爬蟲被封的措施
        4.5.1 動態(tài)IP的實現(xiàn)
        4.5.2 爬蟲自動限速組件的實現(xiàn)
        4.5.3 用戶代理的設(shè)置
    4.6 數(shù)據(jù)存儲模塊的實現(xiàn)
        4.6.1 Redis集群的搭建
        4.6.2 MyMQL環(huán)境搭建
        4.6.3 Scrapy-Redis的數(shù)據(jù)存儲
第五章 系統(tǒng)測試及數(shù)據(jù)展示
    5.1 系統(tǒng)運行環(huán)境
    5.2 去重模塊單元測試
    5.3 數(shù)據(jù)驗證
    5.4 數(shù)據(jù)結(jié)果展示與分析
第六章 總結(jié)與展望
    6.1 工作總結(jié)
    6.2 未來展望
參考文獻
攻讀碩士學位期間的學術(shù)活動及成果情況



本文編號:3754434

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3754434.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶8584a***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
欧美一级片日韩一级片 | 一区二区三区精品人妻| 一级片二级片欧美日韩| 欧美精品亚洲精品日韩精品| 久久精品国产亚洲熟女| 在线免费看国产精品黄片| 亚洲国产性感美女视频| 极品少妇一区二区三区精品视频| 亚洲中文字幕在线观看黑人| 欧美一级内射一色桃子| 五月天丁香亚洲综合网| 日本大学生精油按摩在线观看| 东京不热免费观看日本| 这里只有九九热精品视频| 欧美日韩亚洲巨色人妻| 欧美黑人在线精品极品| 国产精品一区二区香蕉视频| 一区二区三区日韩经典| 日韩在线精品视频观看| 日韩精品毛片视频免费看| 中国一区二区三区不卡| 亚洲精品中文字幕无限乱码| 久久人人爽人人爽大片av| 99久热只有精品视频免费看| 午夜精品福利视频观看| 色丁香之五月婷婷开心| 老司机亚洲精品一区二区| 日韩精品少妇人妻一区二区| 国产又粗又长又爽又猛的视频| 麻豆在线观看一区二区| 久久久免费精品人妻一区二区三区 | 日木乱偷人妻中文字幕在线| 国产亚洲视频香蕉一区| 一级片二级片欧美日韩| 欧美在线观看视频免费不卡| 丰满的人妻一区二区三区| 美国欧洲日本韩国二本道| 人妻少妇久久中文字幕久久| 99久久国产综合精品二区| 亚洲国产精品一区二区毛片| 日韩精品你懂的在线观看|