天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于云平臺(tái)的分布式數(shù)據(jù)采集系統(tǒng)研究與實(shí)現(xiàn)

發(fā)布時(shí)間:2022-06-02 20:04
  隨著時(shí)代的進(jìn)步,互聯(lián)網(wǎng)技術(shù)不斷發(fā)展,網(wǎng)絡(luò)成為了大家獲取信息的主要途徑。與此同時(shí),互聯(lián)網(wǎng)數(shù)據(jù)呈幾何級(jí)增長,如何高效、快速的從中獲取到我們感興趣的內(nèi)容十分值得研究。目前成型的產(chǎn)品及開源界中有大量類似的軟件,在借鑒他們優(yōu)點(diǎn)、改進(jìn)他們?nèi)秉c(diǎn)的基礎(chǔ)上,基于實(shí)驗(yàn)室的云平臺(tái)構(gòu)建出一個(gè)高效的分布式數(shù)據(jù)采集系統(tǒng),利用豐富的云端資源來實(shí)現(xiàn)大規(guī)模的網(wǎng)絡(luò)數(shù)據(jù)采集。首先,本文中針對(duì)實(shí)際的數(shù)據(jù)采集場(chǎng)景,結(jié)合現(xiàn)有爬蟲框架的優(yōu)點(diǎn)和缺點(diǎn),提出了分布式數(shù)據(jù)采集系統(tǒng)的整體架構(gòu),并將其劃分為三個(gè)部分:web管理端、服務(wù)端、采集端。用戶可以通過web管理端提供的操作界面,對(duì)采集任務(wù)、采集節(jié)點(diǎn)等進(jìn)行靈活管理;服務(wù)端中為了降低采集系統(tǒng)的使用門檻,集成了自定義采集模版功能,用戶既可以自定義采集模版,也可以使用內(nèi)置的模版。同時(shí),針對(duì)頁面下載過程中存在的大量域名解析請(qǐng)求,服務(wù)端中實(shí)現(xiàn)了高效的DNS緩存系統(tǒng),優(yōu)化域名解析過程。針對(duì)現(xiàn)有布隆過濾器在URL去重過程中的不足,我們實(shí)現(xiàn)了并行的多布隆過濾器,降低了誤判率;采集端是落實(shí)頁面采集工作的節(jié)點(diǎn),針對(duì)現(xiàn)有網(wǎng)站存在的大量的反爬蟲措施,系統(tǒng)中以下載中間件的形式,集成了強(qiáng)大的防反爬蟲模塊,其中典型的... 

【文章頁數(shù)】:79 頁

【學(xué)位級(jí)別】:碩士

【文章目錄】:
摘要
abstract
第一章 緒論
    1.1 課題背景和研究意義
    1.2 國內(nèi)外研究現(xiàn)狀
    1.3 主要研究內(nèi)容
    1.4 本論文的結(jié)構(gòu)安排
第二章 相關(guān)技術(shù)介紹
    2.1 網(wǎng)絡(luò)爬蟲
        2.1.1 基本概念
        2.1.2 網(wǎng)絡(luò)爬蟲劃分
        2.1.3 爬蟲搜索策略
    2.2 其他相關(guān)技術(shù)
        2.2.1 Redis數(shù)據(jù)庫
        2.2.2 XML技術(shù)
        2.2.3 XPath和 BeautiSoup
    2.3 本章小結(jié)
第三章 系統(tǒng)研究與設(shè)計(jì)
    3.1 系統(tǒng)整體目標(biāo)
    3.2 系統(tǒng)需求分析
        3.2.1 功能性需求
        3.2.2 非功能性需求
    3.3 數(shù)據(jù)采集系統(tǒng)架構(gòu)設(shè)計(jì)
    3.4 服務(wù)端設(shè)計(jì)
        3.4.1 采集模版功能設(shè)計(jì)
        3.4.2 DNS緩存功能設(shè)計(jì)
        3.4.3 去重模塊功能設(shè)計(jì)
    3.5 采集采點(diǎn)設(shè)計(jì)
        3.5.1 采集節(jié)點(diǎn)結(jié)構(gòu)設(shè)計(jì)
        3.5.2 網(wǎng)頁下載功能設(shè)計(jì)
        3.5.3 內(nèi)容提取功能設(shè)計(jì)
    3.6 web管理端模塊設(shè)計(jì)
        3.6.1 基本配置設(shè)置
        3.6.2 創(chuàng)建采集任務(wù)
        3.6.3 管理采集任務(wù)
        3.6.4 爬蟲監(jiān)控
    3.7 數(shù)據(jù)庫設(shè)計(jì)
    3.8 本章小結(jié)
第四章 分布式數(shù)據(jù)采集系統(tǒng)的具體實(shí)現(xiàn)
    4.1 項(xiàng)目結(jié)構(gòu)
    4.2 服務(wù)端實(shí)現(xiàn)
        4.2.1 服務(wù)端初始化
        4.2.2 采集模版功能實(shí)現(xiàn)
        4.2.3 去重模塊功能實(shí)現(xiàn)
    4.3 采集結(jié)點(diǎn)實(shí)現(xiàn)
        4.3.1 采集節(jié)點(diǎn)初始化
        4.3.2 網(wǎng)頁下載實(shí)現(xiàn)
        4.3.3 內(nèi)容提取實(shí)現(xiàn)
        4.3.4 內(nèi)容保存實(shí)現(xiàn)
    4.4 web管理端設(shè)計(jì)
        4.4.1 創(chuàng)建采集任務(wù)
        4.4.2 管理采集任務(wù)
        4.4.3 采集節(jié)點(diǎn)監(jiān)控
    4.5 本章小結(jié)
第五章 系統(tǒng)測(cè)試
    5.1 環(huán)境搭建
        5.1.1 軟硬件配置
        5.1.2 系統(tǒng)部署
    5.2 功能測(cè)試
        5.2.1 采集功能測(cè)試
        5.2.2 去重功能測(cè)試
    5.3 性能測(cè)試
        5.3.1 并發(fā)性測(cè)試
        5.3.2 健壯性測(cè)試
    5.4 本章小結(jié)
第六章 總結(jié)與展望
    6.1 總結(jié)
    6.2 展望
致謝
參考文獻(xiàn)


【參考文獻(xiàn)】:
期刊論文
[1]國外科技網(wǎng)站反爬蟲研究及數(shù)據(jù)獲取對(duì)策研究[J]. 張曄,孫光光,徐洪云,龐婷,曲瀟洋.  競爭情報(bào). 2020(01)
[2]python網(wǎng)絡(luò)爬蟲爬取策略對(duì)比分析[J]. 翟普.  電腦知識(shí)與技術(shù). 2020(01)
[3]Redis在數(shù)字化生產(chǎn)線上的應(yīng)用[J]. 徐金龍,宋任堂,張成俊.  電子技術(shù)與軟件工程. 2019(24)
[4]基于Scrapy的網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J]. 杜鵬輝,仇繼揚(yáng),彭書濤,柴灃偉,劉意先.  電子設(shè)計(jì)工程. 2019(22)
[5]國內(nèi)社會(huì)化搜索引擎發(fā)展?fàn)顩r分析[J]. 錢敏.  情報(bào)探索. 2019(10)
[6]關(guān)于搜索引擎技術(shù)的發(fā)展和思考[J]. 韓文科.  金融科技時(shí)代. 2019(10)
[7]2019年上半年我國互聯(lián)網(wǎng)發(fā)展呈現(xiàn)六大趨勢(shì)特點(diǎn)[J].   新聞世界. 2019(10)
[8]網(wǎng)站反爬蟲策略的分析與研究[J]. 伏康,杜振鵬.  電腦知識(shí)與技術(shù). 2019(28)
[9]CNNIC發(fā)布第44次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》[J]. 于朝暉.  網(wǎng)信軍民融合. 2019(09)
[10]主題網(wǎng)絡(luò)爬蟲研究綜述[J]. 左薇,張熹,董紅娟,于夢(mèng)君.  軟件導(dǎo)刊. 2020(02)

碩士論文
[1]基于Redis分布式存儲(chǔ)的負(fù)載平衡及性能優(yōu)化研究[D]. 周旭東.南京郵電大學(xué) 2019
[2]基于網(wǎng)絡(luò)爬蟲的垂直搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[D]. 丁月.貴州大學(xué) 2019
[3]基于Bloom Filter算法的URL去重算法研究及其應(yīng)用[D]. 孟慧君.河南大學(xué) 2019
[4]基于Scrapy框架的網(wǎng)絡(luò)爬蟲系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 孫瑜.北京交通大學(xué) 2019
[5]基于Scrapy框架的分布式爬蟲系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D]. 汪兵.合肥工業(yè)大學(xué) 2019
[6]基于Hadoop的分布式網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與研究[D]. 程澤.成都理工大學(xué) 2018



本文編號(hào):3653005

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3653005.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶15089***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com