基于Scrapy的物流資訊網(wǎng)站群爬蟲系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-09-09 20:44
為自動(dòng)收集全國物流行業(yè)的資訊數(shù)據(jù),用于后續(xù)大數(shù)據(jù)分析與展示,基于Scrapy框架研發(fā)了一個(gè)物流資訊網(wǎng)站群爬蟲系統(tǒng)。該系統(tǒng)在功能需求上重點(diǎn)實(shí)現(xiàn)全站爬取、增量爬取、異常處理、爬蟲偽裝、數(shù)據(jù)庫操作等五個(gè)方面的功能。在技術(shù)架構(gòu)的設(shè)計(jì)和實(shí)現(xiàn)上,在Scrapy框架的基礎(chǔ)上重點(diǎn)研發(fā)了該系統(tǒng)的網(wǎng)頁數(shù)據(jù)庫、數(shù)據(jù)項(xiàng)、網(wǎng)站.群爬蟲、項(xiàng)目管道、2個(gè)中間件、Scrap.y配置6個(gè)模塊。經(jīng)過實(shí)驗(yàn),共爬取了10個(gè)物流資訊網(wǎng)站的8585萬個(gè)網(wǎng)頁,爬取平均速度峰值達(dá)到223個(gè)/秒。
【文章來源】:物流技術(shù)與應(yīng)用. 2020,25(08)
【文章頁數(shù)】:4 頁
【部分圖文】:
從10個(gè)物流資訊網(wǎng)站爬取的網(wǎng)頁數(shù)量
圖4 從10個(gè)物流資訊網(wǎng)站爬取的網(wǎng)頁數(shù)量其中,從中國物流與采購聯(lián)合會(huì)網(wǎng)站爬取了556,932個(gè)網(wǎng)頁,從北京物流協(xié)會(huì)網(wǎng)站爬取了263,356個(gè)網(wǎng)頁,從這兩個(gè)網(wǎng)站爬取的網(wǎng)頁數(shù)量占到總數(shù)的95.6%,可見資訊信息相對比較集中。
現(xiàn)已有不少相對成熟的爬蟲系統(tǒng)框架,如Crawler4j、Scrapy等。Crawler4j和Scrapy分別支持用Java語言、Python語言開發(fā)爬蟲系統(tǒng),均支持多線程爬取數(shù)據(jù),且均為開源系統(tǒng)。已有許多應(yīng)用系統(tǒng)基于這些框架編寫,如物流車貨源信息的抽取系統(tǒng)、農(nóng)業(yè)網(wǎng)絡(luò)空間信息系統(tǒng)等。為確保爬蟲系統(tǒng)的成熟和穩(wěn)定,這里不打算研發(fā)新的爬蟲系統(tǒng)框架,而是使用現(xiàn)有成熟、開源的Scrapy框架技術(shù)來研發(fā)出物流資訊網(wǎng)站群的爬蟲系統(tǒng)。圖2 物流資訊網(wǎng)站群爬蟲系統(tǒng)的技術(shù)架構(gòu)
【參考文獻(xiàn)】:
期刊論文
[1]網(wǎng)絡(luò)爬蟲在擬在工程項(xiàng)目數(shù)據(jù)分析中的應(yīng)用[J]. 張建根,于耀祖. 科技風(fēng). 2021(19)
[2]一種面向互聯(lián)網(wǎng)文本數(shù)據(jù)采集框架的設(shè)計(jì)[J]. 賀宗平,王正路. 電子技術(shù)與軟件工程. 2021(12)
[3]全國高職?齐娮由虅(wù)類專業(yè)點(diǎn)布局的大數(shù)據(jù)分析[J]. 鄧子云. 職業(yè)技術(shù)教育. 2021(05)
[4]全國高職專業(yè)點(diǎn)數(shù)據(jù)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J]. 鄧子云. 南方職業(yè)教育學(xué)刊. 2021(01)
本文編號:3392757
【文章來源】:物流技術(shù)與應(yīng)用. 2020,25(08)
【文章頁數(shù)】:4 頁
【部分圖文】:
從10個(gè)物流資訊網(wǎng)站爬取的網(wǎng)頁數(shù)量
圖4 從10個(gè)物流資訊網(wǎng)站爬取的網(wǎng)頁數(shù)量其中,從中國物流與采購聯(lián)合會(huì)網(wǎng)站爬取了556,932個(gè)網(wǎng)頁,從北京物流協(xié)會(huì)網(wǎng)站爬取了263,356個(gè)網(wǎng)頁,從這兩個(gè)網(wǎng)站爬取的網(wǎng)頁數(shù)量占到總數(shù)的95.6%,可見資訊信息相對比較集中。
現(xiàn)已有不少相對成熟的爬蟲系統(tǒng)框架,如Crawler4j、Scrapy等。Crawler4j和Scrapy分別支持用Java語言、Python語言開發(fā)爬蟲系統(tǒng),均支持多線程爬取數(shù)據(jù),且均為開源系統(tǒng)。已有許多應(yīng)用系統(tǒng)基于這些框架編寫,如物流車貨源信息的抽取系統(tǒng)、農(nóng)業(yè)網(wǎng)絡(luò)空間信息系統(tǒng)等。為確保爬蟲系統(tǒng)的成熟和穩(wěn)定,這里不打算研發(fā)新的爬蟲系統(tǒng)框架,而是使用現(xiàn)有成熟、開源的Scrapy框架技術(shù)來研發(fā)出物流資訊網(wǎng)站群的爬蟲系統(tǒng)。圖2 物流資訊網(wǎng)站群爬蟲系統(tǒng)的技術(shù)架構(gòu)
【參考文獻(xiàn)】:
期刊論文
[1]網(wǎng)絡(luò)爬蟲在擬在工程項(xiàng)目數(shù)據(jù)分析中的應(yīng)用[J]. 張建根,于耀祖. 科技風(fēng). 2021(19)
[2]一種面向互聯(lián)網(wǎng)文本數(shù)據(jù)采集框架的設(shè)計(jì)[J]. 賀宗平,王正路. 電子技術(shù)與軟件工程. 2021(12)
[3]全國高職?齐娮由虅(wù)類專業(yè)點(diǎn)布局的大數(shù)據(jù)分析[J]. 鄧子云. 職業(yè)技術(shù)教育. 2021(05)
[4]全國高職專業(yè)點(diǎn)數(shù)據(jù)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J]. 鄧子云. 南方職業(yè)教育學(xué)刊. 2021(01)
本文編號:3392757
本文鏈接:http://sikaile.net/guanlilunwen/wuliuguanlilunwen/3392757.html
最近更新
教材專著