基于IP代理池的股票板塊爬蟲設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-08-26 05:19
“科技是國(guó)家強(qiáng)盛之基!苯陙(lái),國(guó)家高度重視“科技創(chuàng)新”,互聯(lián)網(wǎng)技術(shù)也隨之得到進(jìn)一步的應(yīng)用與推廣。在金融股票領(lǐng)域,“互聯(lián)網(wǎng)+”時(shí)代的爬蟲技術(shù)同樣也在原有基礎(chǔ)上成功為之賦能,為廣大股民及投資機(jī)構(gòu)更方便地檢索股票板塊信息以及制定投資策略提供了可能。本文描述了基于IP代理池的股票板塊爬蟲,旨在解決股票投資者無(wú)法及時(shí)感知不同股票板塊的實(shí)時(shí)變化,以及傳統(tǒng)爬蟲無(wú)法自動(dòng)跨越反爬機(jī)制為板塊數(shù)據(jù)爬取服務(wù)等問(wèn)題,以使該爬蟲技術(shù)更好的適用于股票板塊數(shù)據(jù)挖掘場(chǎng)景,進(jìn)一步提高爬蟲的抓取效率。本文主要工作如下:1、對(duì)基于IP代理池的股票板塊爬蟲的關(guān)鍵技術(shù)進(jìn)行研究。主要包括以下方面:1)基于Maven分模塊部署jar包,模擬微服務(wù)架構(gòu)模式,以最小的構(gòu)建代價(jià)暴露IP代理池接口,實(shí)現(xiàn)項(xiàng)目編譯的靈活性;2)利用Dubbo、Zookeeper分布式RPC框架實(shí)現(xiàn)遠(yuǎn)程服務(wù),實(shí)現(xiàn)接口生產(chǎn)端與消費(fèi)端的注冊(cè)與調(diào)用,同時(shí)利用其長(zhǎng)鏈接通信特性,減少了代理IP的網(wǎng)絡(luò)開銷;以及3)集成Quartz任務(wù)調(diào)度服務(wù),利用Scheduler、Trigger以及Job等核心類,設(shè)計(jì)并開發(fā)板塊監(jiān)控爬蟲定時(shí)任務(wù)和代理IP爬蟲定時(shí)任務(wù)。2、設(shè)計(jì)并實(shí)現(xiàn)股票...
【文章來(lái)源】:遼寧大學(xué)遼寧省 211工程院校
【文章頁(yè)數(shù)】:90 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
Http協(xié)議交互過(guò)程圖
圖 2-2 Rpc 服務(wù)遠(yuǎn)程過(guò)程調(diào)用流程圖 Rpc 服務(wù)調(diào)用流程如下:服務(wù)消費(fèi)方調(diào)用本地 Handle 進(jìn)行數(shù)據(jù)參數(shù)的傳輸。服務(wù)消費(fèi)方通過(guò)本地調(diào)用方式調(diào)用本地系統(tǒng)內(nèi)核,準(zhǔn)備向服求。服務(wù)消費(fèi)方 Handle 進(jìn)行服務(wù)尋址,將數(shù)據(jù)信息發(fā)送至服務(wù)生服務(wù)生產(chǎn)方 Handle 接收到消息后,進(jìn)行消息解碼。服務(wù)生產(chǎn)方 Handle 依照解碼結(jié)果通過(guò)本地調(diào)用方式調(diào)用服務(wù)本地服務(wù)執(zhí)行結(jié)束,將結(jié)果返回給服務(wù)生產(chǎn)方 Handle。服務(wù)生產(chǎn)方 Handle 將結(jié)果封裝成消息并調(diào)用遠(yuǎn)程系統(tǒng)內(nèi)核。服務(wù)生產(chǎn)方將數(shù)據(jù)發(fā)送至服務(wù)消費(fèi)方。服務(wù)消費(fèi)方 Handle 接收本地內(nèi)核發(fā)送的消息。服務(wù)生產(chǎn)方成功接收消息。本項(xiàng)目業(yè)務(wù)需求和 Rpc 服務(wù)的特性,決定使用 Rpc 協(xié)議框架
)的中繼節(jié)點(diǎn),它主要承擔(dān)轉(zhuǎn)發(fā)來(lái)往的網(wǎng)絡(luò)請(qǐng)求、記載網(wǎng)絡(luò)傳輸日志所謂 IP 代理服務(wù),即通過(guò)獲取代理服務(wù)器的 IP 及端口信息,進(jìn)行目標(biāo)的一系列操作。由于大多數(shù)商業(yè)網(wǎng)站對(duì)同一 IP 訪問(wèn)頻度的限制,爬蟲直接使用真實(shí)的客戶端 IP 發(fā)送網(wǎng)絡(luò)請(qǐng)求,目標(biāo)網(wǎng)站會(huì)基于算法判斷該 合法性,予以放行或封鎖。因此,IP 代理服務(wù)對(duì)于爬蟲程序的作用不代理服務(wù)器可以將目標(biāo)網(wǎng)站的數(shù)據(jù)進(jìn)行緩存并發(fā)送給客戶端,即使商業(yè)理 IP 封鎖,爬蟲程序依然可以選擇其他服務(wù)器節(jié)點(diǎn),進(jìn)行間接訪問(wèn),影響真實(shí) IP 的使用。代理服務(wù)器的主要功能包括:1)權(quán)限控制,根據(jù)用戶的 IP 設(shè)置不同的,從而進(jìn)行放行或封鎖;2)作為防火墻,一定程度隔離廣域網(wǎng)的訪問(wèn)域網(wǎng)內(nèi)部主機(jī)的安全,以防網(wǎng)絡(luò)攻擊;3)緩存數(shù)據(jù),通常代理服務(wù)器間比較大,每次對(duì)客戶端請(qǐng)求返回的信息進(jìn)行緩存,當(dāng)同一 IP 再次進(jìn)源的訪問(wèn)時(shí),代理服務(wù)器直接返回緩存的信息,進(jìn)一步提高訪問(wèn)用戶效約 IP 數(shù)量,一定程度上減小局域網(wǎng)內(nèi)部主機(jī)的 IP 地址需求,通過(guò)進(jìn)轉(zhuǎn)換,保證了公有 IP 的數(shù)量。IP 代理服務(wù)流程如圖 2-3 所示:
【參考文獻(xiàn)】:
期刊論文
[1]針對(duì)SSM框架Web系統(tǒng)的相關(guān)思考[J]. 曾艷麗,李諾. 信息與電腦(理論版). 2019(03)
[2]基于Redis與SSM的大型設(shè)備數(shù)據(jù)運(yùn)用系統(tǒng)設(shè)計(jì)[J]. 熊肖磊,王春偉,趙炯,周奇才. 現(xiàn)代機(jī)械. 2018(06)
[3]Spring框架中IOC的實(shí)現(xiàn)[J]. 劉雙. 電子技術(shù)與軟件工程. 2018(21)
[4]基于Spring、Hibernate、Dubbo的消息推送中間件的設(shè)計(jì)[J]. 汪琳. 現(xiàn)代計(jì)算機(jī)(專業(yè)版). 2018(30)
[5]HTTP服務(wù)器的研究和實(shí)現(xiàn)[J]. 陳忠菊. 電腦編程技巧與維護(hù). 2018(08)
[6]大數(shù)據(jù)時(shí)代下爬蟲技術(shù)應(yīng)用與研究——以標(biāo)訊快車項(xiàng)目為例[J]. 黃文杰,姚庚梅. 科技創(chuàng)新與應(yīng)用. 2018(06)
[7]談?wù)劇巴扑]系統(tǒng)”和“搜索引擎”[J]. 陳運(yùn)文. 計(jì)算機(jī)與網(wǎng)絡(luò). 2017(24)
[8]Mybatis逆向工程在JavaEE中的應(yīng)用[J]. 李杉,賈彥平,達(dá)虎. 通訊世界. 2017(24)
[9]Web3.0時(shí)代人工智能與社交軟件結(jié)合方式[J]. 邢征宇. 今傳媒. 2017(11)
[10]用代理服務(wù)器聯(lián)通網(wǎng)絡(luò)[J]. 廖勇,鄧欣茹. 網(wǎng)絡(luò)安全和信息化. 2017(06)
碩士論文
[1]基于ZooKeeper的配置中心系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D]. 董龍成.西安電子科技大學(xué) 2018
[2]基于SpringMVC框架的訂閱式服務(wù)計(jì)費(fèi)管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 李巖.北京交通大學(xué) 2018
[3]面向微服務(wù)架構(gòu)的容器云平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)[D]. 于澤萍.哈爾濱工業(yè)大學(xué) 2018
[4]支持分布式定時(shí)任務(wù)調(diào)度的Web服務(wù)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 郭一鳴.北京郵電大學(xué) 2018
[5]基于HTTP協(xié)議的網(wǎng)絡(luò)數(shù)據(jù)分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 段凌軒.哈爾濱工業(yè)大學(xué) 2016
[6]基于Maven的CWAP框架基礎(chǔ)單元層和基礎(chǔ)服務(wù)層的設(shè)計(jì)與實(shí)現(xiàn)[D]. 錢言佳.南京大學(xué) 2016
[7]基于J2EE的CRUD組合組件的設(shè)計(jì)與實(shí)現(xiàn)[D]. 徐啟江.東北大學(xué) 2016
[8]Robots協(xié)議與互聯(lián)網(wǎng)競(jìng)爭(zhēng)規(guī)治[D]. 李晴.清華大學(xué) 2015
[9]基于Quartz的消息溝通平臺(tái)的研究[D]. 朱哲明.北京郵電大學(xué) 2013
本文編號(hào):3363627
【文章來(lái)源】:遼寧大學(xué)遼寧省 211工程院校
【文章頁(yè)數(shù)】:90 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
Http協(xié)議交互過(guò)程圖
圖 2-2 Rpc 服務(wù)遠(yuǎn)程過(guò)程調(diào)用流程圖 Rpc 服務(wù)調(diào)用流程如下:服務(wù)消費(fèi)方調(diào)用本地 Handle 進(jìn)行數(shù)據(jù)參數(shù)的傳輸。服務(wù)消費(fèi)方通過(guò)本地調(diào)用方式調(diào)用本地系統(tǒng)內(nèi)核,準(zhǔn)備向服求。服務(wù)消費(fèi)方 Handle 進(jìn)行服務(wù)尋址,將數(shù)據(jù)信息發(fā)送至服務(wù)生服務(wù)生產(chǎn)方 Handle 接收到消息后,進(jìn)行消息解碼。服務(wù)生產(chǎn)方 Handle 依照解碼結(jié)果通過(guò)本地調(diào)用方式調(diào)用服務(wù)本地服務(wù)執(zhí)行結(jié)束,將結(jié)果返回給服務(wù)生產(chǎn)方 Handle。服務(wù)生產(chǎn)方 Handle 將結(jié)果封裝成消息并調(diào)用遠(yuǎn)程系統(tǒng)內(nèi)核。服務(wù)生產(chǎn)方將數(shù)據(jù)發(fā)送至服務(wù)消費(fèi)方。服務(wù)消費(fèi)方 Handle 接收本地內(nèi)核發(fā)送的消息。服務(wù)生產(chǎn)方成功接收消息。本項(xiàng)目業(yè)務(wù)需求和 Rpc 服務(wù)的特性,決定使用 Rpc 協(xié)議框架
)的中繼節(jié)點(diǎn),它主要承擔(dān)轉(zhuǎn)發(fā)來(lái)往的網(wǎng)絡(luò)請(qǐng)求、記載網(wǎng)絡(luò)傳輸日志所謂 IP 代理服務(wù),即通過(guò)獲取代理服務(wù)器的 IP 及端口信息,進(jìn)行目標(biāo)的一系列操作。由于大多數(shù)商業(yè)網(wǎng)站對(duì)同一 IP 訪問(wèn)頻度的限制,爬蟲直接使用真實(shí)的客戶端 IP 發(fā)送網(wǎng)絡(luò)請(qǐng)求,目標(biāo)網(wǎng)站會(huì)基于算法判斷該 合法性,予以放行或封鎖。因此,IP 代理服務(wù)對(duì)于爬蟲程序的作用不代理服務(wù)器可以將目標(biāo)網(wǎng)站的數(shù)據(jù)進(jìn)行緩存并發(fā)送給客戶端,即使商業(yè)理 IP 封鎖,爬蟲程序依然可以選擇其他服務(wù)器節(jié)點(diǎn),進(jìn)行間接訪問(wèn),影響真實(shí) IP 的使用。代理服務(wù)器的主要功能包括:1)權(quán)限控制,根據(jù)用戶的 IP 設(shè)置不同的,從而進(jìn)行放行或封鎖;2)作為防火墻,一定程度隔離廣域網(wǎng)的訪問(wèn)域網(wǎng)內(nèi)部主機(jī)的安全,以防網(wǎng)絡(luò)攻擊;3)緩存數(shù)據(jù),通常代理服務(wù)器間比較大,每次對(duì)客戶端請(qǐng)求返回的信息進(jìn)行緩存,當(dāng)同一 IP 再次進(jìn)源的訪問(wèn)時(shí),代理服務(wù)器直接返回緩存的信息,進(jìn)一步提高訪問(wèn)用戶效約 IP 數(shù)量,一定程度上減小局域網(wǎng)內(nèi)部主機(jī)的 IP 地址需求,通過(guò)進(jìn)轉(zhuǎn)換,保證了公有 IP 的數(shù)量。IP 代理服務(wù)流程如圖 2-3 所示:
【參考文獻(xiàn)】:
期刊論文
[1]針對(duì)SSM框架Web系統(tǒng)的相關(guān)思考[J]. 曾艷麗,李諾. 信息與電腦(理論版). 2019(03)
[2]基于Redis與SSM的大型設(shè)備數(shù)據(jù)運(yùn)用系統(tǒng)設(shè)計(jì)[J]. 熊肖磊,王春偉,趙炯,周奇才. 現(xiàn)代機(jī)械. 2018(06)
[3]Spring框架中IOC的實(shí)現(xiàn)[J]. 劉雙. 電子技術(shù)與軟件工程. 2018(21)
[4]基于Spring、Hibernate、Dubbo的消息推送中間件的設(shè)計(jì)[J]. 汪琳. 現(xiàn)代計(jì)算機(jī)(專業(yè)版). 2018(30)
[5]HTTP服務(wù)器的研究和實(shí)現(xiàn)[J]. 陳忠菊. 電腦編程技巧與維護(hù). 2018(08)
[6]大數(shù)據(jù)時(shí)代下爬蟲技術(shù)應(yīng)用與研究——以標(biāo)訊快車項(xiàng)目為例[J]. 黃文杰,姚庚梅. 科技創(chuàng)新與應(yīng)用. 2018(06)
[7]談?wù)劇巴扑]系統(tǒng)”和“搜索引擎”[J]. 陳運(yùn)文. 計(jì)算機(jī)與網(wǎng)絡(luò). 2017(24)
[8]Mybatis逆向工程在JavaEE中的應(yīng)用[J]. 李杉,賈彥平,達(dá)虎. 通訊世界. 2017(24)
[9]Web3.0時(shí)代人工智能與社交軟件結(jié)合方式[J]. 邢征宇. 今傳媒. 2017(11)
[10]用代理服務(wù)器聯(lián)通網(wǎng)絡(luò)[J]. 廖勇,鄧欣茹. 網(wǎng)絡(luò)安全和信息化. 2017(06)
碩士論文
[1]基于ZooKeeper的配置中心系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D]. 董龍成.西安電子科技大學(xué) 2018
[2]基于SpringMVC框架的訂閱式服務(wù)計(jì)費(fèi)管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 李巖.北京交通大學(xué) 2018
[3]面向微服務(wù)架構(gòu)的容器云平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)[D]. 于澤萍.哈爾濱工業(yè)大學(xué) 2018
[4]支持分布式定時(shí)任務(wù)調(diào)度的Web服務(wù)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 郭一鳴.北京郵電大學(xué) 2018
[5]基于HTTP協(xié)議的網(wǎng)絡(luò)數(shù)據(jù)分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 段凌軒.哈爾濱工業(yè)大學(xué) 2016
[6]基于Maven的CWAP框架基礎(chǔ)單元層和基礎(chǔ)服務(wù)層的設(shè)計(jì)與實(shí)現(xiàn)[D]. 錢言佳.南京大學(xué) 2016
[7]基于J2EE的CRUD組合組件的設(shè)計(jì)與實(shí)現(xiàn)[D]. 徐啟江.東北大學(xué) 2016
[8]Robots協(xié)議與互聯(lián)網(wǎng)競(jìng)爭(zhēng)規(guī)治[D]. 李晴.清華大學(xué) 2015
[9]基于Quartz的消息溝通平臺(tái)的研究[D]. 朱哲明.北京郵電大學(xué) 2013
本文編號(hào):3363627
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3363627.html
最近更新
教材專著