網(wǎng)絡(luò)爬蟲針對“反爬”網(wǎng)站的爬取策略研究
本文選題:網(wǎng)絡(luò)爬蟲 + 反爬蟲機(jī)制; 參考:《電腦知識與技術(shù)》2016年07期
【摘要】:隨著計(jì)算機(jī)技術(shù)和internet的迅猛發(fā)展,信息和知識呈現(xiàn)爆炸性的增長,如何獲取和利用信息成為現(xiàn)代社會提高競爭力的重要途徑,網(wǎng)絡(luò)爬蟲是達(dá)到這一途徑的重要工具。該文詳細(xì)闡述了網(wǎng)絡(luò)爬蟲的體系結(jié)構(gòu)、工作原理和URL搜索策略,針對某些網(wǎng)站采用的"反爬"措施,提出了幾種爬取策略,以實(shí)現(xiàn)網(wǎng)頁的有效爬取。對實(shí)際網(wǎng)絡(luò)爬蟲獲取信息具有重要的參考價(jià)值。
[Abstract]:With the rapid development of computer technology and internet, information and knowledge are increasing explosively. How to obtain and utilize information has become an important way to improve competitiveness in modern society, and web crawler is an important tool to achieve this approach. In this paper, the architecture, working principle and URL search strategy of web crawler are described in detail, and several crawling strategies are put forward to realize the effective crawling of web pages in view of the "back crawling" measures adopted by some websites. It has important reference value for the actual web crawler to obtain information.
【作者單位】: 湖南農(nóng)業(yè)大學(xué)信息科學(xué)技術(shù)學(xué)院;湖南農(nóng)業(yè)大學(xué)東方科技學(xué)院;
【基金】:湖南省大學(xué)生創(chuàng)新性實(shí)驗(yàn)與研究性學(xué)習(xí)項(xiàng)目:導(dǎo)游精靈(DFCXS201505) 湖南農(nóng)業(yè)大學(xué)東方科技學(xué)院大學(xué)生創(chuàng)新項(xiàng)目:景點(diǎn)達(dá)人(DFCXY201406)
【分類號】:TP393.092
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 彭軻;廖聞劍;;基于瀏覽器服務(wù)的網(wǎng)絡(luò)爬蟲[J];硅谷;2009年04期
2 王江紅;朱麗君;李彩虹;;一種新型網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J];微計(jì)算機(jī)信息;2010年03期
3 孫立偉;何國輝;吳禮發(fā);;網(wǎng)絡(luò)爬蟲技術(shù)的研究[J];電腦知識與技術(shù);2010年15期
4 于成龍;于洪波;;網(wǎng)絡(luò)爬蟲技術(shù)研究[J];東莞理工學(xué)院學(xué)報(bào);2011年03期
5 焦賽美;;網(wǎng)絡(luò)爬蟲技術(shù)的研究[J];瓊州學(xué)院學(xué)報(bào);2011年05期
6 宋海洋;劉曉然;錢?;;一種新的主題網(wǎng)絡(luò)爬蟲爬行策略[J];計(jì)算機(jī)應(yīng)用與軟件;2011年11期
7 劉金紅;陸余良;;主題網(wǎng)絡(luò)爬蟲研究綜述[J];計(jì)算機(jī)應(yīng)用研究;2007年10期
8 曹忠;趙文靜;;一種優(yōu)化的網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J];電腦知識與技術(shù);2008年35期
9 鄒海亮;孫莉;;可定制的聚焦網(wǎng)絡(luò)爬蟲[J];電子科技;2009年01期
10 楊松梅;;網(wǎng)絡(luò)爬蟲[J];硅谷;2009年15期
相關(guān)會議論文 前5條
1 夏詔杰;郭力;李曉霞;;化學(xué)主題網(wǎng)絡(luò)爬蟲的研究[A];第十屆全國計(jì)算(機(jī))化學(xué)學(xué)術(shù)會議論文摘要集[C];2009年
2 李楠;谷利澤;鈕心忻;;用于XSS掃描的網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[A];2010年全國通信安全學(xué)術(shù)會議論文集[C];2010年
3 張軍;于浩;內(nèi)野寬治;;UGC中產(chǎn)品評論信息的挖掘[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國計(jì)算語言學(xué)學(xué)術(shù)會議論文集[C];2007年
4 徐劍;柯貴明;;網(wǎng)絡(luò)爬蟲技術(shù)在搜索引擎中的應(yīng)用[A];全國第21屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會議(CACIS·2010)暨全國第2屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會議論文集[C];2010年
5 王慶廣;何力;韓偉紅;;基于爬蟲的有害網(wǎng)站發(fā)現(xiàn)與判別系統(tǒng)的實(shí)現(xiàn)[A];第27次全國計(jì)算機(jī)安全學(xué)術(shù)交流會論文集[C];2012年
相關(guān)碩士學(xué)位論文 前10條
1 陶俊文;基于Heritrix框架的專業(yè)鎮(zhèn)信息網(wǎng)絡(luò)爬蟲系統(tǒng)[D];華南理工大學(xué);2015年
2 馬漢超;基于主題網(wǎng)絡(luò)爬蟲的汽車行業(yè)多元信息web系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];西南交通大學(xué);2015年
3 金梅;網(wǎng)絡(luò)爬蟲性能提升與功能拓展的研究與實(shí)現(xiàn)[D];吉林大學(xué);2012年
4 芮虎;比價(jià)購物平臺中網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[D];華東理工大學(xué);2013年
5 龔秋艷;并行網(wǎng)絡(luò)爬蟲設(shè)計(jì)與實(shí)現(xiàn)[D];華東師范大學(xué);2010年
6 么士宇;基于分布式計(jì)算的網(wǎng)絡(luò)爬蟲技術(shù)研究[D];大連海事大學(xué);2011年
7 陳奮;過濾型網(wǎng)絡(luò)爬蟲的研究與設(shè)計(jì)[D];廈門大學(xué);2007年
8 趙茉莉;網(wǎng)絡(luò)爬蟲系統(tǒng)的研究與實(shí)現(xiàn)[D];電子科技大學(xué);2013年
9 劉晶晶;面向微博的網(wǎng)絡(luò)爬蟲研究與實(shí)現(xiàn)[D];復(fù)旦大學(xué);2012年
10 耿令寶;分布式環(huán)境下的網(wǎng)絡(luò)爬蟲系統(tǒng)研究與優(yōu)化[D];北京郵電大學(xué);2015年
,本文編號:1884995
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1884995.html