網(wǎng)站反爬取機(jī)制的研究與應(yīng)用
[Abstract]:With the development of WEB technology and the diversification of application methods, more and more people begin to rely on network learning, work and life. With the advent of Web 2.0, the World wide Web has become the carrier of a large number of information, which makes the number of crawlers running in the Internet increasing day by day. These crawlers occupy the website resources, causing great harm to the website. It is necessary to find and prevent network crawlers and establish anti-crawling mechanism to avoid the harm caused by crawlers to websites. Anti-crawling mechanism is of great significance in ensuring the normal security of the website, protecting the content of the website and the privacy information of users, and doing data mining based on user access data. After expounding the principle of crawler and studying and analyzing the existing anti-crawling mechanism, this paper designs a real-time anti-crawling mechanism according to the access characteristics of crawler, and separates the anti-crawling detection from the original Web server by using the service architecture (RPC). Make full use of the environmental advantages of the original Web server and the anti-crawling server, and reduce the influence of the anti-crawling mechanism on the original WEB server. In order to improve the accuracy of crawler recognition, the dimension of Web request detection is improved and the complexity of verification logic is increased in order to improve the accuracy of crawler recognition. The experimental results show that this mechanism has good results in the field of anti-crawling and crawling recognition, and has obvious advantages over other anti-crawling mechanisms in real-time, accuracy, coverage and comprehensive evaluation index.
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP393.092
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 鄒科文;李達(dá);鄧婷敏;李嘉振;陳義明;;網(wǎng)絡(luò)爬蟲針對(duì)“反爬”網(wǎng)站的爬取策略研究[J];電腦知識(shí)與技術(shù);2016年07期
2 吳曉暉;紀(jì)星;;Web爬蟲檢測(cè)技術(shù)綜述[J];湖北汽車工業(yè)學(xué)院學(xué)報(bào);2012年01期
3 范純龍;袁濱;余周華;徐蕾;;基于陷阱技術(shù)的網(wǎng)絡(luò)爬蟲檢測(cè)[J];計(jì)算機(jī)應(yīng)用;2010年07期
4 劉慶杰;孫旭光;王小英;;通過(guò)Filter抵御網(wǎng)頁(yè)爬蟲[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2010年01期
5 徐鵬;林森;;基于C4.5決策樹的流量分類方法[J];軟件學(xué)報(bào);2009年10期
6 張寧;;基于滑動(dòng)窗口的時(shí)間序列離群數(shù)據(jù)挖掘[J];燕山大學(xué)學(xué)報(bào);2008年06期
7 嚴(yán)偉;宓為建;萇道方;何軍良;;一種基于最佳優(yōu)先搜索算法的集裝箱堆場(chǎng)場(chǎng)橋調(diào)度策略[J];中國(guó)工程機(jī)械學(xué)報(bào);2008年01期
8 郭偉剛;鞠時(shí)光;;電子商務(wù)網(wǎng)站中Web Robot的檢測(cè)技術(shù)[J];計(jì)算機(jī)工程;2005年23期
9 郭偉剛,鞠時(shí)光;一個(gè)基于事務(wù)分析的Web Robot檢測(cè)算法[J];計(jì)算機(jī)應(yīng)用;2005年07期
10 梁延華,王振興;Web Robots安全策略研究[J];信息工程大學(xué)學(xué)報(bào);2003年03期
相關(guān)碩士學(xué)位論文 前10條
1 林旭;基于WEB訪問日志的異常檢測(cè)技術(shù)研究[D];中國(guó)海洋大學(xué);2015年
2 黃燕紅;基于SVM算法的癌癥基因數(shù)據(jù)分類研究[D];蘇州大學(xué);2015年
3 初光磊;SVM在數(shù)據(jù)挖掘中的應(yīng)用[D];北京郵電大學(xué);2015年
4 閆明;高可用可擴(kuò)展集群化Redis設(shè)計(jì)與實(shí)現(xiàn)[D];西安電子科技大學(xué);2014年
5 史珊姍;基于決策樹C4.5算法的網(wǎng)絡(luò)入侵檢測(cè)研究[D];蘇州大學(xué);2012年
6 史晨超;基于滑動(dòng)窗口的網(wǎng)上銀行數(shù)據(jù)流頻繁模式研究[D];復(fù)旦大學(xué);2012年
7 段江麗;基于SVM的文本分類系統(tǒng)中特征選擇與權(quán)重計(jì)算算法的研究[D];太原理工大學(xué);2011年
8 余舟華;基于陷阱的spider檢測(cè)評(píng)價(jià)模型研究[D];沈陽(yáng)航空航天大學(xué);2011年
9 宋婷;基于SVM的網(wǎng)絡(luò)爬蟲檢測(cè)研究與實(shí)現(xiàn)[D];天津大學(xué);2010年
10 葉斌;分布式企業(yè)服務(wù)總線消息機(jī)制的研究與實(shí)現(xiàn)[D];浙江大學(xué);2010年
,本文編號(hào):2506337
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2506337.html