基于ELM的爬蟲檢測(cè)算法研究及在水保網(wǎng)站上的應(yīng)用
【圖文】:
圖 1-1 湖北省水土保持網(wǎng)站站長(zhǎng)之家統(tǒng)計(jì)信息隨著網(wǎng)絡(luò)的發(fā)展,網(wǎng)絡(luò)爬蟲迅速興起。有一些爬蟲不考慮網(wǎng)站的負(fù)擔(dān),使用并行的方式對(duì)網(wǎng)站循環(huán)往復(fù)的提取信息,而不考慮重復(fù)的問(wèn)題,這些爬蟲會(huì)極大增加網(wǎng)站服務(wù)器的負(fù)擔(dān),占用網(wǎng)站大部分的帶寬,使得網(wǎng)站性能大大降低甚至卡死。此外,網(wǎng)絡(luò)爬蟲還會(huì)引發(fā)竊取用戶隱私,盜用知識(shí)產(chǎn)權(quán),竊取商業(yè)秘密等嚴(yán)重問(wèn)題。如何檢測(cè),防范爬蟲,保護(hù)用戶以及網(wǎng)站的數(shù)據(jù)隱私,防止爬蟲大量占用帶寬已成為目前網(wǎng)站維護(hù)人員必須面對(duì)和解決的難題。湖北水土保持網(wǎng)站不僅要承受惡意爬蟲攻擊的風(fēng)險(xiǎn),還會(huì)定期被各大搜索引擎的網(wǎng)絡(luò)爬蟲訪問(wèn),無(wú)形中又增加了網(wǎng)站的負(fù)擔(dān)。搜索引擎是指按照一定的規(guī)則從互聯(lián)網(wǎng)上抓取數(shù)據(jù),并對(duì)其進(jìn)行編碼和索引的系統(tǒng)。目前幾乎每個(gè)大型的互聯(lián)網(wǎng)公司都有自己的搜索引擎,,例如谷歌,雅虎,百度,360,搜狗,新浪等等;ヂ(lián)網(wǎng)上超過(guò)一半的網(wǎng)絡(luò)爬蟲來(lái)自于搜索引擎,搜索引擎中的爬蟲系統(tǒng)負(fù)責(zé)將海量數(shù)據(jù)抓取,對(duì)數(shù)據(jù)信
圖 1-2 搜索引擎工作原理綜上所述,由于網(wǎng)絡(luò)爬蟲的影響,湖北水土保持網(wǎng)站承受了巨大的負(fù)載壓力。何設(shè)計(jì)爬蟲檢測(cè)算法,使湖北省水土保持網(wǎng)站免受爬蟲的攻擊,減小網(wǎng)站的負(fù)擔(dān)對(duì)護(hù)整個(gè)水土保持系統(tǒng)具有重要意義。1.2 國(guó)內(nèi)外研究現(xiàn)狀1.2.1 網(wǎng)絡(luò)爬蟲的發(fā)展現(xiàn)狀網(wǎng)絡(luò)爬蟲是一種為了定位和檢索信息而設(shè)計(jì)的自動(dòng)解析網(wǎng)頁(yè)超文本結(jié)構(gòu)的程序又稱為網(wǎng)絡(luò)機(jī)器人。 網(wǎng)絡(luò)機(jī)器人首次出現(xiàn)在 1993 年,隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)機(jī)人迅速興起。這些機(jī)器人在網(wǎng)上以不同的目的抓取各自的目標(biāo)信息:離線瀏覽器下機(jī)器人用于進(jìn)一步瀏覽的特定網(wǎng)頁(yè)資源;鏈接機(jī)器人檢查 URL 超鏈接有效性;購(gòu)
【學(xué)位授予單位】:華中科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:S157;TP18
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 翟敏;張瑞;王宇;;極限學(xué)習(xí)機(jī)(ELM)網(wǎng)絡(luò)結(jié)構(gòu)調(diào)整方法綜述[J];西安文理學(xué)院學(xué)報(bào)(自然科學(xué)版);2014年01期
2 王鳳嬌;上官周平;;水土保持生態(tài)自然修復(fù)與生態(tài)文明建設(shè)[J];中國(guó)水土保持科學(xué);2013年06期
3 王沫;;對(duì)湖北省水土保持工作的回顧與展望[J];中國(guó)水土保持;2013年04期
4 黃太安;生佳根;徐紅洋;黃澤峰;;一種改進(jìn)的簡(jiǎn)化粒子群算法[J];計(jì)算機(jī)仿真;2013年02期
5 吳登國(guó);李曉明;;基于極限學(xué)習(xí)機(jī)的配電網(wǎng)重構(gòu)[J];電力自動(dòng)化設(shè)備;2013年02期
6 毛力;王運(yùn)濤;劉興陽(yáng);李朝鋒;;基于改進(jìn)極限學(xué)習(xí)機(jī)的短期電力負(fù)荷預(yù)測(cè)方法[J];電力系統(tǒng)保護(hù)與控制;2012年20期
7 吳曉暉;紀(jì)星;;Web爬蟲檢測(cè)技術(shù)綜述[J];湖北汽車工業(yè)學(xué)院學(xué)報(bào);2012年01期
8 李志義;;網(wǎng)絡(luò)爬蟲的優(yōu)化策略探略[J];現(xiàn)代情報(bào);2011年10期
9 劉志雄;梁華;;粒子群算法中隨機(jī)數(shù)參數(shù)的設(shè)置與實(shí)驗(yàn)分析[J];控制理論與應(yīng)用;2010年11期
10 范純龍;袁濱;余周華;徐蕾;;基于陷阱技術(shù)的網(wǎng)絡(luò)爬蟲檢測(cè)[J];計(jì)算機(jī)應(yīng)用;2010年07期
本文編號(hào):2643783
本文鏈接:http://sikaile.net/nykjlw/nyxlw/2643783.html