天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于ELM的爬蟲檢測(cè)算法研究及在水保網(wǎng)站上的應(yīng)用

發(fā)布時(shí)間:2020-04-28 19:19
【摘要】:當(dāng)前,水土流失已經(jīng)變成我國(guó)最緊要的環(huán)境問(wèn)題,制約著人口、資源、環(huán)境和經(jīng)濟(jì)的共同發(fā)展。為了防止水土流失和恢復(fù)生態(tài)環(huán)境,全國(guó)各地先后開展了水土保持工作,并逐步建立起了各個(gè)水土保持信息共享網(wǎng)站。隨著互聯(lián)網(wǎng)搜索引擎技術(shù)的突飛猛進(jìn),搜索引擎的網(wǎng)絡(luò)爬蟲日漸泛濫。這些網(wǎng)絡(luò)爬蟲給網(wǎng)站服務(wù)器帶來(lái)了巨大的處理負(fù)擔(dān),很多水保網(wǎng)站因此陷入癱瘓,給水土保持工作帶來(lái)了巨大的壓力。為了維護(hù)湖北水土保持網(wǎng)站的穩(wěn)定,本文運(yùn)用機(jī)器學(xué)習(xí)的思想,設(shè)計(jì)了能夠根據(jù)訪問(wèn)者特征來(lái)檢測(cè)爬蟲的算法,并應(yīng)用到湖北水土保持網(wǎng)站上抵御爬蟲。本文主要研究?jī)?nèi)容如下:(1)論文分析了目前國(guó)內(nèi)外檢測(cè)網(wǎng)絡(luò)爬蟲的算法現(xiàn)狀。深入研究了網(wǎng)絡(luò)爬蟲的工作原理和單隱層前饋式神經(jīng)網(wǎng)絡(luò)算法-極限學(xué)習(xí)機(jī)ELM,提出了基于ELM的爬蟲檢測(cè)算法。(2)論文在仔細(xì)研究湖北水土保持網(wǎng)站后,根據(jù)網(wǎng)站特點(diǎn)建立能夠充分描述水土保持網(wǎng)站訪問(wèn)者特征的特征模型。(3)設(shè)計(jì)實(shí)現(xiàn)了基于極限學(xué)習(xí)機(jī)算法的網(wǎng)絡(luò)爬蟲攔截器,將其應(yīng)用到湖北水土保持網(wǎng)站中。通過(guò)使用網(wǎng)絡(luò)爬蟲訪問(wèn)網(wǎng)站來(lái)測(cè)試實(shí)際檢測(cè)效果,結(jié)果表明基于ELM的爬蟲檢測(cè)算法具有良好的爬蟲檢測(cè)性能,包括較高的檢測(cè)精度與較短的爬蟲檢測(cè)周期。最后分析了這種算法的適用性與局限性。
【圖文】:

站長(zhǎng),網(wǎng)站,水土保持,統(tǒng)計(jì)信息


圖 1-1 湖北省水土保持網(wǎng)站站長(zhǎng)之家統(tǒng)計(jì)信息隨著網(wǎng)絡(luò)的發(fā)展,網(wǎng)絡(luò)爬蟲迅速興起。有一些爬蟲不考慮網(wǎng)站的負(fù)擔(dān),使用并行的方式對(duì)網(wǎng)站循環(huán)往復(fù)的提取信息,而不考慮重復(fù)的問(wèn)題,這些爬蟲會(huì)極大增加網(wǎng)站服務(wù)器的負(fù)擔(dān),占用網(wǎng)站大部分的帶寬,使得網(wǎng)站性能大大降低甚至卡死。此外,網(wǎng)絡(luò)爬蟲還會(huì)引發(fā)竊取用戶隱私,盜用知識(shí)產(chǎn)權(quán),竊取商業(yè)秘密等嚴(yán)重問(wèn)題。如何檢測(cè),防范爬蟲,保護(hù)用戶以及網(wǎng)站的數(shù)據(jù)隱私,防止爬蟲大量占用帶寬已成為目前網(wǎng)站維護(hù)人員必須面對(duì)和解決的難題。湖北水土保持網(wǎng)站不僅要承受惡意爬蟲攻擊的風(fēng)險(xiǎn),還會(huì)定期被各大搜索引擎的網(wǎng)絡(luò)爬蟲訪問(wèn),無(wú)形中又增加了網(wǎng)站的負(fù)擔(dān)。搜索引擎是指按照一定的規(guī)則從互聯(lián)網(wǎng)上抓取數(shù)據(jù),并對(duì)其進(jìn)行編碼和索引的系統(tǒng)。目前幾乎每個(gè)大型的互聯(lián)網(wǎng)公司都有自己的搜索引擎,,例如谷歌,雅虎,百度,360,搜狗,新浪等等;ヂ(lián)網(wǎng)上超過(guò)一半的網(wǎng)絡(luò)爬蟲來(lái)自于搜索引擎,搜索引擎中的爬蟲系統(tǒng)負(fù)責(zé)將海量數(shù)據(jù)抓取,對(duì)數(shù)據(jù)信

網(wǎng)絡(luò)爬蟲,網(wǎng)絡(luò)機(jī)器人,網(wǎng)站,水土保持


圖 1-2 搜索引擎工作原理綜上所述,由于網(wǎng)絡(luò)爬蟲的影響,湖北水土保持網(wǎng)站承受了巨大的負(fù)載壓力。何設(shè)計(jì)爬蟲檢測(cè)算法,使湖北省水土保持網(wǎng)站免受爬蟲的攻擊,減小網(wǎng)站的負(fù)擔(dān)對(duì)護(hù)整個(gè)水土保持系統(tǒng)具有重要意義。1.2 國(guó)內(nèi)外研究現(xiàn)狀1.2.1 網(wǎng)絡(luò)爬蟲的發(fā)展現(xiàn)狀網(wǎng)絡(luò)爬蟲是一種為了定位和檢索信息而設(shè)計(jì)的自動(dòng)解析網(wǎng)頁(yè)超文本結(jié)構(gòu)的程序又稱為網(wǎng)絡(luò)機(jī)器人。 網(wǎng)絡(luò)機(jī)器人首次出現(xiàn)在 1993 年,隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)機(jī)人迅速興起。這些機(jī)器人在網(wǎng)上以不同的目的抓取各自的目標(biāo)信息:離線瀏覽器下機(jī)器人用于進(jìn)一步瀏覽的特定網(wǎng)頁(yè)資源;鏈接機(jī)器人檢查 URL 超鏈接有效性;購(gòu)
【學(xué)位授予單位】:華中科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:S157;TP18

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 翟敏;張瑞;王宇;;極限學(xué)習(xí)機(jī)(ELM)網(wǎng)絡(luò)結(jié)構(gòu)調(diào)整方法綜述[J];西安文理學(xué)院學(xué)報(bào)(自然科學(xué)版);2014年01期

2 王鳳嬌;上官周平;;水土保持生態(tài)自然修復(fù)與生態(tài)文明建設(shè)[J];中國(guó)水土保持科學(xué);2013年06期

3 王沫;;對(duì)湖北省水土保持工作的回顧與展望[J];中國(guó)水土保持;2013年04期

4 黃太安;生佳根;徐紅洋;黃澤峰;;一種改進(jìn)的簡(jiǎn)化粒子群算法[J];計(jì)算機(jī)仿真;2013年02期

5 吳登國(guó);李曉明;;基于極限學(xué)習(xí)機(jī)的配電網(wǎng)重構(gòu)[J];電力自動(dòng)化設(shè)備;2013年02期

6 毛力;王運(yùn)濤;劉興陽(yáng);李朝鋒;;基于改進(jìn)極限學(xué)習(xí)機(jī)的短期電力負(fù)荷預(yù)測(cè)方法[J];電力系統(tǒng)保護(hù)與控制;2012年20期

7 吳曉暉;紀(jì)星;;Web爬蟲檢測(cè)技術(shù)綜述[J];湖北汽車工業(yè)學(xué)院學(xué)報(bào);2012年01期

8 李志義;;網(wǎng)絡(luò)爬蟲的優(yōu)化策略探略[J];現(xiàn)代情報(bào);2011年10期

9 劉志雄;梁華;;粒子群算法中隨機(jī)數(shù)參數(shù)的設(shè)置與實(shí)驗(yàn)分析[J];控制理論與應(yīng)用;2010年11期

10 范純龍;袁濱;余周華;徐蕾;;基于陷阱技術(shù)的網(wǎng)絡(luò)爬蟲檢測(cè)[J];計(jì)算機(jī)應(yīng)用;2010年07期



本文編號(hào):2643783

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/nykjlw/nyxlw/2643783.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶40be1***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com