網(wǎng)頁抓取中爬蟲控制器的研究分析
發(fā)布時(shí)間:2017-09-07 07:22
本文關(guān)鍵詞:網(wǎng)頁抓取中爬蟲控制器的研究分析
更多相關(guān)文章: 爬蟲控制器 隊(duì)列管理 線程 索引
【摘要】:隨著互聯(lián)網(wǎng)的日益壯大,網(wǎng)頁抓取技術(shù)飛速發(fā)展。網(wǎng)頁抓取已成為人們在浩瀚的網(wǎng)絡(luò)世界中獲取信息必不可少的工具,如何有效進(jìn)行網(wǎng)頁抓取成為專業(yè)搜索引擎中網(wǎng)絡(luò)爬蟲研究的主要問題。文章介紹了爬蟲控制器和工作原理,并討論了爬蟲控制器的URL隊(duì)列管理、頁面抓取線程、索引隊(duì)列管理等的抓取策略,并對其未來發(fā)展趨勢進(jìn)行了展望。
【作者單位】: 中移全通系統(tǒng)集成有限公司;
【關(guān)鍵詞】: 爬蟲控制器 隊(duì)列管理 線程 索引
【分類號】:TP391.3;TP393.092
【正文快照】: 爬蟲控制器是把網(wǎng)頁抓取和網(wǎng)頁分析用多線程的方式執(zhí)行,并管理多線程之間的數(shù)據(jù)共享和通信;加上索引相關(guān)模塊,爬蟲控制器大致可以分為4個(gè)部分:(1)統(tǒng)一資源定位符(Uniform Resource Locator,URL)隊(duì)列管理;(2)頁面抓取線程;(3)索引隊(duì)列管理;(4)索引線程。其中兩個(gè)隊(duì)列管理需要處
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前4條
1 王澤賢;;網(wǎng)絡(luò)書目信息抓取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];圖書館學(xué)研究;2010年23期
2 陳曉軍;;網(wǎng)上素材輕松保存[J];電腦愛好者;2012年13期
3 宋遠(yuǎn)君;趙銘遠(yuǎn);馬靜;;基于本體的無人機(jī)情報(bào)獲取與分析系統(tǒng)研究[J];計(jì)算機(jī)科學(xué);2012年S3期
4 ;[J];;年期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前2條
1 謝治軍;垂直搜索引擎的主題網(wǎng)頁抓取策略研究[D];重慶理工大學(xué);2012年
2 金斯特;基于Web挖掘的主題搜索引擎網(wǎng)頁抓取策略的研究[D];浙江工業(yè)大學(xué);2014年
,本文編號:808175
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/808175.html
最近更新
教材專著