網頁抓取中爬蟲控制器的研究分析
發(fā)布時間:2017-09-07 07:22
本文關鍵詞:網頁抓取中爬蟲控制器的研究分析
【摘要】:隨著互聯網的日益壯大,網頁抓取技術飛速發(fā)展。網頁抓取已成為人們在浩瀚的網絡世界中獲取信息必不可少的工具,如何有效進行網頁抓取成為專業(yè)搜索引擎中網絡爬蟲研究的主要問題。文章介紹了爬蟲控制器和工作原理,并討論了爬蟲控制器的URL隊列管理、頁面抓取線程、索引隊列管理等的抓取策略,并對其未來發(fā)展趨勢進行了展望。
【作者單位】: 中移全通系統(tǒng)集成有限公司;
【關鍵詞】: 爬蟲控制器 隊列管理 線程 索引
【分類號】:TP391.3;TP393.092
【正文快照】: 爬蟲控制器是把網頁抓取和網頁分析用多線程的方式執(zhí)行,并管理多線程之間的數據共享和通信;加上索引相關模塊,爬蟲控制器大致可以分為4個部分:(1)統(tǒng)一資源定位符(Uniform Resource Locator,URL)隊列管理;(2)頁面抓取線程;(3)索引隊列管理;(4)索引線程。其中兩個隊列管理需要處
【相似文獻】
中國期刊全文數據庫 前4條
1 王澤賢;;網絡書目信息抓取系統(tǒng)的設計與實現[J];圖書館學研究;2010年23期
2 陳曉軍;;網上素材輕松保存[J];電腦愛好者;2012年13期
3 宋遠君;趙銘遠;馬靜;;基于本體的無人機情報獲取與分析系統(tǒng)研究[J];計算機科學;2012年S3期
4 ;[J];;年期
中國碩士學位論文全文數據庫 前2條
1 謝治軍;垂直搜索引擎的主題網頁抓取策略研究[D];重慶理工大學;2012年
2 金斯特;基于Web挖掘的主題搜索引擎網頁抓取策略的研究[D];浙江工業(yè)大學;2014年
,本文編號:808175
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/808175.html
教材專著