天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

網(wǎng)頁抓取中爬蟲控制器的研究分析

發(fā)布時(shí)間:2017-09-07 07:22

  本文關(guān)鍵詞:網(wǎng)頁抓取中爬蟲控制器的研究分析


  更多相關(guān)文章: 爬蟲控制器 隊(duì)列管理 線程 索引


【摘要】:隨著互聯(lián)網(wǎng)的日益壯大,網(wǎng)頁抓取技術(shù)飛速發(fā)展。網(wǎng)頁抓取已成為人們在浩瀚的網(wǎng)絡(luò)世界中獲取信息必不可少的工具,如何有效進(jìn)行網(wǎng)頁抓取成為專業(yè)搜索引擎中網(wǎng)絡(luò)爬蟲研究的主要問題。文章介紹了爬蟲控制器和工作原理,并討論了爬蟲控制器的URL隊(duì)列管理、頁面抓取線程、索引隊(duì)列管理等的抓取策略,并對其未來發(fā)展趨勢進(jìn)行了展望。
【作者單位】: 中移全通系統(tǒng)集成有限公司;
【關(guān)鍵詞】爬蟲控制器 隊(duì)列管理 線程 索引
【分類號】:TP391.3;TP393.092
【正文快照】: 爬蟲控制器是把網(wǎng)頁抓取和網(wǎng)頁分析用多線程的方式執(zhí)行,并管理多線程之間的數(shù)據(jù)共享和通信;加上索引相關(guān)模塊,爬蟲控制器大致可以分為4個(gè)部分:(1)統(tǒng)一資源定位符(Uniform Resource Locator,URL)隊(duì)列管理;(2)頁面抓取線程;(3)索引隊(duì)列管理;(4)索引線程。其中兩個(gè)隊(duì)列管理需要處

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前4條

1 王澤賢;;網(wǎng)絡(luò)書目信息抓取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];圖書館學(xué)研究;2010年23期

2 陳曉軍;;網(wǎng)上素材輕松保存[J];電腦愛好者;2012年13期

3 宋遠(yuǎn)君;趙銘遠(yuǎn);馬靜;;基于本體的無人機(jī)情報(bào)獲取與分析系統(tǒng)研究[J];計(jì)算機(jī)科學(xué);2012年S3期

4 ;[J];;年期

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前2條

1 謝治軍;垂直搜索引擎的主題網(wǎng)頁抓取策略研究[D];重慶理工大學(xué);2012年

2 金斯特;基于Web挖掘的主題搜索引擎網(wǎng)頁抓取策略的研究[D];浙江工業(yè)大學(xué);2014年



本文編號:808175

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/808175.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶83bbc***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com