天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

一種高性能分布式Web Crawler的設(shè)計與實現(xiàn)

發(fā)布時間:2018-11-08 07:04
【摘要】:介紹了一種大規(guī)模、高性能、分布式的Web信息搜集器的設(shè)計及其Java實現(xiàn).提出了Crawler設(shè)計中數(shù)據(jù)結(jié)構(gòu)、系統(tǒng)功能模塊和相關(guān)算法新的設(shè)計思想;對設(shè)計與實現(xiàn)過程中需要解決的關(guān)鍵問題分布式協(xié)調(diào)機制、基于內(nèi)存的URL存儲管理等進(jìn)行了討論,并提供了現(xiàn)階段的設(shè)計、實現(xiàn)方法和分布式無損鏈接分析算法.
[Abstract]:This paper introduces the design and Java implementation of a large scale, high performance and distributed Web information collector. A new design idea of data structure, system function module and related algorithm in Crawler design is put forward. This paper discusses the key problems in the process of design and implementation, such as distributed coordination mechanism, memory based URL storage management, and provides the current design, implementation method and distributed lossless link analysis algorithm.
【作者單位】: 上海交通大學(xué)計算機科學(xué)與工程系 上海交通大學(xué)計算機科學(xué)與工程系 上海交通大學(xué)計算機科學(xué)與工程系 上海交通大學(xué)計算機科學(xué)與工程系 上海交通大學(xué)計算機科學(xué)與工程系
【基金】:上海市科委重點基礎(chǔ)研究項目(02DJ14045)
【分類號】:TP393.09

【共引文獻(xiàn)】

相關(guān)期刊論文 前2條

1 赫楓齡,左萬利;利用超鏈接信息改進(jìn)網(wǎng)頁爬行器的搜索策略[J];吉林大學(xué)學(xué)報(信息科學(xué)版);2005年01期

2 祝宇;夏詔杰;聶峰光;郭力;;支持向量機在化學(xué)主題爬蟲中的應(yīng)用[J];計算機與應(yīng)用化學(xué);2006年04期

相關(guān)會議論文 前3條

1 吳麗輝;張凱;張剛;王斌;;天羅Web信息采集系統(tǒng)中的性能優(yōu)化[A];第二屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議(NCIRCS-2005)論文集[C];2005年

2 張凱;李魁;張剛;王斌;;基于站點的Web信息采集器研究[A];第二屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議(NCIRCS-2005)論文集[C];2005年

3 劉莉;肖詩斌;王濤;施水才;;基于RSS的分布式博客搜索引擎設(shè)計[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年

相關(guān)博士學(xué)位論文 前4條

1 賈自艷;Web信息智能獲取若干關(guān)鍵問題研究[D];中國科學(xué)院研究生院(計算技術(shù)研究所);2004年

2 吳麗輝;個性化的Web信息采集技術(shù)研究[D];中國科學(xué)院研究生院(計算技術(shù)研究所);2005年

3 王輝;基于質(zhì)心具有增量性質(zhì)的主題爬行[D];吉林大學(xué);2007年

4 宗校軍;中文網(wǎng)頁定題采集及分類研究[D];華中科技大學(xué);2006年

相關(guān)碩士學(xué)位論文 前10條

1 姚斌;設(shè)計和實現(xiàn)一個主題搜索引擎[D];內(nèi)蒙古大學(xué);2004年

2 王軍;中文搜索引擎的設(shè)計與實現(xiàn)[D];華中科技大學(xué);2004年

3 丁一;基于Web挖掘的個性化推薦服務(wù)研究[D];華中科技大學(xué);2004年

4 何華;搜索引擎中的數(shù)據(jù)存儲問題研究[D];浙江大學(xué);2005年

5 胡卓穎;專題型網(wǎng)頁搜集器關(guān)鍵算法的研究及實現(xiàn)[D];江西師范大學(xué);2005年

6 歐歌;專題式Web信息獲取技術(shù)研究[D];北京化工大學(xué);2005年

7 劉宇波;面向可下載資源的WEB搜索引擎的設(shè)計與實現(xiàn)[D];湖南大學(xué);2005年

8 周曄;一種增量式并行Web信息采集系統(tǒng)[D];暨南大學(xué);2005年

9 姜杰;專業(yè)搜索引擎分布式Robot設(shè)計研究[D];南京師范大學(xué);2005年

10 翟鳳紅;商品搜索引擎系統(tǒng)[D];吉林大學(xué);2005年

【相似文獻(xiàn)】

相關(guān)會議論文 前1條

1 ;A Framework of Deep Web Crawler[A];第二十七屆中國控制會議論文集[C];2008年

相關(guān)重要報紙文章 前3條

1 福建 陳旭波;兩招解決站內(nèi)搜索[N];電腦報;2002年

2 嚴(yán)河;插件的制作[N];電腦報;2003年

3 飄零雪;MSN Messenger深度歷險[N];中國電腦教育報;2004年

相關(guān)碩士學(xué)位論文 前7條

1 周思思;基于隱馬爾科夫模型的網(wǎng)絡(luò)輿情挖掘[D];中南林業(yè)科技大學(xué);2012年

2 畢成功;互聯(lián)網(wǎng)視頻資源的快速發(fā)現(xiàn)與熱點追蹤技術(shù)[D];哈爾濱工業(yè)大學(xué);2010年

3 艾巍;DHT網(wǎng)絡(luò)的測量與分析[D];電子科技大學(xué);2011年

4 杜言琦;面向論壇頁面的增量搜集技術(shù)研究[D];山東大學(xué);2010年

5 楊頌;面向電子商務(wù)網(wǎng)站的增量爬蟲設(shè)計與實現(xiàn)[D];湖南大學(xué);2010年

6 張志瀟;面向領(lǐng)域的Deep Web的增量爬取[D];山東大學(xué);2012年

7 喬峰;基于模板化網(wǎng)絡(luò)爬蟲技術(shù)的Web網(wǎng)頁信息抽取[D];電子科技大學(xué);2012年

,

本文編號:2317736

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2317736.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶ebab1***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com