一種高性能分布式Web Crawler的設(shè)計(jì)與實(shí)現(xiàn)
[Abstract]:This paper introduces the design and Java implementation of a large scale, high performance and distributed Web information collector. A new design idea of data structure, system function module and related algorithm in Crawler design is put forward. This paper discusses the key problems in the process of design and implementation, such as distributed coordination mechanism, memory based URL storage management, and provides the current design, implementation method and distributed lossless link analysis algorithm.
【作者單位】: 上海交通大學(xué)計(jì)算機(jī)科學(xué)與工程系 上海交通大學(xué)計(jì)算機(jī)科學(xué)與工程系 上海交通大學(xué)計(jì)算機(jī)科學(xué)與工程系 上海交通大學(xué)計(jì)算機(jī)科學(xué)與工程系 上海交通大學(xué)計(jì)算機(jī)科學(xué)與工程系
【基金】:上海市科委重點(diǎn)基礎(chǔ)研究項(xiàng)目(02DJ14045)
【分類號(hào)】:TP393.09
【共引文獻(xiàn)】
相關(guān)期刊論文 前2條
1 赫楓齡,左萬(wàn)利;利用超鏈接信息改進(jìn)網(wǎng)頁(yè)爬行器的搜索策略[J];吉林大學(xué)學(xué)報(bào)(信息科學(xué)版);2005年01期
2 祝宇;夏詔杰;聶峰光;郭力;;支持向量機(jī)在化學(xué)主題爬蟲(chóng)中的應(yīng)用[J];計(jì)算機(jī)與應(yīng)用化學(xué);2006年04期
相關(guān)會(huì)議論文 前3條
1 吳麗輝;張凱;張剛;王斌;;天羅Web信息采集系統(tǒng)中的性能優(yōu)化[A];第二屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議(NCIRCS-2005)論文集[C];2005年
2 張凱;李魁;張剛;王斌;;基于站點(diǎn)的Web信息采集器研究[A];第二屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議(NCIRCS-2005)論文集[C];2005年
3 劉莉;肖詩(shī)斌;王濤;施水才;;基于RSS的分布式博客搜索引擎設(shè)計(jì)[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
相關(guān)博士學(xué)位論文 前4條
1 賈自艷;Web信息智能獲取若干關(guān)鍵問(wèn)題研究[D];中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所);2004年
2 吳麗輝;個(gè)性化的Web信息采集技術(shù)研究[D];中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所);2005年
3 王輝;基于質(zhì)心具有增量性質(zhì)的主題爬行[D];吉林大學(xué);2007年
4 宗校軍;中文網(wǎng)頁(yè)定題采集及分類研究[D];華中科技大學(xué);2006年
相關(guān)碩士學(xué)位論文 前10條
1 姚斌;設(shè)計(jì)和實(shí)現(xiàn)一個(gè)主題搜索引擎[D];內(nèi)蒙古大學(xué);2004年
2 王軍;中文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D];華中科技大學(xué);2004年
3 丁一;基于Web挖掘的個(gè)性化推薦服務(wù)研究[D];華中科技大學(xué);2004年
4 何華;搜索引擎中的數(shù)據(jù)存儲(chǔ)問(wèn)題研究[D];浙江大學(xué);2005年
5 胡卓穎;專題型網(wǎng)頁(yè)搜集器關(guān)鍵算法的研究及實(shí)現(xiàn)[D];江西師范大學(xué);2005年
6 歐歌;專題式Web信息獲取技術(shù)研究[D];北京化工大學(xué);2005年
7 劉宇波;面向可下載資源的WEB搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D];湖南大學(xué);2005年
8 周曄;一種增量式并行Web信息采集系統(tǒng)[D];暨南大學(xué);2005年
9 姜杰;專業(yè)搜索引擎分布式Robot設(shè)計(jì)研究[D];南京師范大學(xué);2005年
10 翟鳳紅;商品搜索引擎系統(tǒng)[D];吉林大學(xué);2005年
【相似文獻(xiàn)】
相關(guān)會(huì)議論文 前1條
1 ;A Framework of Deep Web Crawler[A];第二十七屆中國(guó)控制會(huì)議論文集[C];2008年
相關(guān)重要報(bào)紙文章 前3條
1 福建 陳旭波;兩招解決站內(nèi)搜索[N];電腦報(bào);2002年
2 嚴(yán)河;插件的制作[N];電腦報(bào);2003年
3 飄零雪;MSN Messenger深度歷險(xiǎn)[N];中國(guó)電腦教育報(bào);2004年
相關(guān)碩士學(xué)位論文 前7條
1 周思思;基于隱馬爾科夫模型的網(wǎng)絡(luò)輿情挖掘[D];中南林業(yè)科技大學(xué);2012年
2 畢成功;互聯(lián)網(wǎng)視頻資源的快速發(fā)現(xiàn)與熱點(diǎn)追蹤技術(shù)[D];哈爾濱工業(yè)大學(xué);2010年
3 艾巍;DHT網(wǎng)絡(luò)的測(cè)量與分析[D];電子科技大學(xué);2011年
4 杜言琦;面向論壇頁(yè)面的增量搜集技術(shù)研究[D];山東大學(xué);2010年
5 楊頌;面向電子商務(wù)網(wǎng)站的增量爬蟲(chóng)設(shè)計(jì)與實(shí)現(xiàn)[D];湖南大學(xué);2010年
6 張志瀟;面向領(lǐng)域的Deep Web的增量爬取[D];山東大學(xué);2012年
7 喬峰;基于模板化網(wǎng)絡(luò)爬蟲(chóng)技術(shù)的Web網(wǎng)頁(yè)信息抽取[D];電子科技大學(xué);2012年
,本文編號(hào):2317736
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2317736.html