基于Hadoop的廣域網(wǎng)分布式主題爬蟲系統(tǒng)框架
本文關(guān)鍵詞:基于Hadoop的廣域網(wǎng)分布式主題爬蟲系統(tǒng)框架
更多相關(guān)文章: 分布式爬蟲 Hadoop 爬蟲框架 模板匹配 主題爬蟲
【摘要】:廣域網(wǎng)分布式爬蟲與局域網(wǎng)爬蟲相比有諸多的優(yōu)勢(shì),而現(xiàn)有基于Hadoop分布式爬蟲的設(shè)計(jì)主要是面向局域網(wǎng)環(huán)境的。為解決Hadoop分布式計(jì)算平臺(tái)不適合部署于廣域網(wǎng)的問(wèn)題,設(shè)計(jì)了一個(gè)基于Hadoop的廣域網(wǎng)分布式爬蟲系統(tǒng)框架。爬蟲系統(tǒng)利用消息中間件實(shí)現(xiàn)分布式可靠通信,數(shù)據(jù)存儲(chǔ)采用可伸縮的Hadoop分布式文件系統(tǒng)HDFS,網(wǎng)頁(yè)解析利用MapReduce并行處理,并基于模板匹配實(shí)現(xiàn)框架可定制。系統(tǒng)的性能仿真顯示該框架具有支撐大規(guī)模爬蟲并發(fā)工作的能力。
【作者單位】: 廣東工業(yè)大學(xué)自動(dòng)化學(xué)院;華南理工大學(xué)工商管理學(xué)院;
【關(guān)鍵詞】: 分布式爬蟲 Hadoop 爬蟲框架 模板匹配 主題爬蟲
【基金】:國(guó)家自然科學(xué)基金重大項(xiàng)目(710990403) 中央高;痦(xiàng)目(2014ZM0038) 廣東省省部產(chǎn)學(xué)研結(jié)合項(xiàng)目重點(diǎn)引導(dǎo)項(xiàng)目(2011B090400522)
【分類號(hào)】:TP391.3;TP393.2
【正文快照】: 1引言隨著互聯(lián)網(wǎng)規(guī)模的爆炸式增長(zhǎng),如何對(duì)資源有效搜索挑戰(zhàn)巨大。網(wǎng)絡(luò)爬蟲是搜索引擎的數(shù)據(jù)來(lái)源,決定著爬蟲系統(tǒng)的內(nèi)容豐富程度、反應(yīng)速度、搜集信息與目標(biāo)信息的相關(guān)程度,其性能直接影響搜索引擎的效果[1]。設(shè)計(jì)一個(gè)高性能爬蟲必須考慮兩方面,一方面是智能爬取策略,決定爬蟲
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前7條
1 葉允明,于水,馬范援,宋暉,張嶺;分布式Web Crawler的研究:結(jié)構(gòu)、算法和策略[J];電子學(xué)報(bào);2002年S1期
2 許光清;鄒驥;;系統(tǒng)動(dòng)力學(xué)方法:原理、特點(diǎn)與最新進(jìn)展[J];哈爾濱工業(yè)大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版);2006年04期
3 王琦,唐世渭,楊冬青,王騰蛟;基于DOM的網(wǎng)頁(yè)主題信息自動(dòng)提取[J];計(jì)算機(jī)研究與發(fā)展;2004年10期
4 周德懋;李舟軍;;高性能網(wǎng)絡(luò)爬蟲:研究綜述[J];計(jì)算機(jī)科學(xué);2009年08期
5 劉金紅;陸余良;;主題網(wǎng)絡(luò)爬蟲研究綜述[J];計(jì)算機(jī)應(yīng)用研究;2007年10期
6 王帥;周國(guó)民;王健;;主題爬蟲相關(guān)度算法研究綜述[J];計(jì)算機(jī)與現(xiàn)代化;2013年04期
7 歐健文,董守斌,蔡斌;模板化網(wǎng)頁(yè)主題信息的提取方法[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年S1期
【共引文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 王正;陸余良;劉金紅;施凡;;基于Lucene的互聯(lián)網(wǎng)文獻(xiàn)信息檢索系統(tǒng)的研究[J];安徽大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年05期
2 胡凌云;胡桂蘭;徐勇;李龍澍;;基于Web的新聞文本分類技術(shù)的研究[J];安徽大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年06期
3 張彥超;劉云;李勇;沈波;;基于自動(dòng)生成模板的Web信息抽取技術(shù)[J];北京交通大學(xué)學(xué)報(bào);2009年05期
4 廉捷;劉云;;網(wǎng)絡(luò)輿情中的信息預(yù)處理與自動(dòng)摘要算法[J];北京交通大學(xué)學(xué)報(bào);2010年05期
5 翟東升;楊洋;;基于XML技術(shù)的USPTO專利抽取系統(tǒng)[J];北京工業(yè)大學(xué)學(xué)報(bào);2011年04期
6 馮少卿;都云程;;網(wǎng)頁(yè)結(jié)構(gòu)模板生成新方法研究[J];北京機(jī)械工業(yè)學(xué)院學(xué)報(bào);2007年03期
7 張惠君;李娟;;基于OPAC的館藏評(píng)價(jià)方法探究[J];圖書與情報(bào);2010年04期
8 赫楓齡,左萬(wàn)利;利用超鏈接信息改進(jìn)網(wǎng)頁(yè)爬行器的搜索策略[J];吉林大學(xué)學(xué)報(bào)(信息科學(xué)版);2005年01期
9 于成龍;于洪波;;網(wǎng)絡(luò)爬蟲技術(shù)研究[J];東莞理工學(xué)院學(xué)報(bào);2011年03期
10 毛曉蛟;;搜索引擎中網(wǎng)絡(luò)蜘蛛的研究與實(shí)現(xiàn)[J];電腦編程技巧與維護(hù);2010年18期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 吳晨生;劉彥君;張魯冀;董曉晴;;科普搜索的研究與實(shí)現(xiàn)[A];數(shù)字博物館研究與實(shí)踐(2009)[C];2010年
2 彭亮;卓新建;黃瑋;范文慶;;基于網(wǎng)絡(luò)爬蟲的XSS漏洞掃描系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];第十三屆中國(guó)科協(xié)年會(huì)第11分會(huì)場(chǎng)-中國(guó)智慧城市論壇論文集[C];2011年
3 李連霞;馬軍;陳竹敏;;基于多特征的網(wǎng)頁(yè)內(nèi)容提取研究[A];第三屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2007)論文集[C];2007年
4 汪建偉;高軍;王騰蛟;楊冬青;;一種基于顯示屬性的網(wǎng)頁(yè)信息提取方法[A];全國(guó)網(wǎng)絡(luò)與信息安全技術(shù)研討會(huì)論文集(上冊(cè))[C];2007年
5 吳麗輝;張凱;張剛;王斌;;天羅Web信息采集系統(tǒng)中的性能優(yōu)化[A];第二屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議(NCIRCS-2005)論文集[C];2005年
6 張凱;李魁;張剛;王斌;;基于站點(diǎn)的Web信息采集器研究[A];第二屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議(NCIRCS-2005)論文集[C];2005年
7 時(shí)達(dá)明;林鴻飛;楊志豪;;基于網(wǎng)頁(yè)框架和規(guī)則的網(wǎng)頁(yè)噪音去除方法[A];第三屆學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2006年
8 樸星海;趙鐵軍;鄭德權(quán);張迪;;面向Blog的網(wǎng)絡(luò)爬行器設(shè)計(jì)與實(shí)現(xiàn)[A];中文信息處理前沿進(jìn)展——中國(guó)中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集[C];2006年
9 劉莉;肖詩(shī)斌;王濤;施水才;;基于RSS的分布式博客搜索引擎設(shè)計(jì)[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
10 馮少卿;都云程;施水才;;基于模板的網(wǎng)頁(yè)主題信息抽取[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 李玉鳳;黑龍江省產(chǎn)業(yè)結(jié)構(gòu)優(yōu)化及仿真[D];哈爾濱理工大學(xué);2009年
2 付京;欠發(fā)達(dá)地區(qū)的循環(huán)產(chǎn)業(yè)集群發(fā)展研究[D];武漢理工大學(xué);2010年
3 張長(zhǎng)利;面向特定領(lǐng)域的互聯(lián)網(wǎng)輿情分析技術(shù)研究[D];吉林大學(xué);2011年
4 王修君;高效數(shù)據(jù)流和海量文本處理算法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2011年
5 吳超;信息檢索中top-k問(wèn)題的并行算法及優(yōu)化研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2011年
6 曾雁冰;基于系統(tǒng)動(dòng)力學(xué)方法的醫(yī)療費(fèi)用過(guò)快增長(zhǎng)問(wèn)題建模與控制研究[D];復(fù)旦大學(xué);2011年
7 李常寶;基于索引的web服務(wù)發(fā)現(xiàn)研究[D];北京郵電大學(xué);2011年
8 田俊華;基于本體知識(shí)庫(kù)的教學(xué)資源自動(dòng)采集技術(shù)研究[D];南京師范大學(xué);2011年
9 吳永輝;面向?qū)I(yè)領(lǐng)域的網(wǎng)絡(luò)信息采集及主題檢測(cè)技術(shù)研究與應(yīng)用[D];哈爾濱工業(yè)大學(xué);2010年
10 宮興國(guó);面向企業(yè)技術(shù)創(chuàng)新的成本管理系統(tǒng)理論構(gòu)建及應(yīng)用研究[D];燕山大學(xué);2011年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 雷斌;基于Java技術(shù)的智能化搜索引擎的研究與設(shè)計(jì)[D];哈爾濱工程大學(xué);2010年
2 翁巖青;網(wǎng)頁(yè)抓取策略研究[D];哈爾濱工程大學(xué);2010年
3 王樂(lè)超;Web環(huán)境下文獻(xiàn)信息的提取與匹配研究[D];大連理工大學(xué);2010年
4 程夢(mèng)來(lái);電子商務(wù)信用風(fēng)險(xiǎn)形成的系統(tǒng)動(dòng)力機(jī)制研究[D];河南工業(yè)大學(xué);2010年
5 楊芹;基于最大熵模型的中文網(wǎng)頁(yè)分類器設(shè)計(jì)和實(shí)現(xiàn)[D];蘇州大學(xué);2010年
6 范春曉;基于XML的Web信息抽取技術(shù)研究[D];沈陽(yáng)理工大學(xué);2010年
7 付濤;藏文網(wǎng)頁(yè)除噪技術(shù)研究[D];西北民族大學(xué);2010年
8 王思麗;藏文網(wǎng)頁(yè)自動(dòng)發(fā)現(xiàn)與采集技術(shù)研究[D];西北民族大學(xué);2010年
9 王曉地;Web信息采集技術(shù)研究與實(shí)現(xiàn)[D];華南理工大學(xué);2010年
10 李元乾;基于移動(dòng)搜索用戶關(guān)聯(lián)的信息檢索研究[D];北京交通大學(xué);2010年
【二級(jí)參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 汪濤,樊孝忠,顧益軍,劉林;基于概念分析的主題爬蟲設(shè)計(jì)[J];北京理工大學(xué)學(xué)報(bào);2004年10期
2 趙濤,鄭新奇,鄧祥征;城市土地利用優(yōu)化配置分析應(yīng)用——以濟(jì)南市為例[J];地球信息科學(xué);2004年02期
3 王其藩,徐波,吳冰,賈建國(guó);SD模型在基礎(chǔ)設(shè)施研究中的應(yīng)用[J];管理工程學(xué)報(bào);1999年02期
4 荊濤,左萬(wàn)利;基于可視布局信息的網(wǎng)頁(yè)噪音去除算法[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2004年S1期
5 張敏,高劍峰,馬少平;基于鏈接描述文本及其上下文的Web信息檢索[J];計(jì)算機(jī)研究與發(fā)展;2004年01期
6 張三峰;吳國(guó)新;;一種面向動(dòng)態(tài)異構(gòu)網(wǎng)絡(luò)的容錯(cuò)非對(duì)稱DHT方法[J];計(jì)算機(jī)研究與發(fā)展;2007年06期
7 許光清,鄒驥;可持續(xù)發(fā)展與系統(tǒng)動(dòng)力學(xué)[J];經(jīng)濟(jì)理論與經(jīng)濟(jì)管理;2005年01期
8 常育紅,姜哲,朱小燕;基于標(biāo)記樹表示方法的頁(yè)面結(jié)構(gòu)分析[J];計(jì)算機(jī)工程與應(yīng)用;2004年16期
9 余錦,史樹明;分布式網(wǎng)頁(yè)排序算法及其傳輸模式分析[J];計(jì)算機(jī)工程與應(yīng)用;2004年29期
10 萬(wàn)源;萬(wàn)方;王大震;;一種并行Crawler系統(tǒng)中的URL分配算法設(shè)計(jì)[J];計(jì)算機(jī)工程與應(yīng)用;2006年S1期
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前3條
1 劉忠;基于強(qiáng)化學(xué)習(xí)的垂直搜索引擎網(wǎng)絡(luò)爬蟲的研究與實(shí)現(xiàn)[D];蘇州大學(xué);2008年
2 董晨;基于本體的語(yǔ)義網(wǎng)爬蟲的算法研究與應(yīng)用實(shí)現(xiàn)[D];北京工業(yè)大學(xué);2010年
3 林碧霞;基于領(lǐng)域本體的主題爬蟲研究及實(shí)現(xiàn)[D];西南交通大學(xué);2010年
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 逄利華;張錦春;;基于Hadoop的分布式數(shù)據(jù)庫(kù)系統(tǒng)[J];辦公自動(dòng)化;2014年05期
2 鄭瑋;;Hadoop釋放大數(shù)據(jù)潛能[J];軟件和信息服務(wù);2012年10期
3 劉爾凱;崔振東;;基于HADOOP技術(shù) 實(shí)現(xiàn)銀行歷史數(shù)據(jù)線上化研究[J];金融電子化;2014年01期
4 鄒群;;一種基于Hadoop的數(shù)字圖書存儲(chǔ)系統(tǒng)設(shè)計(jì)方案[J];黑龍江史志;2014年01期
5 諶章義;畢偉;向萬(wàn)紅;王國(guó)安;吳愛國(guó);;基于Hadoop的海量電費(fèi)數(shù)據(jù)處理模型[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2014年05期
6 ;大數(shù)據(jù)不等于Hadoop[J];辦公自動(dòng)化;2014年06期
7 ;保障Hadoop數(shù)據(jù)安全的十大措施[J];計(jì)算機(jī)與網(wǎng)絡(luò);2013年08期
8 王峰;雷葆華;;Hadoop分布式文件系統(tǒng)的模型分析[J];電信科學(xué);2010年12期
9 林偉偉;;一種改進(jìn)的Hadoop數(shù)據(jù)放置策略[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年01期
10 蘇小會(huì);何婧媛;;Hadoop中任務(wù)調(diào)度算法的改進(jìn)[J];電子設(shè)計(jì)工程;2012年22期
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前8條
1 本報(bào)記者 郭濤;機(jī)器大數(shù)據(jù)也離不開Hadoop[N];中國(guó)計(jì)算機(jī)報(bào);2013年
2 本報(bào)記者 王星;Hadoop引發(fā)大數(shù)據(jù)之戰(zhàn)[N];電腦報(bào);2012年
3 本報(bào)記者 鄒大斌;Hadoop一體機(jī)降低大數(shù)據(jù)門檻[N];計(jì)算機(jī)世界;2012年
4 孫定;云計(jì)算、大數(shù)據(jù)與Hadoop[N];計(jì)算機(jī)世界;2011年
5 樂(lè)天 編譯;Hadoop:打開大數(shù)據(jù)之門的金鑰匙[N];計(jì)算機(jī)世界;2012年
6 范范 編譯;Hadoop用戶可以使用多種搜索引擎[N];網(wǎng)絡(luò)世界;2013年
7 波波 編譯;Hadoop、Web 2.0為磁帶帶來(lái)新商機(jī)[N];網(wǎng)絡(luò)世界;2013年
8 本報(bào)記者 郭濤;讓更多人能夠使用Hadoop[N];中國(guó)計(jì)算機(jī)報(bào);2012年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 高仲峰;基于Hadoop平臺(tái)的橋梁結(jié)構(gòu)健康監(jiān)測(cè)系統(tǒng)的應(yīng)用[D];西安科技大學(xué);2012年
2 張麗云;基于Hadoop的企業(yè)知識(shí)管理系統(tǒng)的主要功能的研究與實(shí)現(xiàn)[D];東北師范大學(xué);2014年
3 楊寧;基于Hadoop平臺(tái)的廣告檢測(cè)系統(tǒng)研究與實(shí)現(xiàn)[D];復(fù)旦大學(xué);2012年
4 張興平;基于Hadoop的微博用戶情感分類研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2014年
5 湯艷;基于Hadoop架構(gòu)的移動(dòng)終端云資源訪問(wèn)模式研究與應(yīng)用[D];北京工業(yè)大學(xué);2013年
6 張建;基于Hadoop的云計(jì)算模型研究及氣象應(yīng)用[D];南京信息工程大學(xué);2012年
7 劉寅;Hadoop下基于貝葉斯分類的氣象數(shù)據(jù)挖掘研究[D];南京信息工程大學(xué);2012年
8 邰建華;Hadoop平臺(tái)下的海量數(shù)據(jù)存儲(chǔ)技術(shù)研究[D];東北石油大學(xué);2012年
9 李金朋;基于Hadoop平臺(tái)的重疊社區(qū)發(fā)現(xiàn)算法研究[D];吉林大學(xué);2014年
10 潘振鵬;基于Hadoop的文本分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2013年
,本文編號(hào):884698
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/884698.html