天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Hadoop的廣域網(wǎng)分布式主題爬蟲系統(tǒng)框架

發(fā)布時(shí)間:2017-09-20 00:04

  本文關(guān)鍵詞:基于Hadoop的廣域網(wǎng)分布式主題爬蟲系統(tǒng)框架


  更多相關(guān)文章: 分布式爬蟲 Hadoop 爬蟲框架 模板匹配 主題爬蟲


【摘要】:廣域網(wǎng)分布式爬蟲與局域網(wǎng)爬蟲相比有諸多的優(yōu)勢(shì),而現(xiàn)有基于Hadoop分布式爬蟲的設(shè)計(jì)主要是面向局域網(wǎng)環(huán)境的。為解決Hadoop分布式計(jì)算平臺(tái)不適合部署于廣域網(wǎng)的問(wèn)題,設(shè)計(jì)了一個(gè)基于Hadoop的廣域網(wǎng)分布式爬蟲系統(tǒng)框架。爬蟲系統(tǒng)利用消息中間件實(shí)現(xiàn)分布式可靠通信,數(shù)據(jù)存儲(chǔ)采用可伸縮的Hadoop分布式文件系統(tǒng)HDFS,網(wǎng)頁(yè)解析利用MapReduce并行處理,并基于模板匹配實(shí)現(xiàn)框架可定制。系統(tǒng)的性能仿真顯示該框架具有支撐大規(guī)模爬蟲并發(fā)工作的能力。
【作者單位】: 廣東工業(yè)大學(xué)自動(dòng)化學(xué)院;華南理工大學(xué)工商管理學(xué)院;
【關(guān)鍵詞】分布式爬蟲 Hadoop 爬蟲框架 模板匹配 主題爬蟲
【基金】:國(guó)家自然科學(xué)基金重大項(xiàng)目(710990403) 中央高;痦(xiàng)目(2014ZM0038) 廣東省省部產(chǎn)學(xué)研結(jié)合項(xiàng)目重點(diǎn)引導(dǎo)項(xiàng)目(2011B090400522)
【分類號(hào)】:TP391.3;TP393.2
【正文快照】: 1引言隨著互聯(lián)網(wǎng)規(guī)模的爆炸式增長(zhǎng),如何對(duì)資源有效搜索挑戰(zhàn)巨大。網(wǎng)絡(luò)爬蟲是搜索引擎的數(shù)據(jù)來(lái)源,決定著爬蟲系統(tǒng)的內(nèi)容豐富程度、反應(yīng)速度、搜集信息與目標(biāo)信息的相關(guān)程度,其性能直接影響搜索引擎的效果[1]。設(shè)計(jì)一個(gè)高性能爬蟲必須考慮兩方面,一方面是智能爬取策略,決定爬蟲

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前7條

1 葉允明,于水,馬范援,宋暉,張嶺;分布式Web Crawler的研究:結(jié)構(gòu)、算法和策略[J];電子學(xué)報(bào);2002年S1期

2 許光清;鄒驥;;系統(tǒng)動(dòng)力學(xué)方法:原理、特點(diǎn)與最新進(jìn)展[J];哈爾濱工業(yè)大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版);2006年04期

3 王琦,唐世渭,楊冬青,王騰蛟;基于DOM的網(wǎng)頁(yè)主題信息自動(dòng)提取[J];計(jì)算機(jī)研究與發(fā)展;2004年10期

4 周德懋;李舟軍;;高性能網(wǎng)絡(luò)爬蟲:研究綜述[J];計(jì)算機(jī)科學(xué);2009年08期

5 劉金紅;陸余良;;主題網(wǎng)絡(luò)爬蟲研究綜述[J];計(jì)算機(jī)應(yīng)用研究;2007年10期

6 王帥;周國(guó)民;王健;;主題爬蟲相關(guān)度算法研究綜述[J];計(jì)算機(jī)與現(xiàn)代化;2013年04期

7 歐健文,董守斌,蔡斌;模板化網(wǎng)頁(yè)主題信息的提取方法[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年S1期

【共引文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 王正;陸余良;劉金紅;施凡;;基于Lucene的互聯(lián)網(wǎng)文獻(xiàn)信息檢索系統(tǒng)的研究[J];安徽大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年05期

2 胡凌云;胡桂蘭;徐勇;李龍澍;;基于Web的新聞文本分類技術(shù)的研究[J];安徽大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年06期

3 張彥超;劉云;李勇;沈波;;基于自動(dòng)生成模板的Web信息抽取技術(shù)[J];北京交通大學(xué)學(xué)報(bào);2009年05期

4 廉捷;劉云;;網(wǎng)絡(luò)輿情中的信息預(yù)處理與自動(dòng)摘要算法[J];北京交通大學(xué)學(xué)報(bào);2010年05期

5 翟東升;楊洋;;基于XML技術(shù)的USPTO專利抽取系統(tǒng)[J];北京工業(yè)大學(xué)學(xué)報(bào);2011年04期

6 馮少卿;都云程;;網(wǎng)頁(yè)結(jié)構(gòu)模板生成新方法研究[J];北京機(jī)械工業(yè)學(xué)院學(xué)報(bào);2007年03期

7 張惠君;李娟;;基于OPAC的館藏評(píng)價(jià)方法探究[J];圖書與情報(bào);2010年04期

8 赫楓齡,左萬(wàn)利;利用超鏈接信息改進(jìn)網(wǎng)頁(yè)爬行器的搜索策略[J];吉林大學(xué)學(xué)報(bào)(信息科學(xué)版);2005年01期

9 于成龍;于洪波;;網(wǎng)絡(luò)爬蟲技術(shù)研究[J];東莞理工學(xué)院學(xué)報(bào);2011年03期

10 毛曉蛟;;搜索引擎中網(wǎng)絡(luò)蜘蛛的研究與實(shí)現(xiàn)[J];電腦編程技巧與維護(hù);2010年18期

中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條

1 吳晨生;劉彥君;張魯冀;董曉晴;;科普搜索的研究與實(shí)現(xiàn)[A];數(shù)字博物館研究與實(shí)踐(2009)[C];2010年

2 彭亮;卓新建;黃瑋;范文慶;;基于網(wǎng)絡(luò)爬蟲的XSS漏洞掃描系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];第十三屆中國(guó)科協(xié)年會(huì)第11分會(huì)場(chǎng)-中國(guó)智慧城市論壇論文集[C];2011年

3 李連霞;馬軍;陳竹敏;;基于多特征的網(wǎng)頁(yè)內(nèi)容提取研究[A];第三屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2007)論文集[C];2007年

4 汪建偉;高軍;王騰蛟;楊冬青;;一種基于顯示屬性的網(wǎng)頁(yè)信息提取方法[A];全國(guó)網(wǎng)絡(luò)與信息安全技術(shù)研討會(huì)論文集(上冊(cè))[C];2007年

5 吳麗輝;張凱;張剛;王斌;;天羅Web信息采集系統(tǒng)中的性能優(yōu)化[A];第二屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議(NCIRCS-2005)論文集[C];2005年

6 張凱;李魁;張剛;王斌;;基于站點(diǎn)的Web信息采集器研究[A];第二屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議(NCIRCS-2005)論文集[C];2005年

7 時(shí)達(dá)明;林鴻飛;楊志豪;;基于網(wǎng)頁(yè)框架和規(guī)則的網(wǎng)頁(yè)噪音去除方法[A];第三屆學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2006年

8 樸星海;趙鐵軍;鄭德權(quán);張迪;;面向Blog的網(wǎng)絡(luò)爬行器設(shè)計(jì)與實(shí)現(xiàn)[A];中文信息處理前沿進(jìn)展——中國(guó)中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集[C];2006年

9 劉莉;肖詩(shī)斌;王濤;施水才;;基于RSS的分布式博客搜索引擎設(shè)計(jì)[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年

10 馮少卿;都云程;施水才;;基于模板的網(wǎng)頁(yè)主題信息抽取[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 李玉鳳;黑龍江省產(chǎn)業(yè)結(jié)構(gòu)優(yōu)化及仿真[D];哈爾濱理工大學(xué);2009年

2 付京;欠發(fā)達(dá)地區(qū)的循環(huán)產(chǎn)業(yè)集群發(fā)展研究[D];武漢理工大學(xué);2010年

3 張長(zhǎng)利;面向特定領(lǐng)域的互聯(lián)網(wǎng)輿情分析技術(shù)研究[D];吉林大學(xué);2011年

4 王修君;高效數(shù)據(jù)流和海量文本處理算法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2011年

5 吳超;信息檢索中top-k問(wèn)題的并行算法及優(yōu)化研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2011年

6 曾雁冰;基于系統(tǒng)動(dòng)力學(xué)方法的醫(yī)療費(fèi)用過(guò)快增長(zhǎng)問(wèn)題建模與控制研究[D];復(fù)旦大學(xué);2011年

7 李常寶;基于索引的web服務(wù)發(fā)現(xiàn)研究[D];北京郵電大學(xué);2011年

8 田俊華;基于本體知識(shí)庫(kù)的教學(xué)資源自動(dòng)采集技術(shù)研究[D];南京師范大學(xué);2011年

9 吳永輝;面向?qū)I(yè)領(lǐng)域的網(wǎng)絡(luò)信息采集及主題檢測(cè)技術(shù)研究與應(yīng)用[D];哈爾濱工業(yè)大學(xué);2010年

10 宮興國(guó);面向企業(yè)技術(shù)創(chuàng)新的成本管理系統(tǒng)理論構(gòu)建及應(yīng)用研究[D];燕山大學(xué);2011年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 雷斌;基于Java技術(shù)的智能化搜索引擎的研究與設(shè)計(jì)[D];哈爾濱工程大學(xué);2010年

2 翁巖青;網(wǎng)頁(yè)抓取策略研究[D];哈爾濱工程大學(xué);2010年

3 王樂(lè)超;Web環(huán)境下文獻(xiàn)信息的提取與匹配研究[D];大連理工大學(xué);2010年

4 程夢(mèng)來(lái);電子商務(wù)信用風(fēng)險(xiǎn)形成的系統(tǒng)動(dòng)力機(jī)制研究[D];河南工業(yè)大學(xué);2010年

5 楊芹;基于最大熵模型的中文網(wǎng)頁(yè)分類器設(shè)計(jì)和實(shí)現(xiàn)[D];蘇州大學(xué);2010年

6 范春曉;基于XML的Web信息抽取技術(shù)研究[D];沈陽(yáng)理工大學(xué);2010年

7 付濤;藏文網(wǎng)頁(yè)除噪技術(shù)研究[D];西北民族大學(xué);2010年

8 王思麗;藏文網(wǎng)頁(yè)自動(dòng)發(fā)現(xiàn)與采集技術(shù)研究[D];西北民族大學(xué);2010年

9 王曉地;Web信息采集技術(shù)研究與實(shí)現(xiàn)[D];華南理工大學(xué);2010年

10 李元乾;基于移動(dòng)搜索用戶關(guān)聯(lián)的信息檢索研究[D];北京交通大學(xué);2010年

【二級(jí)參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 汪濤,樊孝忠,顧益軍,劉林;基于概念分析的主題爬蟲設(shè)計(jì)[J];北京理工大學(xué)學(xué)報(bào);2004年10期

2 趙濤,鄭新奇,鄧祥征;城市土地利用優(yōu)化配置分析應(yīng)用——以濟(jì)南市為例[J];地球信息科學(xué);2004年02期

3 王其藩,徐波,吳冰,賈建國(guó);SD模型在基礎(chǔ)設(shè)施研究中的應(yīng)用[J];管理工程學(xué)報(bào);1999年02期

4 荊濤,左萬(wàn)利;基于可視布局信息的網(wǎng)頁(yè)噪音去除算法[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2004年S1期

5 張敏,高劍峰,馬少平;基于鏈接描述文本及其上下文的Web信息檢索[J];計(jì)算機(jī)研究與發(fā)展;2004年01期

6 張三峰;吳國(guó)新;;一種面向動(dòng)態(tài)異構(gòu)網(wǎng)絡(luò)的容錯(cuò)非對(duì)稱DHT方法[J];計(jì)算機(jī)研究與發(fā)展;2007年06期

7 許光清,鄒驥;可持續(xù)發(fā)展與系統(tǒng)動(dòng)力學(xué)[J];經(jīng)濟(jì)理論與經(jīng)濟(jì)管理;2005年01期

8 常育紅,姜哲,朱小燕;基于標(biāo)記樹表示方法的頁(yè)面結(jié)構(gòu)分析[J];計(jì)算機(jī)工程與應(yīng)用;2004年16期

9 余錦,史樹明;分布式網(wǎng)頁(yè)排序算法及其傳輸模式分析[J];計(jì)算機(jī)工程與應(yīng)用;2004年29期

10 萬(wàn)源;萬(wàn)方;王大震;;一種并行Crawler系統(tǒng)中的URL分配算法設(shè)計(jì)[J];計(jì)算機(jī)工程與應(yīng)用;2006年S1期

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前3條

1 劉忠;基于強(qiáng)化學(xué)習(xí)的垂直搜索引擎網(wǎng)絡(luò)爬蟲的研究與實(shí)現(xiàn)[D];蘇州大學(xué);2008年

2 董晨;基于本體的語(yǔ)義網(wǎng)爬蟲的算法研究與應(yīng)用實(shí)現(xiàn)[D];北京工業(yè)大學(xué);2010年

3 林碧霞;基于領(lǐng)域本體的主題爬蟲研究及實(shí)現(xiàn)[D];西南交通大學(xué);2010年

【相似文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 逄利華;張錦春;;基于Hadoop的分布式數(shù)據(jù)庫(kù)系統(tǒng)[J];辦公自動(dòng)化;2014年05期

2 鄭瑋;;Hadoop釋放大數(shù)據(jù)潛能[J];軟件和信息服務(wù);2012年10期

3 劉爾凱;崔振東;;基于HADOOP技術(shù) 實(shí)現(xiàn)銀行歷史數(shù)據(jù)線上化研究[J];金融電子化;2014年01期

4 鄒群;;一種基于Hadoop的數(shù)字圖書存儲(chǔ)系統(tǒng)設(shè)計(jì)方案[J];黑龍江史志;2014年01期

5 諶章義;畢偉;向萬(wàn)紅;王國(guó)安;吳愛國(guó);;基于Hadoop的海量電費(fèi)數(shù)據(jù)處理模型[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2014年05期

6 ;大數(shù)據(jù)不等于Hadoop[J];辦公自動(dòng)化;2014年06期

7 ;保障Hadoop數(shù)據(jù)安全的十大措施[J];計(jì)算機(jī)與網(wǎng)絡(luò);2013年08期

8 王峰;雷葆華;;Hadoop分布式文件系統(tǒng)的模型分析[J];電信科學(xué);2010年12期

9 林偉偉;;一種改進(jìn)的Hadoop數(shù)據(jù)放置策略[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年01期

10 蘇小會(huì);何婧媛;;Hadoop中任務(wù)調(diào)度算法的改進(jìn)[J];電子設(shè)計(jì)工程;2012年22期

中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前8條

1 本報(bào)記者 郭濤;機(jī)器大數(shù)據(jù)也離不開Hadoop[N];中國(guó)計(jì)算機(jī)報(bào);2013年

2 本報(bào)記者 王星;Hadoop引發(fā)大數(shù)據(jù)之戰(zhàn)[N];電腦報(bào);2012年

3 本報(bào)記者 鄒大斌;Hadoop一體機(jī)降低大數(shù)據(jù)門檻[N];計(jì)算機(jī)世界;2012年

4 孫定;云計(jì)算、大數(shù)據(jù)與Hadoop[N];計(jì)算機(jī)世界;2011年

5 樂(lè)天 編譯;Hadoop:打開大數(shù)據(jù)之門的金鑰匙[N];計(jì)算機(jī)世界;2012年

6 范范 編譯;Hadoop用戶可以使用多種搜索引擎[N];網(wǎng)絡(luò)世界;2013年

7 波波 編譯;Hadoop、Web 2.0為磁帶帶來(lái)新商機(jī)[N];網(wǎng)絡(luò)世界;2013年

8 本報(bào)記者 郭濤;讓更多人能夠使用Hadoop[N];中國(guó)計(jì)算機(jī)報(bào);2012年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 高仲峰;基于Hadoop平臺(tái)的橋梁結(jié)構(gòu)健康監(jiān)測(cè)系統(tǒng)的應(yīng)用[D];西安科技大學(xué);2012年

2 張麗云;基于Hadoop的企業(yè)知識(shí)管理系統(tǒng)的主要功能的研究與實(shí)現(xiàn)[D];東北師范大學(xué);2014年

3 楊寧;基于Hadoop平臺(tái)的廣告檢測(cè)系統(tǒng)研究與實(shí)現(xiàn)[D];復(fù)旦大學(xué);2012年

4 張興平;基于Hadoop的微博用戶情感分類研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2014年

5 湯艷;基于Hadoop架構(gòu)的移動(dòng)終端云資源訪問(wèn)模式研究與應(yīng)用[D];北京工業(yè)大學(xué);2013年

6 張建;基于Hadoop的云計(jì)算模型研究及氣象應(yīng)用[D];南京信息工程大學(xué);2012年

7 劉寅;Hadoop下基于貝葉斯分類的氣象數(shù)據(jù)挖掘研究[D];南京信息工程大學(xué);2012年

8 邰建華;Hadoop平臺(tái)下的海量數(shù)據(jù)存儲(chǔ)技術(shù)研究[D];東北石油大學(xué);2012年

9 李金朋;基于Hadoop平臺(tái)的重疊社區(qū)發(fā)現(xiàn)算法研究[D];吉林大學(xué);2014年

10 潘振鵬;基于Hadoop的文本分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2013年

,

本文編號(hào):884698

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/884698.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶a8c27***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
91欧美一区二区三区成人| 国产又粗又爽又猛又黄的| 精品国模一区二区三区欧美| 少妇熟女亚洲色图av天堂| 精品女同一区二区三区| 亚洲淫片一区二区三区| 国产不卡视频一区在线| 欧美成人欧美一级乱黄| 日本黄色美女日本黄色| 成人午夜在线视频观看| 午夜国产精品福利在线观看| 国产免费一区二区三区不卡| 日本精品中文字幕人妻| 中文字幕人妻日本一区二区| 深夜视频成人在线观看| 神马午夜福利免费视频| 亚洲国产另类久久精品| 东京热男人的天堂久久综合| 国产精品亚洲综合色区韩国| 日本不卡在线视频你懂的| 久久精品国产熟女精品| 免费在线成人午夜视频| 制服丝袜美腿美女一区二区| 99久免费精品视频在线观| 国产白丝粉嫩av在线免费观看| 亚洲精品中文字幕熟女| 欧美日韩国产福利在线观看| 91亚洲国产成人久久精品麻豆| 欧美日韩精品久久第一页| 夫妻激情视频一区二区三区| 欧美日韩国内一区二区| 好吊视频有精品永久免费| 丰满人妻熟妇乱又乱精品古代| 亚洲一区二区三区四区性色av| 人妻偷人精品一区二区三区不卡| 黄色国产精品一区二区三区| 欧洲一级片一区二区三区| 91欧美一区二区三区成人| 亚洲欧美一二区日韩高清在线| 日韩高清一区二区三区四区| 国产精品亚洲二区三区|