天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Hadoop的廣域網(wǎng)分布式主題爬蟲系統(tǒng)框架

發(fā)布時間:2017-09-20 00:04

  本文關(guān)鍵詞:基于Hadoop的廣域網(wǎng)分布式主題爬蟲系統(tǒng)框架


  更多相關(guān)文章: 分布式爬蟲 Hadoop 爬蟲框架 模板匹配 主題爬蟲


【摘要】:廣域網(wǎng)分布式爬蟲與局域網(wǎng)爬蟲相比有諸多的優(yōu)勢,而現(xiàn)有基于Hadoop分布式爬蟲的設(shè)計主要是面向局域網(wǎng)環(huán)境的。為解決Hadoop分布式計算平臺不適合部署于廣域網(wǎng)的問題,設(shè)計了一個基于Hadoop的廣域網(wǎng)分布式爬蟲系統(tǒng)框架。爬蟲系統(tǒng)利用消息中間件實現(xiàn)分布式可靠通信,數(shù)據(jù)存儲采用可伸縮的Hadoop分布式文件系統(tǒng)HDFS,網(wǎng)頁解析利用MapReduce并行處理,并基于模板匹配實現(xiàn)框架可定制。系統(tǒng)的性能仿真顯示該框架具有支撐大規(guī)模爬蟲并發(fā)工作的能力。
【作者單位】: 廣東工業(yè)大學(xué)自動化學(xué)院;華南理工大學(xué)工商管理學(xué)院;
【關(guān)鍵詞】分布式爬蟲 Hadoop 爬蟲框架 模板匹配 主題爬蟲
【基金】:國家自然科學(xué)基金重大項目(710990403) 中央高;痦椖(2014ZM0038) 廣東省省部產(chǎn)學(xué)研結(jié)合項目重點引導(dǎo)項目(2011B090400522)
【分類號】:TP391.3;TP393.2
【正文快照】: 1引言隨著互聯(lián)網(wǎng)規(guī)模的爆炸式增長,如何對資源有效搜索挑戰(zhàn)巨大。網(wǎng)絡(luò)爬蟲是搜索引擎的數(shù)據(jù)來源,決定著爬蟲系統(tǒng)的內(nèi)容豐富程度、反應(yīng)速度、搜集信息與目標(biāo)信息的相關(guān)程度,其性能直接影響搜索引擎的效果[1]。設(shè)計一個高性能爬蟲必須考慮兩方面,一方面是智能爬取策略,決定爬蟲

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前7條

1 葉允明,于水,馬范援,宋暉,張嶺;分布式Web Crawler的研究:結(jié)構(gòu)、算法和策略[J];電子學(xué)報;2002年S1期

2 許光清;鄒驥;;系統(tǒng)動力學(xué)方法:原理、特點與最新進(jìn)展[J];哈爾濱工業(yè)大學(xué)學(xué)報(社會科學(xué)版);2006年04期

3 王琦,唐世渭,楊冬青,王騰蛟;基于DOM的網(wǎng)頁主題信息自動提取[J];計算機(jī)研究與發(fā)展;2004年10期

4 周德懋;李舟軍;;高性能網(wǎng)絡(luò)爬蟲:研究綜述[J];計算機(jī)科學(xué);2009年08期

5 劉金紅;陸余良;;主題網(wǎng)絡(luò)爬蟲研究綜述[J];計算機(jī)應(yīng)用研究;2007年10期

6 王帥;周國民;王健;;主題爬蟲相關(guān)度算法研究綜述[J];計算機(jī)與現(xiàn)代化;2013年04期

7 歐健文,董守斌,蔡斌;模板化網(wǎng)頁主題信息的提取方法[J];清華大學(xué)學(xué)報(自然科學(xué)版);2005年S1期

【共引文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 王正;陸余良;劉金紅;施凡;;基于Lucene的互聯(lián)網(wǎng)文獻(xiàn)信息檢索系統(tǒng)的研究[J];安徽大學(xué)學(xué)報(自然科學(xué)版);2009年05期

2 胡凌云;胡桂蘭;徐勇;李龍澍;;基于Web的新聞文本分類技術(shù)的研究[J];安徽大學(xué)學(xué)報(自然科學(xué)版);2010年06期

3 張彥超;劉云;李勇;沈波;;基于自動生成模板的Web信息抽取技術(shù)[J];北京交通大學(xué)學(xué)報;2009年05期

4 廉捷;劉云;;網(wǎng)絡(luò)輿情中的信息預(yù)處理與自動摘要算法[J];北京交通大學(xué)學(xué)報;2010年05期

5 翟東升;楊洋;;基于XML技術(shù)的USPTO專利抽取系統(tǒng)[J];北京工業(yè)大學(xué)學(xué)報;2011年04期

6 馮少卿;都云程;;網(wǎng)頁結(jié)構(gòu)模板生成新方法研究[J];北京機(jī)械工業(yè)學(xué)院學(xué)報;2007年03期

7 張惠君;李娟;;基于OPAC的館藏評價方法探究[J];圖書與情報;2010年04期

8 赫楓齡,左萬利;利用超鏈接信息改進(jìn)網(wǎng)頁爬行器的搜索策略[J];吉林大學(xué)學(xué)報(信息科學(xué)版);2005年01期

9 于成龍;于洪波;;網(wǎng)絡(luò)爬蟲技術(shù)研究[J];東莞理工學(xué)院學(xué)報;2011年03期

10 毛曉蛟;;搜索引擎中網(wǎng)絡(luò)蜘蛛的研究與實現(xiàn)[J];電腦編程技巧與維護(hù);2010年18期

中國重要會議論文全文數(shù)據(jù)庫 前10條

1 吳晨生;劉彥君;張魯冀;董曉晴;;科普搜索的研究與實現(xiàn)[A];數(shù)字博物館研究與實踐(2009)[C];2010年

2 彭亮;卓新建;黃瑋;范文慶;;基于網(wǎng)絡(luò)爬蟲的XSS漏洞掃描系統(tǒng)的設(shè)計與實現(xiàn)[A];第十三屆中國科協(xié)年會第11分會場-中國智慧城市論壇論文集[C];2011年

3 李連霞;馬軍;陳竹敏;;基于多特征的網(wǎng)頁內(nèi)容提取研究[A];第三屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會議(HHME2007)論文集[C];2007年

4 汪建偉;高軍;王騰蛟;楊冬青;;一種基于顯示屬性的網(wǎng)頁信息提取方法[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會論文集(上冊)[C];2007年

5 吳麗輝;張凱;張剛;王斌;;天羅Web信息采集系統(tǒng)中的性能優(yōu)化[A];第二屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議(NCIRCS-2005)論文集[C];2005年

6 張凱;李魁;張剛;王斌;;基于站點的Web信息采集器研究[A];第二屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議(NCIRCS-2005)論文集[C];2005年

7 時達(dá)明;林鴻飛;楊志豪;;基于網(wǎng)頁框架和規(guī)則的網(wǎng)頁噪音去除方法[A];第三屆學(xué)生計算語言學(xué)研討會論文集[C];2006年

8 樸星海;趙鐵軍;鄭德權(quán);張迪;;面向Blog的網(wǎng)絡(luò)爬行器設(shè)計與實現(xiàn)[A];中文信息處理前沿進(jìn)展——中國中文信息學(xué)會二十五周年學(xué)術(shù)會議論文集[C];2006年

9 劉莉;肖詩斌;王濤;施水才;;基于RSS的分布式博客搜索引擎設(shè)計[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年

10 馮少卿;都云程;施水才;;基于模板的網(wǎng)頁主題信息抽取[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 李玉鳳;黑龍江省產(chǎn)業(yè)結(jié)構(gòu)優(yōu)化及仿真[D];哈爾濱理工大學(xué);2009年

2 付京;欠發(fā)達(dá)地區(qū)的循環(huán)產(chǎn)業(yè)集群發(fā)展研究[D];武漢理工大學(xué);2010年

3 張長利;面向特定領(lǐng)域的互聯(lián)網(wǎng)輿情分析技術(shù)研究[D];吉林大學(xué);2011年

4 王修君;高效數(shù)據(jù)流和海量文本處理算法研究[D];中國科學(xué)技術(shù)大學(xué);2011年

5 吳超;信息檢索中top-k問題的并行算法及優(yōu)化研究[D];中國科學(xué)技術(shù)大學(xué);2011年

6 曾雁冰;基于系統(tǒng)動力學(xué)方法的醫(yī)療費(fèi)用過快增長問題建模與控制研究[D];復(fù)旦大學(xué);2011年

7 李常寶;基于索引的web服務(wù)發(fā)現(xiàn)研究[D];北京郵電大學(xué);2011年

8 田俊華;基于本體知識庫的教學(xué)資源自動采集技術(shù)研究[D];南京師范大學(xué);2011年

9 吳永輝;面向?qū)I(yè)領(lǐng)域的網(wǎng)絡(luò)信息采集及主題檢測技術(shù)研究與應(yīng)用[D];哈爾濱工業(yè)大學(xué);2010年

10 宮興國;面向企業(yè)技術(shù)創(chuàng)新的成本管理系統(tǒng)理論構(gòu)建及應(yīng)用研究[D];燕山大學(xué);2011年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 雷斌;基于Java技術(shù)的智能化搜索引擎的研究與設(shè)計[D];哈爾濱工程大學(xué);2010年

2 翁巖青;網(wǎng)頁抓取策略研究[D];哈爾濱工程大學(xué);2010年

3 王樂超;Web環(huán)境下文獻(xiàn)信息的提取與匹配研究[D];大連理工大學(xué);2010年

4 程夢來;電子商務(wù)信用風(fēng)險形成的系統(tǒng)動力機(jī)制研究[D];河南工業(yè)大學(xué);2010年

5 楊芹;基于最大熵模型的中文網(wǎng)頁分類器設(shè)計和實現(xiàn)[D];蘇州大學(xué);2010年

6 范春曉;基于XML的Web信息抽取技術(shù)研究[D];沈陽理工大學(xué);2010年

7 付濤;藏文網(wǎng)頁除噪技術(shù)研究[D];西北民族大學(xué);2010年

8 王思麗;藏文網(wǎng)頁自動發(fā)現(xiàn)與采集技術(shù)研究[D];西北民族大學(xué);2010年

9 王曉地;Web信息采集技術(shù)研究與實現(xiàn)[D];華南理工大學(xué);2010年

10 李元乾;基于移動搜索用戶關(guān)聯(lián)的信息檢索研究[D];北京交通大學(xué);2010年

【二級參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 汪濤,樊孝忠,顧益軍,劉林;基于概念分析的主題爬蟲設(shè)計[J];北京理工大學(xué)學(xué)報;2004年10期

2 趙濤,鄭新奇,鄧祥征;城市土地利用優(yōu)化配置分析應(yīng)用——以濟(jì)南市為例[J];地球信息科學(xué);2004年02期

3 王其藩,徐波,吳冰,賈建國;SD模型在基礎(chǔ)設(shè)施研究中的應(yīng)用[J];管理工程學(xué)報;1999年02期

4 荊濤,左萬利;基于可視布局信息的網(wǎng)頁噪音去除算法[J];華南理工大學(xué)學(xué)報(自然科學(xué)版);2004年S1期

5 張敏,高劍峰,馬少平;基于鏈接描述文本及其上下文的Web信息檢索[J];計算機(jī)研究與發(fā)展;2004年01期

6 張三峰;吳國新;;一種面向動態(tài)異構(gòu)網(wǎng)絡(luò)的容錯非對稱DHT方法[J];計算機(jī)研究與發(fā)展;2007年06期

7 許光清,鄒驥;可持續(xù)發(fā)展與系統(tǒng)動力學(xué)[J];經(jīng)濟(jì)理論與經(jīng)濟(jì)管理;2005年01期

8 常育紅,姜哲,朱小燕;基于標(biāo)記樹表示方法的頁面結(jié)構(gòu)分析[J];計算機(jī)工程與應(yīng)用;2004年16期

9 余錦,史樹明;分布式網(wǎng)頁排序算法及其傳輸模式分析[J];計算機(jī)工程與應(yīng)用;2004年29期

10 萬源;萬方;王大震;;一種并行Crawler系統(tǒng)中的URL分配算法設(shè)計[J];計算機(jī)工程與應(yīng)用;2006年S1期

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前3條

1 劉忠;基于強(qiáng)化學(xué)習(xí)的垂直搜索引擎網(wǎng)絡(luò)爬蟲的研究與實現(xiàn)[D];蘇州大學(xué);2008年

2 董晨;基于本體的語義網(wǎng)爬蟲的算法研究與應(yīng)用實現(xiàn)[D];北京工業(yè)大學(xué);2010年

3 林碧霞;基于領(lǐng)域本體的主題爬蟲研究及實現(xiàn)[D];西南交通大學(xué);2010年

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 逄利華;張錦春;;基于Hadoop的分布式數(shù)據(jù)庫系統(tǒng)[J];辦公自動化;2014年05期

2 鄭瑋;;Hadoop釋放大數(shù)據(jù)潛能[J];軟件和信息服務(wù);2012年10期

3 劉爾凱;崔振東;;基于HADOOP技術(shù) 實現(xiàn)銀行歷史數(shù)據(jù)線上化研究[J];金融電子化;2014年01期

4 鄒群;;一種基于Hadoop的數(shù)字圖書存儲系統(tǒng)設(shè)計方案[J];黑龍江史志;2014年01期

5 諶章義;畢偉;向萬紅;王國安;吳愛國;;基于Hadoop的海量電費(fèi)數(shù)據(jù)處理模型[J];計算機(jī)系統(tǒng)應(yīng)用;2014年05期

6 ;大數(shù)據(jù)不等于Hadoop[J];辦公自動化;2014年06期

7 ;保障Hadoop數(shù)據(jù)安全的十大措施[J];計算機(jī)與網(wǎng)絡(luò);2013年08期

8 王峰;雷葆華;;Hadoop分布式文件系統(tǒng)的模型分析[J];電信科學(xué);2010年12期

9 林偉偉;;一種改進(jìn)的Hadoop數(shù)據(jù)放置策略[J];華南理工大學(xué)學(xué)報(自然科學(xué)版);2012年01期

10 蘇小會;何婧媛;;Hadoop中任務(wù)調(diào)度算法的改進(jìn)[J];電子設(shè)計工程;2012年22期

中國重要報紙全文數(shù)據(jù)庫 前8條

1 本報記者 郭濤;機(jī)器大數(shù)據(jù)也離不開Hadoop[N];中國計算機(jī)報;2013年

2 本報記者 王星;Hadoop引發(fā)大數(shù)據(jù)之戰(zhàn)[N];電腦報;2012年

3 本報記者 鄒大斌;Hadoop一體機(jī)降低大數(shù)據(jù)門檻[N];計算機(jī)世界;2012年

4 孫定;云計算、大數(shù)據(jù)與Hadoop[N];計算機(jī)世界;2011年

5 樂天 編譯;Hadoop:打開大數(shù)據(jù)之門的金鑰匙[N];計算機(jī)世界;2012年

6 范范 編譯;Hadoop用戶可以使用多種搜索引擎[N];網(wǎng)絡(luò)世界;2013年

7 波波 編譯;Hadoop、Web 2.0為磁帶帶來新商機(jī)[N];網(wǎng)絡(luò)世界;2013年

8 本報記者 郭濤;讓更多人能夠使用Hadoop[N];中國計算機(jī)報;2012年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 高仲峰;基于Hadoop平臺的橋梁結(jié)構(gòu)健康監(jiān)測系統(tǒng)的應(yīng)用[D];西安科技大學(xué);2012年

2 張麗云;基于Hadoop的企業(yè)知識管理系統(tǒng)的主要功能的研究與實現(xiàn)[D];東北師范大學(xué);2014年

3 楊寧;基于Hadoop平臺的廣告檢測系統(tǒng)研究與實現(xiàn)[D];復(fù)旦大學(xué);2012年

4 張興平;基于Hadoop的微博用戶情感分類研究與實現(xiàn)[D];西安電子科技大學(xué);2014年

5 湯艷;基于Hadoop架構(gòu)的移動終端云資源訪問模式研究與應(yīng)用[D];北京工業(yè)大學(xué);2013年

6 張建;基于Hadoop的云計算模型研究及氣象應(yīng)用[D];南京信息工程大學(xué);2012年

7 劉寅;Hadoop下基于貝葉斯分類的氣象數(shù)據(jù)挖掘研究[D];南京信息工程大學(xué);2012年

8 邰建華;Hadoop平臺下的海量數(shù)據(jù)存儲技術(shù)研究[D];東北石油大學(xué);2012年

9 李金朋;基于Hadoop平臺的重疊社區(qū)發(fā)現(xiàn)算法研究[D];吉林大學(xué);2014年

10 潘振鵬;基于Hadoop的文本分類系統(tǒng)的設(shè)計與實現(xiàn)[D];哈爾濱工業(yè)大學(xué);2013年

,

本文編號:884698

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/884698.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶a8c27***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com