分布式爬蟲技術(shù)研究與實現(xiàn)
發(fā)布時間:2021-10-29 20:31
網(wǎng)絡(luò)中的數(shù)據(jù)蘊藏著大量有價值信息,在實際的項目需求中,為了實現(xiàn)能夠自動地對網(wǎng)頁上大量數(shù)據(jù)信息的收集、解析、格式化存儲,提出了基于分布式的網(wǎng)絡(luò)爬蟲技術(shù),探討網(wǎng)絡(luò)大數(shù)據(jù)的爬取和采集的實現(xiàn)方法和技術(shù)細(xì)節(jié)。通過分布式集群的搭建,將Nutch爬蟲框架搭建在Hadoop分布式集群上,并且利用Zookeeper對集群進(jìn)行協(xié)調(diào)調(diào)度服務(wù),采用Redis高性能的Key-Value數(shù)據(jù)庫對數(shù)據(jù)進(jìn)行存儲。在框架中結(jié)合Solr引擎,將抓取信息清晰地索引,展示。通過提取頁面信息算法優(yōu)化提取頁面信息流程,關(guān)鍵詞匹配優(yōu)化算法獲取指標(biāo)相關(guān)數(shù)據(jù),完成對數(shù)據(jù)采集和頁面解析,進(jìn)而實現(xiàn)分布式、精準(zhǔn)化和模塊化爬取網(wǎng)頁數(shù)據(jù)的目的。通過對Hadoop集群的搭建,Nutch項目的實現(xiàn),及大量數(shù)據(jù)的采集,驗證了基于Nutch的分布式網(wǎng)絡(luò)爬蟲的架構(gòu)和運行流程的技術(shù)可行性。通過實驗對比數(shù)據(jù)表明,提取頁面信息算法,關(guān)鍵詞匹配優(yōu)化算法很大程度的優(yōu)化了爬蟲的爬取過程,使抓取流程更嚴(yán)謹(jǐn)和精準(zhǔn)。將基于Nutch的分布式爬蟲與其他同類爬蟲做多組實驗數(shù)據(jù)對比分析,印證了分布式爬蟲技術(shù)在性能和準(zhǔn)確度方面上都優(yōu)于傳統(tǒng)其他爬蟲,其更適用于對海量數(shù)據(jù)的爬取,其速...
【文章來源】:遼寧石油化工大學(xué)遼寧省
【文章頁數(shù)】:73 頁
【學(xué)位級別】:碩士
【部分圖文】:
Nutch體系結(jié)構(gòu)圖
10?瀄瀄圖2.3Nutch的抓取流程圖Fig.2.3Nutchcaptureflowchart2.1.3Nutch的插件機制Nutch作為一種很受歡迎的主流的搜索引擎框架,開源且功能強大,除此以外還有其獨特的優(yōu)點,插件機制。這種機制極大的方便了開發(fā)工作,并且滿足了系統(tǒng)的個性化需求。為了方便擴展,Nutch預(yù)留了擴展點,并且提供了擴展點的基本實現(xiàn)。Nutch的插件體系結(jié)構(gòu)圖如下圖2.4所示[31]-[33]:圖2.4Nutch插件體系結(jié)構(gòu)圖Fig.2.4Nutchpluginarchitecturediagram有以上擴展點做支撐,可以通過框架預(yù)留的接口實現(xiàn)自定義功能,其插件機制的優(yōu)
12圖2.5Hadoop框架圖Fig.2.5Hadoopframeworkdiagram2.2.2HDFS分布式文件系統(tǒng)對集群文件統(tǒng)一管理HDFS全稱為HadoopDistributedFileSystem,是分布式文件系統(tǒng),其設(shè)計思想要利于以下幾點,首先,要能夠存儲海量數(shù)據(jù),并且達(dá)到幾百TB大小的單位。HDFS支持流式數(shù)據(jù)訪問,系統(tǒng)采用的是一次寫入,多次讀取的訪問方式?梢圆渴鹪诹畠r的服務(wù)器集群上,對硬件要求度不高[39]-[40]。分布式文件系統(tǒng)HDFS的內(nèi)部體系結(jié)構(gòu)如下圖2.6所示:圖2.6分布式文件系統(tǒng)體系結(jié)構(gòu)圖Fig.2.6Distributedfilesystemarchitecturediagram圖2.6中主要展示了HDFS三個重要角色,Namenode、Datanode和Client?梢钥
【參考文獻(xiàn)】:
期刊論文
[1]Python框架下基于主題的數(shù)據(jù)爬取技術(shù)研究與實現(xiàn)[J]. 嚴(yán)斐,肖璞. 計算機時代. 2018(11)
[2]Web在線爬蟲的設(shè)計與實現(xiàn)[J]. 韓前進(jìn). 軟件. 2018(09)
[3]網(wǎng)絡(luò)爬蟲的研究與設(shè)計[J]. 鄭定超,麻少秋. 電腦知識與技術(shù). 2018(25)
[4]基于Scrapy的微博爬蟲設(shè)計[J]. 張安啟,羅批. 電子技術(shù)與軟件工程. 2018(13)
[5]主動獲取式的分布式網(wǎng)絡(luò)爬蟲集群方法研究[J]. 董禹龍,楊連賀,馬欣. 計算機科學(xué). 2018(S1)
[6]基于大數(shù)據(jù)的城市商圈發(fā)展指數(shù)構(gòu)建及測度方法[J]. 葉祥鳳,劉文娜,譚任君,王開達(dá). 管理觀察. 2018(15)
[7]大數(shù)據(jù)時代下基于Python的網(wǎng)絡(luò)信息爬取技術(shù)[J]. 劉順程,岳思穎. 電子技術(shù)與軟件工程. 2017(21)
[8]大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)[J]. 謝克武. 電子制作. 2017(09)
[9]社交網(wǎng)絡(luò)數(shù)據(jù)采集技術(shù)研究與應(yīng)用[J]. 徐雁飛,劉淵,吳文鵬. 計算機科學(xué). 2017(01)
[10]基于網(wǎng)絡(luò)爬蟲和改進(jìn)的LCS算法的網(wǎng)站更新監(jiān)測[J]. 周孝錁,郭克華. 計算機應(yīng)用與軟件. 2017(01)
本文編號:3465345
【文章來源】:遼寧石油化工大學(xué)遼寧省
【文章頁數(shù)】:73 頁
【學(xué)位級別】:碩士
【部分圖文】:
Nutch體系結(jié)構(gòu)圖
10?瀄瀄圖2.3Nutch的抓取流程圖Fig.2.3Nutchcaptureflowchart2.1.3Nutch的插件機制Nutch作為一種很受歡迎的主流的搜索引擎框架,開源且功能強大,除此以外還有其獨特的優(yōu)點,插件機制。這種機制極大的方便了開發(fā)工作,并且滿足了系統(tǒng)的個性化需求。為了方便擴展,Nutch預(yù)留了擴展點,并且提供了擴展點的基本實現(xiàn)。Nutch的插件體系結(jié)構(gòu)圖如下圖2.4所示[31]-[33]:圖2.4Nutch插件體系結(jié)構(gòu)圖Fig.2.4Nutchpluginarchitecturediagram有以上擴展點做支撐,可以通過框架預(yù)留的接口實現(xiàn)自定義功能,其插件機制的優(yōu)
12圖2.5Hadoop框架圖Fig.2.5Hadoopframeworkdiagram2.2.2HDFS分布式文件系統(tǒng)對集群文件統(tǒng)一管理HDFS全稱為HadoopDistributedFileSystem,是分布式文件系統(tǒng),其設(shè)計思想要利于以下幾點,首先,要能夠存儲海量數(shù)據(jù),并且達(dá)到幾百TB大小的單位。HDFS支持流式數(shù)據(jù)訪問,系統(tǒng)采用的是一次寫入,多次讀取的訪問方式?梢圆渴鹪诹畠r的服務(wù)器集群上,對硬件要求度不高[39]-[40]。分布式文件系統(tǒng)HDFS的內(nèi)部體系結(jié)構(gòu)如下圖2.6所示:圖2.6分布式文件系統(tǒng)體系結(jié)構(gòu)圖Fig.2.6Distributedfilesystemarchitecturediagram圖2.6中主要展示了HDFS三個重要角色,Namenode、Datanode和Client?梢钥
【參考文獻(xiàn)】:
期刊論文
[1]Python框架下基于主題的數(shù)據(jù)爬取技術(shù)研究與實現(xiàn)[J]. 嚴(yán)斐,肖璞. 計算機時代. 2018(11)
[2]Web在線爬蟲的設(shè)計與實現(xiàn)[J]. 韓前進(jìn). 軟件. 2018(09)
[3]網(wǎng)絡(luò)爬蟲的研究與設(shè)計[J]. 鄭定超,麻少秋. 電腦知識與技術(shù). 2018(25)
[4]基于Scrapy的微博爬蟲設(shè)計[J]. 張安啟,羅批. 電子技術(shù)與軟件工程. 2018(13)
[5]主動獲取式的分布式網(wǎng)絡(luò)爬蟲集群方法研究[J]. 董禹龍,楊連賀,馬欣. 計算機科學(xué). 2018(S1)
[6]基于大數(shù)據(jù)的城市商圈發(fā)展指數(shù)構(gòu)建及測度方法[J]. 葉祥鳳,劉文娜,譚任君,王開達(dá). 管理觀察. 2018(15)
[7]大數(shù)據(jù)時代下基于Python的網(wǎng)絡(luò)信息爬取技術(shù)[J]. 劉順程,岳思穎. 電子技術(shù)與軟件工程. 2017(21)
[8]大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)[J]. 謝克武. 電子制作. 2017(09)
[9]社交網(wǎng)絡(luò)數(shù)據(jù)采集技術(shù)研究與應(yīng)用[J]. 徐雁飛,劉淵,吳文鵬. 計算機科學(xué). 2017(01)
[10]基于網(wǎng)絡(luò)爬蟲和改進(jìn)的LCS算法的網(wǎng)站更新監(jiān)測[J]. 周孝錁,郭克華. 計算機應(yīng)用與軟件. 2017(01)
本文編號:3465345
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3465345.html
最近更新
教材專著