基于Hadoop分布式網(wǎng)絡(luò)爬蟲技術(shù)的研究
發(fā)布時間:2023-10-13 21:29
隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,互聯(lián)網(wǎng)上站點(diǎn)越來越多,簡單的網(wǎng)絡(luò)爬蟲已經(jīng)不能實現(xiàn)對某些大型站點(diǎn)的大數(shù)據(jù)存儲。解決該問題的最關(guān)鍵是引入分布式存儲技術(shù)。Hadoop是具有分布式存儲HDFS(Hadoop Distributes File System)和分布式計算MapReduce功能的軟件框架,因此對基于Hadoop的分布式網(wǎng)絡(luò)爬蟲的研究具有重要的意義。 本文對Hadoop存儲系統(tǒng)和網(wǎng)絡(luò)爬蟲技術(shù)分析后,對計算URL權(quán)重算法進(jìn)行了改進(jìn),搭建了分布式爬蟲的整體架構(gòu),設(shè)計并實現(xiàn)了各個爬蟲模塊。文中主要研究如下: (1)傳統(tǒng)的URL權(quán)重算法只考慮了網(wǎng)頁的目錄深度和重要度,本文改進(jìn)的算法中增加了對網(wǎng)頁內(nèi)容重要度的考慮,提高了URL計算權(quán)重的精度。 (2)由于在網(wǎng)絡(luò)爬蟲抓取過程中需要頻繁的解析URL,導(dǎo)致對DNS服務(wù)器的壓力過大。本文采用了DNS緩存技術(shù),實現(xiàn)了在短時間內(nèi)解析同一主機(jī)名下的URL時,將之前解析過且被存在緩存中的結(jié)果直接進(jìn)行利用。 (3)為了解決爬蟲過程中爬取鏈接重復(fù)的問題,采用了布隆過濾器對URL進(jìn)行消重的方法。在更新模塊設(shè)計了網(wǎng)頁更新算法,該算法是只有在網(wǎng)頁變化時,才將新的URL加入到未訪問的...
【文章頁數(shù)】:59 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 課題研究背景
1.2 課題的研究意義
1.3 國內(nèi)外研究現(xiàn)狀
1.3.1 Hadoop相關(guān)技術(shù)的國內(nèi)外研究現(xiàn)狀
1.3.2 分布式爬蟲研究現(xiàn)狀
1.4 本文的主要組織和結(jié)構(gòu)
2 網(wǎng)絡(luò)爬蟲與分布式系統(tǒng)相關(guān)技術(shù)研究
2.1 Hadoop分布式平臺
2.1.1 分布式文件系統(tǒng)HDFS
2.1.2 Map/Reduce分布式計算模型
2.2 網(wǎng)絡(luò)爬蟲原理
2.2.1 網(wǎng)絡(luò)爬蟲的物理結(jié)構(gòu)
2.2.2 網(wǎng)絡(luò)爬蟲的基本結(jié)構(gòu)
2.2.3 分布式網(wǎng)絡(luò)爬蟲
2.4 本章小結(jié)
3 分布式網(wǎng)絡(luò)爬蟲設(shè)計
3.1 分布式網(wǎng)絡(luò)爬蟲架構(gòu)設(shè)計
3.1.1 單線程網(wǎng)絡(luò)爬蟲
3.1.2 分布式網(wǎng)絡(luò)爬蟲結(jié)構(gòu)設(shè)計
3.2 分布式網(wǎng)絡(luò)爬蟲的核心算法
3.2.1 網(wǎng)頁多線程抓取機(jī)制
3.2.2 改進(jìn)的網(wǎng)頁權(quán)重評估算法
3.2.3 DNS緩存
3.2.4 URL去重算法
3.2.5 網(wǎng)頁更新算法
3.3 分布式網(wǎng)絡(luò)爬蟲模塊設(shè)計
3.3.1 URL初始化功能模塊化設(shè)計
3.3.2 分布式爬蟲循環(huán)抓取模塊設(shè)計
3.4 分布式網(wǎng)絡(luò)爬蟲數(shù)據(jù)存儲設(shè)計
3.5 本章小結(jié)
4 分布式爬蟲具體實現(xiàn)
4.1 Hadoop環(huán)境搭建
4.1.1 Hadoop硬件環(huán)境和物理結(jié)構(gòu)
4.1.2 Hadoop集群實踐環(huán)境
4.2 分布式網(wǎng)絡(luò)爬蟲控制界面實現(xiàn)
4.3 分布式網(wǎng)絡(luò)爬蟲各模塊的具體實現(xiàn)
4.3.1 種子URL插入模塊實現(xiàn)
4.3.2 URL任務(wù)列表生成模塊實現(xiàn)
4.3.3 網(wǎng)頁抓取模塊實現(xiàn)
4.3.4 數(shù)據(jù)更新模塊實現(xiàn)
4.3.5 分布式爬蟲抓取結(jié)果
4.4 本章小結(jié)
5 性能測試分析
5.1 網(wǎng)絡(luò)爬蟲線程性能測試與分析
5.2 DNS緩存技術(shù)性能測試與分析
5.3 URL權(quán)重計算算法比較測試與分析
5.4 爬蟲節(jié)點(diǎn)的性能測試與分析
5.5 爬蟲對比測試與分析
5.6 本章小結(jié)
結(jié)論和展望
參考文獻(xiàn)
致謝
作者簡介及讀研期間主要科研成果
本文編號:3853806
【文章頁數(shù)】:59 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 課題研究背景
1.2 課題的研究意義
1.3 國內(nèi)外研究現(xiàn)狀
1.3.1 Hadoop相關(guān)技術(shù)的國內(nèi)外研究現(xiàn)狀
1.3.2 分布式爬蟲研究現(xiàn)狀
1.4 本文的主要組織和結(jié)構(gòu)
2 網(wǎng)絡(luò)爬蟲與分布式系統(tǒng)相關(guān)技術(shù)研究
2.1 Hadoop分布式平臺
2.1.1 分布式文件系統(tǒng)HDFS
2.1.2 Map/Reduce分布式計算模型
2.2 網(wǎng)絡(luò)爬蟲原理
2.2.1 網(wǎng)絡(luò)爬蟲的物理結(jié)構(gòu)
2.2.2 網(wǎng)絡(luò)爬蟲的基本結(jié)構(gòu)
2.2.3 分布式網(wǎng)絡(luò)爬蟲
2.4 本章小結(jié)
3 分布式網(wǎng)絡(luò)爬蟲設(shè)計
3.1 分布式網(wǎng)絡(luò)爬蟲架構(gòu)設(shè)計
3.1.1 單線程網(wǎng)絡(luò)爬蟲
3.1.2 分布式網(wǎng)絡(luò)爬蟲結(jié)構(gòu)設(shè)計
3.2 分布式網(wǎng)絡(luò)爬蟲的核心算法
3.2.1 網(wǎng)頁多線程抓取機(jī)制
3.2.2 改進(jìn)的網(wǎng)頁權(quán)重評估算法
3.2.3 DNS緩存
3.2.4 URL去重算法
3.2.5 網(wǎng)頁更新算法
3.3 分布式網(wǎng)絡(luò)爬蟲模塊設(shè)計
3.3.1 URL初始化功能模塊化設(shè)計
3.3.2 分布式爬蟲循環(huán)抓取模塊設(shè)計
3.4 分布式網(wǎng)絡(luò)爬蟲數(shù)據(jù)存儲設(shè)計
3.5 本章小結(jié)
4 分布式爬蟲具體實現(xiàn)
4.1 Hadoop環(huán)境搭建
4.1.1 Hadoop硬件環(huán)境和物理結(jié)構(gòu)
4.1.2 Hadoop集群實踐環(huán)境
4.2 分布式網(wǎng)絡(luò)爬蟲控制界面實現(xiàn)
4.3 分布式網(wǎng)絡(luò)爬蟲各模塊的具體實現(xiàn)
4.3.1 種子URL插入模塊實現(xiàn)
4.3.2 URL任務(wù)列表生成模塊實現(xiàn)
4.3.3 網(wǎng)頁抓取模塊實現(xiàn)
4.3.4 數(shù)據(jù)更新模塊實現(xiàn)
4.3.5 分布式爬蟲抓取結(jié)果
4.4 本章小結(jié)
5 性能測試分析
5.1 網(wǎng)絡(luò)爬蟲線程性能測試與分析
5.2 DNS緩存技術(shù)性能測試與分析
5.3 URL權(quán)重計算算法比較測試與分析
5.4 爬蟲節(jié)點(diǎn)的性能測試與分析
5.5 爬蟲對比測試與分析
5.6 本章小結(jié)
結(jié)論和展望
參考文獻(xiàn)
致謝
作者簡介及讀研期間主要科研成果
本文編號:3853806
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3853806.html
最近更新
教材專著