分布式鏈接提取及DNS緩存技術研究
發(fā)布時間:2023-03-09 19:05
隨著互聯(lián)網(wǎng)技術的迅猛發(fā)展,互聯(lián)網(wǎng)應用已無處不在,搜索引擎正成為人們檢索信息必不可少的工具。越來越多的人喜歡在網(wǎng)上購物,但是網(wǎng)上商品種類繁多,價格高低不同且商家良莠不齊,消費者需要花費大量時間去尋找高性價比的商品,同時企業(yè)也需要對同類商品進行競品分析,作出相關決策調(diào)整。因此研發(fā)比價爬蟲系統(tǒng)能夠滿足上述需求。以讀研期間參與研發(fā)的農(nóng)產(chǎn)品質量追溯平臺上的茶產(chǎn)品為例,茶產(chǎn)品的數(shù)據(jù)來源可以通過分布式茶產(chǎn)品比價爬蟲系統(tǒng)來獲取,通過提高對茶產(chǎn)品相關鏈接提取的準確率和分布式爬蟲的DNS緩存解析效率,進而優(yōu)化茶產(chǎn)品比價爬蟲系統(tǒng)的性能。針對主題鏈接精準抽取的問題,通過對鏈接去重和相關鏈接提取進行優(yōu)化。依據(jù)鏈接的多段特征和計數(shù)布隆過濾器的原理,提出基于鏈接特征的計數(shù)布隆過濾器,利用多重哈希對整體和多段部分鏈接的組合進行聯(lián)合判重,降低了鏈接去重的誤判率。通過訪問路徑上錨屬性的富集和頁面主題集成屬性,摒棄噪聲鏈接,提高了主題鏈接準確率。最后進行仿真實驗,驗證結果證明這兩種方法可以提高主題鏈接提取的準確率。針對分布式網(wǎng)絡爬蟲的DNS緩存解析效率的問題,運用了一種正負向雙緩存結合的分布式DNS緩存策略加以優(yōu)化。DNS...
【文章頁數(shù)】:80 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景與意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 鏈接消重研究現(xiàn)狀
1.2.2 主題相關鏈接提取研究現(xiàn)狀
1.2.3 DNS緩存技術研究現(xiàn)狀
1.3 研究問題與內(nèi)容
1.4 論文組織結構
第二章 相關理論與技術
2.1 網(wǎng)絡爬蟲
2.1.1 網(wǎng)絡爬蟲模型
2.1.2 通用爬蟲基本結構
2.1.3 分布式爬蟲系統(tǒng)架構
2.2 網(wǎng)絡爬蟲的主題鏈接提取技術
2.2.1 待爬鏈接去重
2.2.2 主題相關鏈接提取
2.3 網(wǎng)絡爬蟲的DNS緩存技術
2.3.1 DNS解析與緩存
2.3.2 相關DNS緩存策略
2.4 本章小結
第三章 分布式下主題鏈接提取技術研究
3.1 鏈接去重算法模型
3.1.1 現(xiàn)有的URL去重算法及其局限性
3.1.2 改進的URL去重算法模型
3.2 基于特定主題的相關鏈接提取研究
3.2.1 現(xiàn)有相關鏈接提取算法及其局限性
3.2.2 基于路徑聚合的錨多重屬性的相關鏈接提取算法
3.3 實驗結果與分析
3.3.1 URL去重實驗方案
3.3.2 主題鏈接提取實驗方案
3.3.3 實驗結果
3.4 本章小結
第四章 分布式網(wǎng)絡爬蟲DNS緩存技術研究
4.1 分布式爬蟲DNS訪問瓶頸分析
4.1.1 DNS的訪問瓶頸
4.1.2 DNS訪問瓶頸的改善方法
4.2 一種正負向雙緩存結合的分布式DNS緩存策略
4.2.1 DNS緩存結構設計
4.2.2 基于正負向雙緩存結合的分布式DNS緩存策略
4.3 實驗結果與分析
4.3.1 實驗方案
4.3.2 實驗結果
4.4 本章小結
第五章 分布式茶產(chǎn)品比價爬蟲系統(tǒng)的設計與實現(xiàn)
5.1 爬蟲系統(tǒng)總體設計
5.1.1 系統(tǒng)總體架構
5.1.2 系統(tǒng)運行機制
5.2 爬蟲系統(tǒng)實現(xiàn)
5.2.1 主節(jié)點實現(xiàn)
5.2.2 從節(jié)點群實現(xiàn)
5.3 系統(tǒng)功能與性能測試
5.3.1 系統(tǒng)功能測試
5.3.2 系統(tǒng)性能測試
5.4 本章小結
第六章 總結與展望
6.1 工作總結
6.2 未來工作展望
參考文獻
附錄 攻讀碩士學位期間獲得的成果
致謝
本文編號:3758127
【文章頁數(shù)】:80 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景與意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 鏈接消重研究現(xiàn)狀
1.2.2 主題相關鏈接提取研究現(xiàn)狀
1.2.3 DNS緩存技術研究現(xiàn)狀
1.3 研究問題與內(nèi)容
1.4 論文組織結構
第二章 相關理論與技術
2.1 網(wǎng)絡爬蟲
2.1.1 網(wǎng)絡爬蟲模型
2.1.2 通用爬蟲基本結構
2.1.3 分布式爬蟲系統(tǒng)架構
2.2 網(wǎng)絡爬蟲的主題鏈接提取技術
2.2.1 待爬鏈接去重
2.2.2 主題相關鏈接提取
2.3 網(wǎng)絡爬蟲的DNS緩存技術
2.3.1 DNS解析與緩存
2.3.2 相關DNS緩存策略
2.4 本章小結
第三章 分布式下主題鏈接提取技術研究
3.1 鏈接去重算法模型
3.1.1 現(xiàn)有的URL去重算法及其局限性
3.1.2 改進的URL去重算法模型
3.2 基于特定主題的相關鏈接提取研究
3.2.1 現(xiàn)有相關鏈接提取算法及其局限性
3.2.2 基于路徑聚合的錨多重屬性的相關鏈接提取算法
3.3 實驗結果與分析
3.3.1 URL去重實驗方案
3.3.2 主題鏈接提取實驗方案
3.3.3 實驗結果
3.4 本章小結
第四章 分布式網(wǎng)絡爬蟲DNS緩存技術研究
4.1 分布式爬蟲DNS訪問瓶頸分析
4.1.1 DNS的訪問瓶頸
4.1.2 DNS訪問瓶頸的改善方法
4.2 一種正負向雙緩存結合的分布式DNS緩存策略
4.2.1 DNS緩存結構設計
4.2.2 基于正負向雙緩存結合的分布式DNS緩存策略
4.3 實驗結果與分析
4.3.1 實驗方案
4.3.2 實驗結果
4.4 本章小結
第五章 分布式茶產(chǎn)品比價爬蟲系統(tǒng)的設計與實現(xiàn)
5.1 爬蟲系統(tǒng)總體設計
5.1.1 系統(tǒng)總體架構
5.1.2 系統(tǒng)運行機制
5.2 爬蟲系統(tǒng)實現(xiàn)
5.2.1 主節(jié)點實現(xiàn)
5.2.2 從節(jié)點群實現(xiàn)
5.3 系統(tǒng)功能與性能測試
5.3.1 系統(tǒng)功能測試
5.3.2 系統(tǒng)性能測試
5.4 本章小結
第六章 總結與展望
6.1 工作總結
6.2 未來工作展望
參考文獻
附錄 攻讀碩士學位期間獲得的成果
致謝
本文編號:3758127
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3758127.html
最近更新
教材專著