基于Map/Reduce的網(wǎng)頁消重并行算法
發(fā)布時間:2023-06-01 19:57
網(wǎng)頁消重模塊是搜索引擎系統(tǒng)的重要組成部分,其作用是對搜索引擎的爬蟲系統(tǒng)下載的網(wǎng)頁進(jìn)行過濾,去除重復(fù)內(nèi)容的網(wǎng)頁,從而提高搜索引擎爬蟲系統(tǒng)的性能和檢索的質(zhì)量。提出了一種網(wǎng)頁消重的并行算法以及基于Map/Reduce的實現(xiàn)機(jī)制,并通過實際網(wǎng)站的實驗驗證了該消重算法的穩(wěn)定性和處理大量網(wǎng)頁時的并行性能。
【文章頁數(shù)】:4 頁
【文章目錄】:
1 網(wǎng)頁消重原理
1.1 數(shù)字指紋算法
1.2 并行消重策略
2 并行消重算法的總體流程
3 并行消重算法的Map/Reduce實現(xiàn)
3.1 合并過程
3.2 消重過程
3.3 更新過程
4 實驗
4.1 實驗結(jié)果
4.2 實驗分析
5 結(jié)束語
本文編號:3826945
【文章頁數(shù)】:4 頁
【文章目錄】:
1 網(wǎng)頁消重原理
1.1 數(shù)字指紋算法
1.2 并行消重策略
2 并行消重算法的總體流程
3 并行消重算法的Map/Reduce實現(xiàn)
3.1 合并過程
3.2 消重過程
3.3 更新過程
4 實驗
4.1 實驗結(jié)果
4.2 實驗分析
5 結(jié)束語
本文編號:3826945
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3826945.html
最近更新
教材專著