基于Map/Reduce的網(wǎng)頁(yè)消重并行算法
發(fā)布時(shí)間:2023-06-01 19:57
網(wǎng)頁(yè)消重模塊是搜索引擎系統(tǒng)的重要組成部分,其作用是對(duì)搜索引擎的爬蟲(chóng)系統(tǒng)下載的網(wǎng)頁(yè)進(jìn)行過(guò)濾,去除重復(fù)內(nèi)容的網(wǎng)頁(yè),從而提高搜索引擎爬蟲(chóng)系統(tǒng)的性能和檢索的質(zhì)量。提出了一種網(wǎng)頁(yè)消重的并行算法以及基于Map/Reduce的實(shí)現(xiàn)機(jī)制,并通過(guò)實(shí)際網(wǎng)站的實(shí)驗(yàn)驗(yàn)證了該消重算法的穩(wěn)定性和處理大量網(wǎng)頁(yè)時(shí)的并行性能。
【文章頁(yè)數(shù)】:4 頁(yè)
【文章目錄】:
1 網(wǎng)頁(yè)消重原理
1.1 數(shù)字指紋算法
1.2 并行消重策略
2 并行消重算法的總體流程
3 并行消重算法的Map/Reduce實(shí)現(xiàn)
3.1 合并過(guò)程
3.2 消重過(guò)程
3.3 更新過(guò)程
4 實(shí)驗(yàn)
4.1 實(shí)驗(yàn)結(jié)果
4.2 實(shí)驗(yàn)分析
5 結(jié)束語(yǔ)
本文編號(hào):3826945
【文章頁(yè)數(shù)】:4 頁(yè)
【文章目錄】:
1 網(wǎng)頁(yè)消重原理
1.1 數(shù)字指紋算法
1.2 并行消重策略
2 并行消重算法的總體流程
3 并行消重算法的Map/Reduce實(shí)現(xiàn)
3.1 合并過(guò)程
3.2 消重過(guò)程
3.3 更新過(guò)程
4 實(shí)驗(yàn)
4.1 實(shí)驗(yàn)結(jié)果
4.2 實(shí)驗(yàn)分析
5 結(jié)束語(yǔ)
本文編號(hào):3826945
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3826945.html
最近更新
教材專著