一種基于特征向量的改進(jìn)DSC網(wǎng)頁去重算法
發(fā)布時間:2023-04-05 12:03
網(wǎng)頁去重具有很重要的實際意義,也是信息檢索領(lǐng)域近幾年研究的熱點。分析現(xiàn)有的網(wǎng)頁去重算法,并對經(jīng)典的DSC(digital syntactic clustering)網(wǎng)頁去重算法進(jìn)行改進(jìn)。為每篇文檔生成一個特征向量集合,用該特征向量集合篩選shin-gles;然后進(jìn)行相似性比較。實驗表明,該算法對重復(fù)網(wǎng)頁判定具有很好的準(zhǔn)確率和召回率。
【文章頁數(shù)】:4 頁
本文編號:3783379
【文章頁數(shù)】:4 頁
本文編號:3783379
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3783379.html
最近更新
教材專著