基于文檔重要度的靜態(tài)索引剪枝方法
發(fā)布時間:2018-05-21 04:34
本文選題:搜索引擎 + 倒排索引 ; 參考:《華南理工大學(xué)學(xué)報(自然科學(xué)版)》2011年04期
【摘要】:針對網(wǎng)頁質(zhì)量參差不齊、重要程度差別巨大的問題,提出了按照網(wǎng)頁重要程度確定其剪枝幅度的靜態(tài)索引剪枝方法,并在GOV2數(shù)據(jù)集上進(jìn)行了驗證.實驗結(jié)果表明:這種方法體現(xiàn)了靜態(tài)索引剪枝能極大降低存儲需求、提高查詢效率的優(yōu)點(diǎn);當(dāng)剪枝后的索引大小是原始大小的13%時,P@10、P@20值能達(dá)到甚至超過使用完整索引時的結(jié)果;在相同的剪枝幅度下,P@10、P@20和MAP都明顯好于以往的剪枝方法.
[Abstract]:A static index pruning method is proposed to determine the pruning range of web pages according to the importance of web pages, which is characterized by uneven quality and great difference in importance. The method is verified on the GOV2 dataset. The experimental results show that the static index pruning can greatly reduce the storage requirement and improve the query efficiency, and the index size after pruning is 13% of the original size. Under the same pruning range, both PTP 10 and MAP are obviously better than the previous pruning methods.
【作者單位】: 北京大學(xué)信息科學(xué)技術(shù)學(xué)院;
【基金】:國家自然科學(xué)基金資助項目(60933004) 廣東省計算機(jī)網(wǎng)絡(luò)重點(diǎn)實驗室資助項目(CCNL200601) “核心電子器件、高端通用芯片及基礎(chǔ)軟件產(chǎn)品”國家科技重大專項項目(2011ZX01042-001-001)
【分類號】:TP391.3
【參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 李曉明;對中國曾有過靜態(tài)網(wǎng)頁數(shù)的一種估計[J];北京大學(xué)學(xué)報(自然科學(xué)版);2003年03期
【共引文獻(xiàn)】
相關(guān)期刊論文 前4條
1 馮是聰,王繼民;關(guān)于“中文網(wǎng)頁自動分類競賽”結(jié)果的分析[J];中文信息學(xué)報;2003年05期
2 朱家稷,閆宏飛;一種Web多維分析模型及應(yīng)用[J];情報學(xué)報;2004年05期
3 陳,
本文編號:1917777
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1917777.html
最近更新
教材專著