天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于文檔重要度的靜態(tài)索引剪枝方法

發(fā)布時間:2018-05-21 04:34

  本文選題:搜索引擎 + 倒排索引 ; 參考:《華南理工大學(xué)學(xué)報(自然科學(xué)版)》2011年04期


【摘要】:針對網(wǎng)頁質(zhì)量參差不齊、重要程度差別巨大的問題,提出了按照網(wǎng)頁重要程度確定其剪枝幅度的靜態(tài)索引剪枝方法,并在GOV2數(shù)據(jù)集上進(jìn)行了驗證.實驗結(jié)果表明:這種方法體現(xiàn)了靜態(tài)索引剪枝能極大降低存儲需求、提高查詢效率的優(yōu)點(diǎn);當(dāng)剪枝后的索引大小是原始大小的13%時,P@10、P@20值能達(dá)到甚至超過使用完整索引時的結(jié)果;在相同的剪枝幅度下,P@10、P@20和MAP都明顯好于以往的剪枝方法.
[Abstract]:A static index pruning method is proposed to determine the pruning range of web pages according to the importance of web pages, which is characterized by uneven quality and great difference in importance. The method is verified on the GOV2 dataset. The experimental results show that the static index pruning can greatly reduce the storage requirement and improve the query efficiency, and the index size after pruning is 13% of the original size. Under the same pruning range, both PTP 10 and MAP are obviously better than the previous pruning methods.
【作者單位】: 北京大學(xué)信息科學(xué)技術(shù)學(xué)院;
【基金】:國家自然科學(xué)基金資助項目(60933004) 廣東省計算機(jī)網(wǎng)絡(luò)重點(diǎn)實驗室資助項目(CCNL200601) “核心電子器件、高端通用芯片及基礎(chǔ)軟件產(chǎn)品”國家科技重大專項項目(2011ZX01042-001-001)
【分類號】:TP391.3

【參考文獻(xiàn)】

相關(guān)期刊論文 前1條

1 李曉明;對中國曾有過靜態(tài)網(wǎng)頁數(shù)的一種估計[J];北京大學(xué)學(xué)報(自然科學(xué)版);2003年03期

【共引文獻(xiàn)】

相關(guān)期刊論文 前4條

1 馮是聰,王繼民;關(guān)于“中文網(wǎng)頁自動分類競賽”結(jié)果的分析[J];中文信息學(xué)報;2003年05期

2 朱家稷,閆宏飛;一種Web多維分析模型及應(yīng)用[J];情報學(xué)報;2004年05期

3 陳,

本文編號:1917777


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1917777.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶c494a***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com