中文搜索引擎分塊倒排索引存儲模式
本文關(guān)鍵詞:中文搜索引擎分塊倒排索引存儲模式
更多相關(guān)文章: 倒排索引 搜索引擎 全文檢索 分塊結(jié)構(gòu) 檢索效率
【摘要】:針對開源搜索引擎ASPSeek中的倒排索引的內(nèi)部結(jié)構(gòu)和訪問模式,抽象出了倒排索引的形式化定義。為解決ASPSeek倒排索引更新困難和直接采用操作系統(tǒng)文件緩沖訪問機制帶來的效率問題,以125萬張中文農(nóng)業(yè)網(wǎng)頁為樣本,結(jié)合其特點,提出了一種塊大小可變的分塊倒排索引存儲模式和基于CLOCK替代策略的專用緩沖管理機制。實驗結(jié)果表明在禁用和啟用緩沖的情況下,分塊訪問模式檢索效率都優(yōu)于ASPSeek。在啟用緩沖并使用16萬中文詞條或5萬高頻中文詞條作為測試集合的條件下,分塊存儲模式在訪問倒排索引100萬次后的檢索時間趨于常量,即使以全部的827309個詞條作為測試集合的條件下,分塊存儲模式在訪問倒排索引200萬次后的檢索時間趨于收斂。
【作者單位】: 新疆農(nóng)業(yè)大學(xué)計算機與信息工程學(xué)院;中國農(nóng)業(yè)大學(xué)信息與電氣工程學(xué)院;
【關(guān)鍵詞】: 倒排索引 搜索引擎 全文檢索 分塊結(jié)構(gòu) 檢索效率
【基金】:新疆維吾爾自治區(qū)科技攻關(guān)項目(200931103)
【分類號】:TP391.3
【正文快照】: 0引言倒排索引是搜索引擎檢索系統(tǒng)實現(xiàn)的核心技術(shù)之一[1-2],人們對倒排索引做了大量研究,主要方向有:1)結(jié)合索引檢索效率、更新效率等因素,對倒排索引在主存和硬盤上的存儲結(jié)構(gòu)進(jìn)行合理化設(shè)計[3-9];2)根據(jù)倒排索引的特性和存儲結(jié)構(gòu)設(shè)計優(yōu)化的壓縮算法,減小倒排索引的體積[3,10
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前5條
1 彭波,李曉明;搜索引擎倒排文件的一種分塊組織技術(shù)[J];電子學(xué)報;2005年02期
2 鄧攀;劉功申;;一種高效的倒排索引存儲結(jié)構(gòu)[J];計算機工程與應(yīng)用;2008年31期
3 劉小珠;彭智勇;陳旭;;高效的隨機訪問分塊倒排文件自索引技術(shù)[J];計算機學(xué)報;2010年06期
4 吳文娟;車明;;搜索引擎倒排索引技術(shù)的改進(jìn)[J];微處理機;2006年06期
5 楊曉波;;倒排文件索引緩存機制的優(yōu)化[J];計算機系統(tǒng)應(yīng)用;2012年05期
【共引文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 李文;洪親;滕忠堅;石兆英;;一種由B+樹實現(xiàn)的倒排索引[J];電腦知識與技術(shù);2011年08期
2 周斌;王新春;;一種海量數(shù)據(jù)庫記錄歸檔處理和查詢方案[J];信息技術(shù)與標(biāo)準(zhǔn)化;2011年10期
3 喬亞男;齊勇;;查詢語義圖輔助的信息檢索性能預(yù)測模型[J];電子學(xué)報;2011年S1期
4 鄧攀;劉功申;;一種高效的倒排索引存儲結(jié)構(gòu)[J];計算機工程與應(yīng)用;2008年31期
5 王遠(yuǎn)定;梁久禎;;利用關(guān)鍵詞倒排表實時檢索中文網(wǎng)頁[J];計算機工程與應(yīng)用;2010年28期
6 長孫妮妮;張毅坤;華燈鑫;鄒子夏;陳浩;;一種基于B+樹的混合索引結(jié)構(gòu)[J];計算機工程;2012年14期
7 周遠(yuǎn)超;葉楓;高依e,
本文編號:642706
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/642706.html