天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

中文搜索引擎分塊倒排索引存儲模式

發(fā)布時間:2017-08-09 00:21

  本文關(guān)鍵詞:中文搜索引擎分塊倒排索引存儲模式


  更多相關(guān)文章: 倒排索引 搜索引擎 全文檢索 分塊結(jié)構(gòu) 檢索效率


【摘要】:針對開源搜索引擎ASPSeek中的倒排索引的內(nèi)部結(jié)構(gòu)和訪問模式,抽象出了倒排索引的形式化定義。為解決ASPSeek倒排索引更新困難和直接采用操作系統(tǒng)文件緩沖訪問機制帶來的效率問題,以125萬張中文農(nóng)業(yè)網(wǎng)頁為樣本,結(jié)合其特點,提出了一種塊大小可變的分塊倒排索引存儲模式和基于CLOCK替代策略的專用緩沖管理機制。實驗結(jié)果表明在禁用和啟用緩沖的情況下,分塊訪問模式檢索效率都優(yōu)于ASPSeek。在啟用緩沖并使用16萬中文詞條或5萬高頻中文詞條作為測試集合的條件下,分塊存儲模式在訪問倒排索引100萬次后的檢索時間趨于常量,即使以全部的827309個詞條作為測試集合的條件下,分塊存儲模式在訪問倒排索引200萬次后的檢索時間趨于收斂。
【作者單位】: 新疆農(nóng)業(yè)大學(xué)計算機與信息工程學(xué)院;中國農(nóng)業(yè)大學(xué)信息與電氣工程學(xué)院;
【關(guān)鍵詞】倒排索引 搜索引擎 全文檢索 分塊結(jié)構(gòu) 檢索效率
【基金】:新疆維吾爾自治區(qū)科技攻關(guān)項目(200931103)
【分類號】:TP391.3
【正文快照】: 0引言倒排索引是搜索引擎檢索系統(tǒng)實現(xiàn)的核心技術(shù)之一[1-2],人們對倒排索引做了大量研究,主要方向有:1)結(jié)合索引檢索效率、更新效率等因素,對倒排索引在主存和硬盤上的存儲結(jié)構(gòu)進(jìn)行合理化設(shè)計[3-9];2)根據(jù)倒排索引的特性和存儲結(jié)構(gòu)設(shè)計優(yōu)化的壓縮算法,減小倒排索引的體積[3,10

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前5條

1 彭波,李曉明;搜索引擎倒排文件的一種分塊組織技術(shù)[J];電子學(xué)報;2005年02期

2 鄧攀;劉功申;;一種高效的倒排索引存儲結(jié)構(gòu)[J];計算機工程與應(yīng)用;2008年31期

3 劉小珠;彭智勇;陳旭;;高效的隨機訪問分塊倒排文件自索引技術(shù)[J];計算機學(xué)報;2010年06期

4 吳文娟;車明;;搜索引擎倒排索引技術(shù)的改進(jìn)[J];微處理機;2006年06期

5 楊曉波;;倒排文件索引緩存機制的優(yōu)化[J];計算機系統(tǒng)應(yīng)用;2012年05期

【共引文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 李文;洪親;滕忠堅;石兆英;;一種由B+樹實現(xiàn)的倒排索引[J];電腦知識與技術(shù);2011年08期

2 周斌;王新春;;一種海量數(shù)據(jù)庫記錄歸檔處理和查詢方案[J];信息技術(shù)與標(biāo)準(zhǔn)化;2011年10期

3 喬亞男;齊勇;;查詢語義圖輔助的信息檢索性能預(yù)測模型[J];電子學(xué)報;2011年S1期

4 鄧攀;劉功申;;一種高效的倒排索引存儲結(jié)構(gòu)[J];計算機工程與應(yīng)用;2008年31期

5 王遠(yuǎn)定;梁久禎;;利用關(guān)鍵詞倒排表實時檢索中文網(wǎng)頁[J];計算機工程與應(yīng)用;2010年28期

6 長孫妮妮;張毅坤;華燈鑫;鄒子夏;陳浩;;一種基于B+樹的混合索引結(jié)構(gòu)[J];計算機工程;2012年14期

7 周遠(yuǎn)超;葉楓;高依e,

本文編號:642706


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/642706.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶22aae***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com