天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

倒排索引中的文檔序號(hào)重排技術(shù)綜述

發(fā)布時(shí)間:2018-08-05 12:40
【摘要】:倒排索引作為文本搜索的核心索引技術(shù),廣泛應(yīng)用于搜索引擎、桌面搜索和數(shù)字圖書(shū)館領(lǐng)域。倒排索引由字典和對(duì)應(yīng)的倒排表組成,倒排表一般采用差值存儲(chǔ)和整數(shù)編碼進(jìn)行壓縮。研究表明,當(dāng)?shù)古疟砭哂休^好的局部連續(xù)性時(shí),上述方法能夠獲得很高的壓縮率。整數(shù)編碼研究通過(guò)不斷改進(jìn)編碼算法來(lái)充分利用倒排表的局部連續(xù)性特征,而文檔序號(hào)重排正是一種對(duì)文檔序號(hào)重新排列來(lái)產(chǎn)生局部連續(xù)性的技術(shù)。通過(guò)文檔序號(hào)重排,索引壓縮率得到顯著提高。該文主要介紹近年來(lái)文檔序號(hào)重排技術(shù)取得的研究成果:首先介紹索引壓縮的基本原理,然后詳細(xì)介紹文檔序號(hào)重排技術(shù),包括分析、對(duì)比各個(gè)方法的優(yōu)劣;最后對(duì)文檔序號(hào)重排技術(shù)進(jìn)行總結(jié)、整理和展望。
[Abstract]:As the core index technology of text search, inverted index is widely used in search engine, desktop search and digital library. The inverted index is composed of a dictionary and a corresponding inverted table. The inverted table is compressed by difference storage and integer coding. The results show that when the inverted table has good local continuity, the method can obtain high compressibility. Integer coding makes full use of the local continuity characteristics of inverted tables by continuously improving the coding algorithm, and document sequence number rearrangement is a technique to produce local continuity by rearranging document sequence numbers. The index compression ratio is greatly improved by document number rearrangement. This paper mainly introduces the research achievements of document ordinal number rearrangement technology in recent years: firstly, introduces the basic principle of index compression, then introduces document sequence number rearrangement technology in detail, including analysis, compares the advantages and disadvantages of each method; Finally, the document number rearrangement technology is summarized, collated and prospected.
【作者單位】: 國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心;中國(guó)科學(xué)院信息工程研究所;
【基金】:國(guó)家973重點(diǎn)基礎(chǔ)研究發(fā)展規(guī)劃項(xiàng)目(2011CB302605) 科技支撐計(jì)劃(2012BAH47B04)
【分類號(hào)】:TP391.3

【共引文獻(xiàn)】

相關(guān)期刊論文 前10條

1 馬樂(lè);王力;;一種海量文本的動(dòng)態(tài)索引方法[J];北京師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年02期

2 孫德才;王曉霞;;一種基于Bigram二級(jí)哈希的中文索引結(jié)構(gòu)[J];電子設(shè)計(jì)工程;2014年12期

3 丁維;周長(zhǎng)勝;崔凌云;馬志強(qiáng);楊娜;;基于多級(jí)指引索引的高效技術(shù)[J];計(jì)算機(jī)與信息技術(shù);2006年06期

4 王虎;王潛平;;對(duì)幾種倒排文件壓縮技術(shù)的研究與分析[J];計(jì)算機(jī)工程與應(yīng)用;2006年07期

5 劉小珠;彭智勇;陳旭;;高效的隨機(jī)訪問(wèn)分塊倒排文件自索引技術(shù)[J];計(jì)算機(jī)學(xué)報(bào);2010年06期

6 趙小蘇;蔣福興;;公安科技查新管理工作平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[J];警察技術(shù);2012年04期

7 馬健;張?zhí)t;陳燕紅;;中文搜索引擎分塊倒排索引存儲(chǔ)模式[J];計(jì)算機(jī)應(yīng)用;2013年07期

8 馮貴蘭;譚良;;云環(huán)境中基于多屬性排序的密文檢索方案[J];計(jì)算機(jī)科學(xué);2013年11期

9 于世龍;黃宏斌;鄧蘇;;空間資源索引與top-k查詢研究[J];計(jì)算機(jī)應(yīng)用研究;2014年01期

10 陳,

本文編號(hào):2165825


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2165825.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶ed505***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com