倒排鏈表多層自索引結(jié)構(gòu)的分析與設(shè)計(jì)
發(fā)布時(shí)間:2018-04-18 09:25
本文選題:搜索引擎 + 倒排索引。 參考:《計(jì)算機(jī)應(yīng)用研究》2017年02期
【摘要】:在大型搜索引擎的查詢(xún)處理過(guò)程中,對(duì)索引文件的順序遍歷將導(dǎo)致響應(yīng)時(shí)間過(guò)長(zhǎng),自索引結(jié)構(gòu)能夠有效解決上述問(wèn)題。為了進(jìn)一步縮短查詢(xún)時(shí)間,通過(guò)對(duì)當(dāng)前索引文件自索引結(jié)構(gòu)的分析,設(shè)計(jì)了倒排鏈表的多層自索引結(jié)構(gòu)。此結(jié)構(gòu)以定長(zhǎng)元組為單位,使用迭代的方法提取數(shù)據(jù)段同步點(diǎn)形成上層自索引;在此基礎(chǔ)上,實(shí)現(xiàn)了索引壓縮與查詢(xún)系統(tǒng)。基于TREC GOV2數(shù)據(jù)集的測(cè)試結(jié)果表明,該系統(tǒng)的各項(xiàng)性能指標(biāo)均優(yōu)于不采用自索引結(jié)構(gòu)的查詢(xún)系統(tǒng),在不影響結(jié)果精度的情況下使檢索效率得到大幅提升。
[Abstract]:In the process of query processing of large search engines, the order traversal of index files will lead to a long response time, and the self-index structure can effectively solve the above problems.In order to further shorten the query time, the multi-layer self-index structure of inverted linked list is designed by analyzing the self-index structure of the current index file.This structure takes fixed length tuple as the unit and uses iterative method to extract the synchronization point of data segment to form the upper layer self-index. On this basis the index compression and query system is implemented.The test results based on TREC GOV2 dataset show that the performance of the system is better than that of the query system without self-index structure, and the retrieval efficiency is greatly improved without affecting the precision of the results.
【作者單位】: 國(guó)防科學(xué)技術(shù)大學(xué)計(jì)算機(jī)學(xué)院;西安交通大學(xué)電信學(xué)院;國(guó)防科學(xué)技術(shù)大學(xué)信息中心;
【基金】:湖南省自然科學(xué)基金資助項(xiàng)目(2016JJ2007)
【分類(lèi)號(hào)】:TP391.3
【參考文獻(xiàn)】
相關(guān)期刊論文 前2條
1 Kun JIANG;Yue-xiang YANG;;Efficient dynamic pruning on largest scores first (LSF) retrieval[J];Frontiers of Information Technology & Electronic Engineering;2016年01期
2 劉小珠;彭智勇;陳旭;;高效的隨機(jī)訪問(wèn)分塊倒排文件自索引技術(shù)[J];計(jì)算機(jī)學(xué)報(bào);2010年06期
相關(guān)博士學(xué)位論文 前1條
1 單棟棟;搜索引擎中索引剪枝的研究[D];北京大學(xué);2013年
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 田海龍;繆新穎;;搜索引擎分塊索引技術(shù)研究[J];電腦編程技巧與維護(hù);2017年11期
2 江宇;姜琨;宋省身;楊岳湘;;倒排鏈表多層自索引結(jié)構(gòu)的分析與設(shè)計(jì)[J];計(jì)算機(jī)應(yīng)用研究;2017年02期
3 馬e,
本文編號(hào):1767770
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1767770.html
最近更新
教材專(zhuān)著