基于Lucene的基礎(chǔ)排序算法的研究及其改進(jìn)算法的應(yīng)用
發(fā)布時(shí)間:2017-05-10 10:03
本文關(guān)鍵詞:基于Lucene的基礎(chǔ)排序算法的研究及其改進(jìn)算法的應(yīng)用,,由筆耕文化傳播整理發(fā)布。
【摘要】:進(jìn)入21世紀(jì)以來,互聯(lián)網(wǎng)得到了迅速發(fā)展,互聯(lián)網(wǎng)的信息資源越來越豐富,信息量越來越大,呈指數(shù)級(jí)增長。而人們對互聯(lián)網(wǎng)的依賴越來越緊密,在互聯(lián)網(wǎng)上查詢信息資源也越來越頻繁;ヂ(lián)網(wǎng)的信息資源如此巨大,想要快速、準(zhǔn)確地在海量的信息資源庫中查詢到所需的資源,就必須使用良好的搜索引擎工具。搜索引擎為網(wǎng)絡(luò)用戶提供了信息檢索服務(wù),屬于互聯(lián)網(wǎng)應(yīng)用軟件,該系統(tǒng)按照一定的檢索策略為用戶提供信息檢索服務(wù),并將檢索結(jié)果排序?yàn)橛脩籼峁┗ヂ?lián)網(wǎng)信息查詢服務(wù)。目前,隨著搜索引擎技術(shù)的發(fā)展,越來越多的機(jī)構(gòu)和人員將搜索引擎作為研究熱點(diǎn),為此,Apache基金會(huì)推出了一個(gè)開源的全文搜索引擎工具包Lucene。本論文采取兩種研究方案,先在Lucene全文搜索的功能角度去研究數(shù)據(jù)排序算法,通過研究現(xiàn)有的排序算法:倒排算法查詢速度快、存儲(chǔ)空間小,可以提供排序查詢功能但是不能快速的支持短語查詢,不能很好適應(yīng)中文等詞邊界未確定語言。后綴樹和后綴數(shù)組索引模型支持短語查詢與自索引功能并且對詞邊界未確定語言有很好適應(yīng)性但是不支持排序查詢;再分析各自的優(yōu)缺點(diǎn)進(jìn)行對比,進(jìn)而得出其適用于Lucene全文檢索領(lǐng)域的算法。再通過對常用算法的應(yīng)用研究,提出一種改進(jìn)的數(shù)據(jù)排序算法:SA-PL索引模型,該模型利用后綴數(shù)組可以支持短語查詢、自索引和詞邊界未確定語言適應(yīng)性且與后綴樹相比存儲(chǔ)空間小的特點(diǎn),將后綴數(shù)組與倒排表相結(jié)合。根據(jù)SA-PL索引模型概念,設(shè)計(jì)了SA-PL-0索引模型。在SA-PL-0的基礎(chǔ)上提出一種通過移除較短倒排表對索引空間進(jìn)一步壓縮的索引模型SA-PL-1。該模型可提高查詢速度、減少存儲(chǔ)空間,進(jìn)而實(shí)現(xiàn)Lucene環(huán)境下數(shù)據(jù)排序的高效性。最后選擇合適的平臺(tái)和環(huán)境對改進(jìn)算法進(jìn)行實(shí)驗(yàn)檢驗(yàn),實(shí)驗(yàn)表明,SA-PL-0和SA-PL-1索引模型可以提供排序查詢、短語查詢和自索引功能并且對詞邊界未確定語言有很好適應(yīng)性,其索引存儲(chǔ)空間和索引查詢時(shí)間綜合性能顯著優(yōu)于以往的索引模型。
【關(guān)鍵詞】:Lucene 倒排索引 后綴數(shù)組 SA-PL索引模型
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP391.3
【目錄】:
- 摘要5-6
- ABSTRACT6-10
- 第一章 緒論10-17
- 1.1 研究問題的背景10
- 1.2 國內(nèi)外搜索引擎的發(fā)展及研究現(xiàn)狀10-14
- 1.2.1 國外研究現(xiàn)狀12-13
- 1.2.2 國內(nèi)研究現(xiàn)狀13-14
- 1.3 研究的內(nèi)容與方法14-17
- 1.3.1 主要技術(shù)路線14-15
- 1.3.2 論文主要研究方案15
- 1.3.3 論文最終目標(biāo)和研究成果形式15-17
- 第二章 相關(guān)技術(shù)和理論17-42
- 2.1 LUCENE簡介17-24
- 2.1.1 Lucene介紹17
- 2.1.2 Lucene的系統(tǒng)結(jié)構(gòu)17-18
- 2.1.3 Lucene索引機(jī)制18-22
- 2.1.4 Lucene檢索機(jī)制22-24
- 2.2 基于LUCENE的基礎(chǔ)算法24-38
- 2.2.1 倒排索引理論24-26
- 2.2.2 后綴數(shù)組算法26-31
- 2.2.3 后綴數(shù)組索引模型分析31-36
- 2.2.4 基礎(chǔ)全文索引性能與功能分析36-38
- 2.3 VISUAL C++簡介38
- 2.4 集成開發(fā)環(huán)境VISUAL STUDIO 200538-40
- 2.5 WEB SERVICES模型40-41
- 2.6 本章小結(jié)41-42
- 第三章 基于LUCENE改進(jìn)算法的全文索引模型的分析與設(shè)計(jì)42-54
- 3.1 SA-PL索引模型介紹42-44
- 3.1.1 SA-PL索引模型的基本思想42
- 3.1.2 SA-PL索引模型設(shè)計(jì)中的主要問題42-43
- 3.1.3 SA-PL索引模型設(shè)計(jì)中核心問題的解決思路43-44
- 3.2 SA-PL索引模型有效性預(yù)期分析44
- 3.3 SA-PL索引模型設(shè)計(jì)44-48
- 3.3.1 SA-PL-0 索引模型結(jié)構(gòu)設(shè)計(jì)44-46
- 3.3.2 SA-PL-0 索引模型構(gòu)造算法46-47
- 3.3.3 SA-PL-0 索引模型查詢算法47-48
- 3.4 SA-PL-1 索引模型48-50
- 3.4.1 SA-PL-1 索引模型基本思想48-49
- 3.4.2 SA-PL-1 索引模型g惴
本文編號(hào):354494
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/354494.html
最近更新
教材專著