具有間隙約束的搜索引擎原型系統(tǒng)的研究與實現(xiàn)
發(fā)布時間:2017-10-23 18:32
本文關(guān)鍵詞:具有間隙約束的搜索引擎原型系統(tǒng)的研究與實現(xiàn)
更多相關(guān)文章: 搜索引擎 間隙約束 間隙算法 Lucene
【摘要】:搜索引擎是為人們能夠快速、準(zhǔn)確地在浩瀚的互聯(lián)網(wǎng)資源中查找自己所需要的信息而誕生的,是Internet和時代飛速發(fā)展的產(chǎn)物。盡管現(xiàn)有的搜索引擎已經(jīng)具備成熟、完善的檢索機(jī)制,但其還是在檢索結(jié)果中存在各種各樣的不足,即各種搜索引擎都不支持具有間隙約束的搜索,因此對具有間隙約束的搜索進(jìn)行研究是非常有實際應(yīng)用意義的。 模式匹配問題也稱作串匹配問題,它是計算機(jī)科學(xué)領(lǐng)域的基本問題的其中之一,它在眾多領(lǐng)域都有重要的應(yīng)用。而具有間隙約束的模式匹配是模式匹配的一個重要的研究內(nèi)容。多年來研究者們致力于研究多個間隙約束的模式匹配問題,一般可描述為P=p0[min0,max0]p1...[minj-1,maxj-1]pj...[minm-1,maxm-1]pm,這里,minj-1和maxj-1分別指在pj-1和pj之間可以通配的最小和最大間隙,具有多個間隙約束的模式匹配問題在諸多領(lǐng)域具有重要應(yīng)用。據(jù)此,由于前面所述搜索引擎存在的不足,本文結(jié)合倒排索引和跨度查詢(SpanQuery)來對此缺陷進(jìn)行改進(jìn),即ABSQ(the inverted index Algorithmbased SpanQuery span query)算法。由于SpanQuery跨度查詢匹配的條數(shù)有所限制,所以本文據(jù)此還針對數(shù)組和鍵值對兩種不同存儲方式設(shè)計了匹配條數(shù)更多的兩個算法。分別為ABAS(the inverted index Algorithm Based on Array Storage)以及ABKS算法(theinverted index Algorithm Based on Key-value Storage),此外,還實現(xiàn)了不用索引的算法RRSA(Recently the Right Scan Algorithm)來和ABSQ進(jìn)行對比。 實驗結(jié)果表明,RRSA和ABSQ比較,在索引文件少文件內(nèi)容少的情況下,RRSA在運(yùn)行時間上優(yōu)于ABSQ,而隨著索引文件和文件內(nèi)容的不斷增大,ABSQ在運(yùn)行時間上明顯要優(yōu)于RRSA。而ABAS和ABKS兩算法與ABSQ比較,,時間上沒有太大的差異,但在匹配結(jié)果上要優(yōu)于ABSQ。ABAS和ABKS做比較,運(yùn)行時間和結(jié)果都沒有明顯的區(qū)別。實驗表明ABKS算法是相對較好的算法。最后,將此算法用于具有間隙約束的搜索引擎系統(tǒng)中,取得了較好的成果,證明該算法的客觀性和可行性,同時也證明了該系統(tǒng)的合理性。
【關(guān)鍵詞】:搜索引擎 間隙約束 間隙算法 Lucene
【學(xué)位授予單位】:河北工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.3
【目錄】:
- 摘要5-6
- ABSTRACT6-10
- 第一章 緒論10-16
- 1.1 課題的研究背景和意義10-11
- 1.2 課題的研究現(xiàn)狀和存在的問題11-14
- 1.2.1 課題研究現(xiàn)狀11-13
- 1.2.2 課題存在的問題分析13-14
- 1.3 論文的主要研究內(nèi)容14-15
- 1.4 論文的內(nèi)容安排15-16
- 第二章 搜索引擎的概述16-28
- 2.1 搜索引擎的發(fā)展歷程16-19
- 2.1.1 第一代搜索引擎16-17
- 2.1.2 第二代搜索引擎17-18
- 2.1.3 第三代搜索引擎18-19
- 2.2 搜索引擎的工作原理19-26
- 2.2.1 網(wǎng)頁搜集19-21
- 2.2.2 預(yù)處理21-24
- 2.2.3 查詢服務(wù)24-26
- 2.3 搜索引擎的體系結(jié)構(gòu)26-27
- 2.4 本章小結(jié)27-28
- 第三章 Lucene 的核心技術(shù)分析28-40
- 3.1 搜索引擎 Lucene28-34
- 3.1.1 Lucene 的實現(xiàn)機(jī)制28-30
- 3.1.2 Lucene 的索引結(jié)構(gòu)30-33
- 3.1.3 Lucene 的跨度查詢33-34
- 3.2 中文分詞34-38
- 3.2.1 中文分詞的研究方向35
- 3.2.2 中文分詞原理35-37
- 3.2.3 分詞系統(tǒng)的評估37
- 3.2.4 基于 Lucene 的中文分詞37-38
- 3.3 本章小結(jié)38-40
- 第四章 系統(tǒng)的設(shè)計、實現(xiàn)與結(jié)果分析40-66
- 4.1 系統(tǒng)實現(xiàn)目標(biāo)40-42
- 4.1.1 系統(tǒng)的體系結(jié)構(gòu)40-41
- 4.1.2 系統(tǒng)的具體流程41-42
- 4.2 系統(tǒng)的具體設(shè)計方案42-55
- 4.2.1 自動獲取搜索結(jié)果42-46
- 4.2.2 文本解析46-47
- 4.2.3 文本間隙約束的搜索47-53
- 4.2.4 網(wǎng)頁的重新排序53-55
- 4.3 實驗結(jié)果及分析55-61
- 4.3.1 ABSQ 算法和 RRSA 對比55-58
- 4.3.2 ABSQ 和 ABAS 算法對比58-60
- 4.3.3 ABAS 和 ABKS 算法對比60-61
- 4.3.4 算法評價61
- 4.4 系統(tǒng)頁面設(shè)計61-64
- 4.5 本章小結(jié)64-66
- 第五章 總結(jié)與展望66-68
- 5.1 總結(jié)66-67
- 5.2 展望67-68
- 參考文獻(xiàn)68-72
- 致謝72-73
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前6條
1 顏維龍,蓋杰,武港山,袁春風(fēng);面向網(wǎng)絡(luò)的全文檢索中索引文件的組織[J];計算機(jī)應(yīng)用研究;2002年11期
2 黃昌寧;趙海;;中文分詞十年回顧[J];中文信息學(xué)報;2007年03期
3 張立彬;楊軍花;楊琴茹;;第三代搜索引擎的研究現(xiàn)狀及其發(fā)展趨向探析[J];情報理論與實踐;2008年05期
4 龔蛟騰;元搜索引擎研究[J];情報雜志;2004年10期
5 宋聚平,王永成,尹中航,滕偉;對網(wǎng)頁P(yáng)ageRank算法的改進(jìn)[J];上海交通大學(xué)學(xué)報;2003年03期
6 方志堅;張瑞林;童小素;;搜索引擎綜合分析[J];計算機(jī)工程與設(shè)計;2007年16期
本文編號:1084782
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1084782.html
最近更新
教材專著