基于Lucene.NET的局域網(wǎng)全文搜索引擎的設(shè)計與實現(xiàn)
發(fā)布時間:2017-03-22 20:12
本文關(guān)鍵詞:基于Lucene.NET的局域網(wǎng)全文搜索引擎的設(shè)計與實現(xiàn),由筆耕文化傳播整理發(fā)布。
【摘要】:21世紀是信息爆炸的時代,互聯(lián)網(wǎng)技術(shù)的高速發(fā)展,使得在我們生活的這個世界出現(xiàn)大量的信息。面對海量信息,尋求一種科學(xué)的、合理的搜索機制成為當下最重要的任務(wù)。搜索引擎正是在這樣的大背景下提出的。它指根據(jù)一定的策略,運用特定的計算機程序從互聯(lián)網(wǎng)上搜集信息,在對信息進行組織和處理后,為用戶提供檢索服務(wù),將用戶檢索相關(guān)的信息展示給用戶的系統(tǒng)[1]。全文搜索引擎是應(yīng)用最廣泛的主流搜索引擎,它的代表是百度和谷歌等大型搜索引擎,它們已經(jīng)很成功的運用在人們生活的方方面面。但是,就目前網(wǎng)絡(luò)信息的利用率來看,仍然是很低的。人們在海量數(shù)據(jù)信息中仍不能很好的滿足多樣化的需求。本文從另一個角度另辟蹊徑,從少量的數(shù)據(jù)出發(fā),深度的挖掘數(shù)據(jù)潛在價值。我們將網(wǎng)絡(luò)爬蟲的范圍限定在局域網(wǎng)內(nèi),使用開源的全文檢索Lucene工具包,開發(fā)出一款基于局域網(wǎng)的站內(nèi)搜索引擎。它和主流的全文搜索引擎相似,同樣具備搜索和處理信息,并將檢索得到的結(jié)果展示給用戶的基本功能。它的創(chuàng)新有兩點,第一,基于局域網(wǎng)的網(wǎng)絡(luò)爬蟲能夠深度的抓取站內(nèi)數(shù)據(jù)信息,并且具有很高的實時性。第二,系統(tǒng)屏蔽了站外信息,將搜索的范圍限定在特定的局域網(wǎng)內(nèi),更好的滿足了站內(nèi)人員的搜索需求。這樣的搜索引擎正適合一些高校、中小型企業(yè)或研究機構(gòu)等單位。本文首先介紹了搜索引擎技術(shù)的研究現(xiàn)狀,以及研究價值和意義。然后針對搜索引擎技術(shù)研究過程中的幾個關(guān)鍵技術(shù)進行了逐一介紹。例如:網(wǎng)絡(luò)爬蟲技術(shù)、全文檢索技術(shù)、中文分詞技術(shù)等。接著重點介紹Lucene開源檢索工具包。隨后按照軟件工程的方法,對項目進行需求分析,系統(tǒng)設(shè)計、模塊實現(xiàn)。最后完成系統(tǒng)的測試。最后,本文對搜索引擎技術(shù)的研究進行總結(jié)和展望。
【關(guān)鍵詞】:搜索引擎 全文搜索 局域網(wǎng) Lucene.Net
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.3
【目錄】:
- 摘要5-6
- ABSTRACT6-9
- 第一章 緒論9-12
- 1.1 搜索引擎的研究背景9
- 1.2 搜索引擎的國內(nèi)外研究現(xiàn)狀9-10
- 1.3 本文主要工作10
- 1.4 本文結(jié)構(gòu)安排10-12
- 第二章 搜索引擎的關(guān)鍵技術(shù)研究12-20
- 2.1 搜索引擎基本架構(gòu)12-13
- 2.2 網(wǎng)絡(luò)爬蟲技術(shù)研究13-15
- 2.2.1 網(wǎng)絡(luò)爬蟲的工作原理13-15
- 2.2.2 網(wǎng)頁分析算法15
- 2.3 全文索引技術(shù)研究15-17
- 2.3.1 正排索引16
- 2.3.2 倒排索引16-17
- 2.4 中文分詞技術(shù)研究17-19
- 2.4.1 中文分詞特點18
- 2.4.2 中文分詞算法18-19
- 2.5 本章小結(jié)19-20
- 第三章 開源LUCENE.NET全文檢索包20-34
- 3.1 LUCENE概述21-22
- 3.2 LUCENE的索引22-29
- 3.2.1 Lucene索引邏輯結(jié)構(gòu)22-23
- 3.2.2 索引文件物理結(jié)構(gòu)23-24
- 3.2.3 Lucene索引的建立24-27
- 3.2.4 索引的合并與優(yōu)化、同步27-29
- 3.3 LUCENE的搜索29-31
- 3.3.1 Lucene搜索的建立29-30
- 3.3.2 對搜索結(jié)果的評分、排序30-31
- 3.4 LUCENE的分析器31-33
- 3.4.1 Lucene分析器機制31-32
- 3.4.2 中文分詞機制32-33
- 3.5 系統(tǒng)需求分析33
- 3.6 本章小結(jié)33-34
- 第四章 系統(tǒng)模塊的設(shè)計34-49
- 4.1 站內(nèi)爬蟲模塊的設(shè)計35-39
- 4.1.1 網(wǎng)頁的遍歷36-37
- 4.1.2 網(wǎng)頁的去重37
- 4.1.3 多線程并發(fā)爬蟲37-38
- 4.1.4 站內(nèi)站外地址判定38-39
- 4.2 信息過濾和處理模塊的設(shè)計39-41
- 4.2.1 去除HTML標簽39-40
- 4.2.2 去除CSS樣式表和JS腳本語言40-41
- 4.2.3 提取網(wǎng)頁標題和文本信息41
- 4.3 基于LUCENE.NET的索引模塊設(shè)計41-46
- 4.3.1 分詞器的選擇42-44
- 4.3.2 Field實例化參數(shù)44-46
- 4.4 基于LUCENE.NET的查詢模塊的設(shè)計46-48
- 4.4.1 查詢類型46-47
- 4.4.2 查詢結(jié)果的排序47-48
- 4.5 本章小結(jié)48-49
- 第五章 系統(tǒng)模塊的實現(xiàn)49-61
- 5.1 站內(nèi)爬蟲模塊的實現(xiàn)49-53
- 5.2 信息過濾和處理模塊的實現(xiàn)53-56
- 5.3 索引模塊的實現(xiàn)56-58
- 5.4 查詢模塊的實現(xiàn)58-60
- 5.5 本章小結(jié)60-61
- 第六章 系統(tǒng)模塊的測試61-65
- 6.1 站內(nèi)爬蟲模塊的測試61
- 6.2 信息過濾和處理模塊的測試61-63
- 6.3 索引和查詢模塊的測試63-64
- 6.4 本章小結(jié)64-65
- 第七章 總結(jié)和展望65-67
- 7.1 工作總結(jié)65
- 7.2 研究展望65-67
- 致謝67-68
- 參考文獻68-70
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前2條
1 陳士杰,張sソ,
本文編號:262145
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/262145.html
最近更新
教材專著