天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于Lucene.NET的局域網(wǎng)全文搜索引擎的設(shè)計與實現(xiàn)

發(fā)布時間:2017-03-22 20:12

  本文關(guān)鍵詞:基于Lucene.NET的局域網(wǎng)全文搜索引擎的設(shè)計與實現(xiàn),由筆耕文化傳播整理發(fā)布。


【摘要】:21世紀是信息爆炸的時代,互聯(lián)網(wǎng)技術(shù)的高速發(fā)展,使得在我們生活的這個世界出現(xiàn)大量的信息。面對海量信息,尋求一種科學(xué)的、合理的搜索機制成為當下最重要的任務(wù)。搜索引擎正是在這樣的大背景下提出的。它指根據(jù)一定的策略,運用特定的計算機程序從互聯(lián)網(wǎng)上搜集信息,在對信息進行組織和處理后,為用戶提供檢索服務(wù),將用戶檢索相關(guān)的信息展示給用戶的系統(tǒng)[1]。全文搜索引擎是應(yīng)用最廣泛的主流搜索引擎,它的代表是百度和谷歌等大型搜索引擎,它們已經(jīng)很成功的運用在人們生活的方方面面。但是,就目前網(wǎng)絡(luò)信息的利用率來看,仍然是很低的。人們在海量數(shù)據(jù)信息中仍不能很好的滿足多樣化的需求。本文從另一個角度另辟蹊徑,從少量的數(shù)據(jù)出發(fā),深度的挖掘數(shù)據(jù)潛在價值。我們將網(wǎng)絡(luò)爬蟲的范圍限定在局域網(wǎng)內(nèi),使用開源的全文檢索Lucene工具包,開發(fā)出一款基于局域網(wǎng)的站內(nèi)搜索引擎。它和主流的全文搜索引擎相似,同樣具備搜索和處理信息,并將檢索得到的結(jié)果展示給用戶的基本功能。它的創(chuàng)新有兩點,第一,基于局域網(wǎng)的網(wǎng)絡(luò)爬蟲能夠深度的抓取站內(nèi)數(shù)據(jù)信息,并且具有很高的實時性。第二,系統(tǒng)屏蔽了站外信息,將搜索的范圍限定在特定的局域網(wǎng)內(nèi),更好的滿足了站內(nèi)人員的搜索需求。這樣的搜索引擎正適合一些高校、中小型企業(yè)或研究機構(gòu)等單位。本文首先介紹了搜索引擎技術(shù)的研究現(xiàn)狀,以及研究價值和意義。然后針對搜索引擎技術(shù)研究過程中的幾個關(guān)鍵技術(shù)進行了逐一介紹。例如:網(wǎng)絡(luò)爬蟲技術(shù)、全文檢索技術(shù)、中文分詞技術(shù)等。接著重點介紹Lucene開源檢索工具包。隨后按照軟件工程的方法,對項目進行需求分析,系統(tǒng)設(shè)計、模塊實現(xiàn)。最后完成系統(tǒng)的測試。最后,本文對搜索引擎技術(shù)的研究進行總結(jié)和展望。
【關(guān)鍵詞】:搜索引擎 全文搜索 局域網(wǎng) Lucene.Net
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.3
【目錄】:
  • 摘要5-6
  • ABSTRACT6-9
  • 第一章 緒論9-12
  • 1.1 搜索引擎的研究背景9
  • 1.2 搜索引擎的國內(nèi)外研究現(xiàn)狀9-10
  • 1.3 本文主要工作10
  • 1.4 本文結(jié)構(gòu)安排10-12
  • 第二章 搜索引擎的關(guān)鍵技術(shù)研究12-20
  • 2.1 搜索引擎基本架構(gòu)12-13
  • 2.2 網(wǎng)絡(luò)爬蟲技術(shù)研究13-15
  • 2.2.1 網(wǎng)絡(luò)爬蟲的工作原理13-15
  • 2.2.2 網(wǎng)頁分析算法15
  • 2.3 全文索引技術(shù)研究15-17
  • 2.3.1 正排索引16
  • 2.3.2 倒排索引16-17
  • 2.4 中文分詞技術(shù)研究17-19
  • 2.4.1 中文分詞特點18
  • 2.4.2 中文分詞算法18-19
  • 2.5 本章小結(jié)19-20
  • 第三章 開源LUCENE.NET全文檢索包20-34
  • 3.1 LUCENE概述21-22
  • 3.2 LUCENE的索引22-29
  • 3.2.1 Lucene索引邏輯結(jié)構(gòu)22-23
  • 3.2.2 索引文件物理結(jié)構(gòu)23-24
  • 3.2.3 Lucene索引的建立24-27
  • 3.2.4 索引的合并與優(yōu)化、同步27-29
  • 3.3 LUCENE的搜索29-31
  • 3.3.1 Lucene搜索的建立29-30
  • 3.3.2 對搜索結(jié)果的評分、排序30-31
  • 3.4 LUCENE的分析器31-33
  • 3.4.1 Lucene分析器機制31-32
  • 3.4.2 中文分詞機制32-33
  • 3.5 系統(tǒng)需求分析33
  • 3.6 本章小結(jié)33-34
  • 第四章 系統(tǒng)模塊的設(shè)計34-49
  • 4.1 站內(nèi)爬蟲模塊的設(shè)計35-39
  • 4.1.1 網(wǎng)頁的遍歷36-37
  • 4.1.2 網(wǎng)頁的去重37
  • 4.1.3 多線程并發(fā)爬蟲37-38
  • 4.1.4 站內(nèi)站外地址判定38-39
  • 4.2 信息過濾和處理模塊的設(shè)計39-41
  • 4.2.1 去除HTML標簽39-40
  • 4.2.2 去除CSS樣式表和JS腳本語言40-41
  • 4.2.3 提取網(wǎng)頁標題和文本信息41
  • 4.3 基于LUCENE.NET的索引模塊設(shè)計41-46
  • 4.3.1 分詞器的選擇42-44
  • 4.3.2 Field實例化參數(shù)44-46
  • 4.4 基于LUCENE.NET的查詢模塊的設(shè)計46-48
  • 4.4.1 查詢類型46-47
  • 4.4.2 查詢結(jié)果的排序47-48
  • 4.5 本章小結(jié)48-49
  • 第五章 系統(tǒng)模塊的實現(xiàn)49-61
  • 5.1 站內(nèi)爬蟲模塊的實現(xiàn)49-53
  • 5.2 信息過濾和處理模塊的實現(xiàn)53-56
  • 5.3 索引模塊的實現(xiàn)56-58
  • 5.4 查詢模塊的實現(xiàn)58-60
  • 5.5 本章小結(jié)60-61
  • 第六章 系統(tǒng)模塊的測試61-65
  • 6.1 站內(nèi)爬蟲模塊的測試61
  • 6.2 信息過濾和處理模塊的測試61-63
  • 6.3 索引和查詢模塊的測試63-64
  • 6.4 本章小結(jié)64-65
  • 第七章 總結(jié)和展望65-67
  • 7.1 工作總結(jié)65
  • 7.2 研究展望65-67
  • 致謝67-68
  • 參考文獻68-70

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前2條

1 陳士杰,張sソ,

本文編號:262145


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/262145.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶8654a***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
高清不卡一卡二卡区在线| 清纯少妇被捅到高潮免费观看| 欧美一本在线免费观看| 欧美精品亚洲精品日韩精品| 久久午夜福利精品日韩| 欧美一级黄片免费视频| 人妻乱近亲奸中文字幕| 亚洲乱码av中文一区二区三区| 亚洲欧美日本国产有色| 日韩欧美一区二区黄色 | 日韩精品你懂的在线观看| 亚洲国产精品久久琪琪| 东京热加勒比一区二区| 青青操日老女人的穴穴| 日韩性生活视频免费在线观看 | 偷自拍亚洲欧美一区二页| 伊人久久青草地综合婷婷| 国产对白老熟女正在播放| 国产精品一区二区香蕉视频| 日韩欧美综合中文字幕 | 亚洲高清欧美中文字幕| 日本熟妇五十一区二区三区 | 熟妇久久人妻中文字幕| 日本欧美视频在线观看免费 | 激情丁香激情五月婷婷| 精品香蕉国产一区二区三区| 高跟丝袜av在线一区二区三区| 亚洲欧美国产网爆精品| 国产激情国产精品久久源| 成人午夜激情在线免费观看| 日本人妻精品中文字幕不卡乱码| 色婷婷日本视频在线观看| 国产无摭挡又爽又色又刺激| 欧美人妻盗摄日韩偷拍| 国产精品成人免费精品自在线观看| 好吊日在线视频免费观看| 亚洲精品成人福利在线| 果冻传媒精选麻豆白晶晶 | 久久一区内射污污内射亚洲| 日本人妻的诱惑在线观看| 国产亚洲欧美另类久久久|