基于Lucene技術(shù)搜索引擎設(shè)計與實現(xiàn)
本文關(guān)鍵詞:基于Lucene技術(shù)搜索引擎設(shè)計與實現(xiàn)
【摘要】:基于Web的統(tǒng)一發(fā)布平臺是一種新型的管理方式,匯集了方便、快捷、有效等優(yōu)勢。其充分利用了信息技術(shù),提高管理效率,降低了用戶工作強度,提高信息傳遞速度、效率和準(zhǔn)確性。統(tǒng)一發(fā)布平臺要實現(xiàn)的功能非常多,,本文所要研究和實現(xiàn)的搜索引擎就是其重要組成部分之一;ヂ(lián)網(wǎng)的快速,蓬勃發(fā)展的今天,它有著不同的網(wǎng)絡(luò)的信息。在享受互聯(lián)網(wǎng)帶來的便利同時,面臨著如何準(zhǔn)確,快速,方便地找到他們需要在這樣一個大規(guī)模的環(huán)境問題的信息,所以互聯(lián)網(wǎng)已經(jīng)成為搜索關(guān)注的焦點。 在這篇文章中,搜索引擎,包括應(yīng)用,數(shù)據(jù)的搜索引擎的三個重要組成部分,在源文件上傳,基于深入的研究,并搜索和信息檢索的結(jié)構(gòu)和工作流程等方面的原則,逐步分析它們實現(xiàn)的。搜索關(guān)于JSP的技術(shù)支持,設(shè)計的一部分,并實現(xiàn)一個靈活的,簡單的用戶界面,使用開源的Lucene引擎架構(gòu)設(shè)計和實現(xiàn)一個可重用,可擴展的索引建立和管理子系統(tǒng)及其初步優(yōu)化站點地圖的一部分。該系統(tǒng)具有創(chuàng)建和管理索引,搜索多個信息源和上傳文件的源文件等功能,具有一定的適用性。 全文搜索引擎可分為兩類:一類自身網(wǎng)頁抓取,索引,檢索系統(tǒng),有一個單獨的“蜘蛛”程序,或爬行動物,或“機器人”程序,可以自建網(wǎng)頁數(shù)據(jù)庫從自己的數(shù)據(jù)庫直接搜索,稱為谷歌的搜索結(jié)果電話,百度就屬于這一類,另一種是租用其他搜索引擎的數(shù)據(jù)庫,然后安排在一個自定義格式,如Lycos的搜索搜索引擎的結(jié)果。還有其他類型的搜索引擎,如目錄索引,元搜索引擎。他們的代表有Yahoo、新浪,InfoSpace、Dogpile、Vivisimo。2006年后又逐漸興起的一類新型搜索引擎叫做垂直搜索引擎。它不同于其他的搜索引擎,在于它專注于特定的搜索領(lǐng)域和搜索需求(例如:機票搜索、旅游搜索、生活搜索、小說搜索、視頻搜索等等),在其特定的搜索領(lǐng)域有更好的用戶體驗。相比通用搜索動輒數(shù)千臺檢索服務(wù)器,垂直搜索需要的硬件成本低、用戶需求特定、查詢的方式多樣,是它的優(yōu)勢。 該系統(tǒng)的設(shè)計是基于Lucene的搜索引擎,基于Web的統(tǒng)一發(fā)布平臺是一種新型的管理方式,匯集了方便、快捷、有效等優(yōu)勢。其充分利用了信息技術(shù),提高管理效率,降低了用戶工作強度,提高信息傳遞速度、效率和準(zhǔn)確性。因此,基于Web的統(tǒng)一發(fā)布平臺的的研究與實現(xiàn)已成為人們極為關(guān)注的研究領(lǐng)域。 統(tǒng)一的信息平臺提供了全文檢索服務(wù),統(tǒng)一發(fā)布平臺有全文搜索,創(chuàng)建和管理信息的索引和搜索功能的應(yīng)用程序。本系統(tǒng)充分使用了自己設(shè)計的系統(tǒng)框架,將數(shù)據(jù)和功能分離,提高系統(tǒng)的復(fù)用性和操作性。開發(fā)了基于JSP技術(shù)的用戶接口子系統(tǒng),有效、快捷的完成搜索任務(wù)。
【關(guān)鍵詞】:搜索引擎 中文分詞 索引
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.3
【目錄】:
- 摘要4-6
- Abstract6-8
- 目錄8-10
- 第1章 緒論10-13
- 1.1 項目背景10-11
- 1.2 國內(nèi)外發(fā)展現(xiàn)狀11-13
- 第2章 系統(tǒng)的開發(fā)平臺及相關(guān)技術(shù)13-17
- 2.1 系統(tǒng)開發(fā)平臺13
- 2.2 系統(tǒng)開發(fā)技術(shù)13-17
- 2.2.1 Upload 源文件上傳技術(shù)13-14
- 2.2.2 Lucene 技術(shù)14-15
- 2.2.3 JSP 技術(shù)15-17
- 第3章 系統(tǒng)分析與設(shè)計17-41
- 3.1 系統(tǒng)需求分析17-20
- 3.1.1 系統(tǒng)架構(gòu)分析17-18
- 3.1.2 系統(tǒng)用例模型18-19
- 3.1.3 系統(tǒng)領(lǐng)域模型19-20
- 3.2 系統(tǒng)概要設(shè)計20-21
- 3.3 系統(tǒng)詳細設(shè)計21-41
- 3.3.1 索引建立模塊21-26
- 3.3.2 用戶界面模塊26-28
- 3.3.3 功能的實現(xiàn)與設(shè)計的模塊處理過程28-41
- 第4章 系統(tǒng)的實現(xiàn)41-54
- 4.1 系統(tǒng)框架搭建41-42
- 4.1.1 索引建立模塊41-42
- 4.1.2 用戶界面模塊42
- 4.2 系統(tǒng)主要功能實現(xiàn)42-50
- 4.2.1 索引建立模塊42-49
- 4.2.2 用戶界面模塊49-50
- 4.3 系統(tǒng)主要功能測試50-54
- 結(jié)論54-55
- 參考文獻55-57
- 致謝57
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 余川江;;基于Lucene的垂直搜索引擎的研究與實現(xiàn)[J];經(jīng)營管理者;2014年11期
2 孔維亭;閆宏印;;基于Lucene的自動答疑系統(tǒng)的設(shè)計[J];電腦開發(fā)與應(yīng)用;2012年04期
3 喻金平;譚鳴;夏小云;;基于Lucene技術(shù)的垂直搜索引擎的研究[J];軟件導(dǎo)刊;2008年03期
4 陳忱;;Lucene排序算法的個性化改進[J];科技與企業(yè);2012年02期
5 阮曙芬;;基于Lucene的全文搜索排序算法的研究與改進[J];武漢紡織大學(xué)學(xué)報;2013年06期
6 葛振國;李建;何林糠;吳軍;;基于Lucene的Oracle數(shù)據(jù)庫全文檢索[J];信息技術(shù);2010年03期
7 楊元峰;趙敏涯;廖黎莉;;基于Lucene的客服知識庫系統(tǒng)結(jié)構(gòu)設(shè)計[J];福建電腦;2012年01期
8 馮宇;;基于模糊層次分析法的Lucene網(wǎng)頁排序算法研究[J];計算機與現(xiàn)代化;2011年01期
9 陳艷春;李雙平;;基于Lucene的企業(yè)級搜索引擎的設(shè)計與實現(xiàn)[J];現(xiàn)代圖書情報技術(shù);2007年08期
10 匡振國;倪宏;嵇智輝;劉磊;;一種基于Lucene的影片搜索引擎的研究和應(yīng)用[J];計算機工程與應(yīng)用;2008年29期
中國重要會議論文全文數(shù)據(jù)庫 前2條
1 朱高平;樂嘉錦;;基于刻面分類和Lucene架構(gòu)的Web服務(wù)發(fā)現(xiàn)技術(shù)的研究[A];第二十四屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2007年
2 劉壽強;;基于Lucene的分級鑒權(quán)企業(yè)搜索引擎研究與設(shè)計[A];第二十一次全國計算機安全學(xué)術(shù)交流會論文集[C];2006年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 于雪麗;LUCENE中文分詞在科研文檔全文檢索系統(tǒng)的應(yīng)用研究[D];青島大學(xué);2011年
2 孫靜;基于Lucene的手機查詢軟件的研究與實現(xiàn)[D];重慶大學(xué);2014年
3 文義;基于LUCENE的群體個性化搜索引擎研究[D];武漢理工大學(xué);2010年
4 張彬;基于lucene的搜索引擎[D];上海師范大學(xué);2010年
5 張正龍;基于LUCENE的主題搜索引擎研究與實現(xiàn)[D];重慶大學(xué);2008年
6 楊光偉;基于Lucene的個性化搜索引擎的研究與實現(xiàn)[D];內(nèi)蒙古大學(xué);2009年
7 花潔;基于Lucene的搜索引擎應(yīng)用與研究[D];湖北工業(yè)大學(xué);2009年
8 姜華;基于Lucene面向主題搜索引擎的研究與設(shè)計[D];華東師范大學(xué);2007年
9 高磊;基于LUCENE的搜索引擎研究與實現(xiàn)[D];武漢理工大學(xué);2007年
10 李沛環(huán);基于Lucene的搜索引擎的設(shè)計和優(yōu)化[D];吉林大學(xué);2008年
本文編號:741893
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/741893.html