基于Solr的分布式實時全文檢索系統(tǒng)的設計與實現(xiàn)
發(fā)布時間:2021-07-07 09:14
伴隨著信息技術的快速發(fā)展,越來越多的企業(yè)建立了自己的信息平臺或者網(wǎng)站。當企業(yè)內的數(shù)據(jù)量不斷增長時,使用數(shù)據(jù)庫提供的檢索功能將嚴重影響搜索效率,要想使用數(shù)據(jù)庫提供的檢索能力實現(xiàn)和搜索引擎(百度、Google)類似的檢索效率是不可能的。這就需要使用搜索引擎中使用的全文檢索技術,怎樣把全文檢索應用嵌入在企業(yè)的系統(tǒng)中,并提供高效的檢索服務是許多企業(yè)需要解決的主要問題。企業(yè)往往需要系統(tǒng)有較強的性能和擴展能力,而且根據(jù)企業(yè)對信息的實時性要求較高的特點,因此一個分布式實時全文檢索系統(tǒng)可以很好的解決上述問題。本文首先介紹分布式和全文檢索系統(tǒng),并詳細說明了全文檢索中的核心技術和Lucene (Apache軟件基金會的一個子項目),Lucene是一個開放源代碼的全文檢索引擎工具包。在對Lucene深入了解之后,經過對其相關項目分析,最終選擇使用其子項目Solr作為開發(fā)分布式實時全文檢索系統(tǒng)的核心技術。Solr是Apache軟件基金會基于Lucene開發(fā)的企業(yè)級搜索應用服務器,它所提供的客戶端接口可以方便實現(xiàn)分布式應用,作為一個開放源代碼的項目和其本身就是為企業(yè)應用而開發(fā)的,因此非常適合企業(yè)使用。在文中詳細...
【文章來源】:云南大學云南省 211工程院校
【文章頁數(shù)】:62 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
目錄
第一章 緒論
1.1 研究背景及意義
1.2 論文的主要內容及組織結構
1.2.1 論文研究內容
1.2.2 論文結構
第二章 分布式與全文檢索系統(tǒng)簡介
2.1 分布式系統(tǒng)簡介
2.2 全文檢索系統(tǒng)的含義
2.3 Lucene簡介
2.3.1 Lucene核心包
2.3.2 Lucene索引結構
2.4 全文檢索系統(tǒng)的結構
2.5 全文檢索系統(tǒng)的核心技術
2.5.1 索引技術
2.5.2 檢索技術
2.5.3 壓縮技術
2.6 檢索結果質量的評價
2.7 分布式全文檢索系統(tǒng)簡介
2.8 本章小結
第三章 分布式Solr分析研究
3.1 Solr簡介
3.2 Solr的系統(tǒng)架構與特點
3.2.1 Solr的架構
3.2.2 Solr的特點
3.3 Solr服務的搭建
3.3.1 準備工作
3.3.2 Solr安裝
3.3.3 中文分詞組件選擇
3.3.4 Solr中文分詞組件添加
3.3.5 Solr其他配置
3.4 Solrj客戶端編程簡介
3.5 Solr分布式應用研究
3.6 本章小結
第四章 分布式實時全文檢索系統(tǒng)設計
4.1 系統(tǒng)需求分析
4.2 系統(tǒng)開發(fā)環(huán)境與設計目標
4.3 系統(tǒng)總體設計
4.4 系統(tǒng)詳細設計
4.4.1 數(shù)據(jù)庫設計
4.4.2 搜索服務器分布式集群設計
4.4.3 分布式創(chuàng)建索引設計
4.4.4 分布式檢索設計
4.5 分布式全文檢索系統(tǒng)模型設計
4.6 本章小結
第五章 分布式實時全文檢索系統(tǒng)實現(xiàn)與性能測試
5.1 分布式實時全文檢索系統(tǒng)實現(xiàn)
5.1.1 數(shù)據(jù)庫訪問實現(xiàn)
5.1.2 分布式創(chuàng)建索引實現(xiàn)
5.1.3 分布式檢索實現(xiàn)
5.1.4 用戶模塊實現(xiàn)
5.2 系統(tǒng)運行截圖
5.3 索引性能測試
5.3.1 索引吞吐量測試
5.3.2 多用戶并發(fā)操作測試
5.4 搜索時延測試
5.5 本章小結
第六章 總結與展望
6.1 總結
6.2 展望
參考文獻
致謝
【參考文獻】:
期刊論文
[1]使用Solr為大數(shù)據(jù)庫搭建搜索引擎[J]. 霍慶,劉培植. 軟件. 2011(06)
[2]基于分面搜索引擎Solr的機構知識庫訪問統(tǒng)計[J]. 姚曉娜,祝忠明. 現(xiàn)代圖書情報技術. 2011(Z1)
[3]關于Lucene索引工具的性能優(yōu)化研究[J]. 張春燕,劉發(fā)升. 計算機技術與發(fā)展. 2011(05)
[4]基于Lucene的分布式并行索引[J]. 唐華姣,何友全,徐小樂,徐澄. 計算機技術與發(fā)展. 2011(02)
[5]分布式計算環(huán)境下的動態(tài)可信度評估模型[J]. 朱友文,黃劉生,陳國良,楊威. 計算機學報. 2011(01)
[6]分布式密文全文檢索系統(tǒng)設計及安全性研究[J]. 霍林,潘英花,王力,黃俊文. 廣西大學學報(自然科學版). 2010(06)
[7]大規(guī)模集群中一種自適應可擴展的RPC超時機制[J]. 錢迎進,肖儂,金士堯. 軟件學報. 2010(12)
[8]基于Lucene.Net的分布式全文檢索系統(tǒng)[J]. 譚文堂,賀明科,李阜. 計算機應用與軟件. 2009(09)
[9]基于內容過濾的個性化搜索算法[J]. 曾春,邢春曉,周立柱. 軟件學報. 2003(05)
[10]分布式實時系統(tǒng)的容錯調度算法[J]. 秦嘯,龐麗萍,韓宗芬,李勝利. 計算機學報. 2000(10)
碩士論文
[1]半結構化網(wǎng)頁的信息抽取技術研究[D]. 祝美蓮.中國石油大學 2011
[2]主題搜索引擎的關鍵技術研究與實現(xiàn)[D]. 孫軒.武漢理工大學 2010
[3]基于lucene中文全文檢索系統(tǒng)的研究與實現(xiàn)[D]. 劉鶯迎.鄭州大學 2009
[4]基于Lucene的企業(yè)搜索引擎[D]. 王波.北京郵電大學 2009
[5]基于Lucene的搜索引擎的設計和優(yōu)化[D]. 李沛環(huán).吉林大學 2008
[6]搜索引擎中索引技術研究與實現(xiàn)[D]. 吳寶貴.西安電子科技大學 2008
[7]大規(guī)模分布式全文搜索系統(tǒng)的研究與設計[D]. 余錦.清華大學 2004
[8]中文智能搜索引擎[D]. 陳鑫.四川大學 2004
本文編號:3269364
【文章來源】:云南大學云南省 211工程院校
【文章頁數(shù)】:62 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
目錄
第一章 緒論
1.1 研究背景及意義
1.2 論文的主要內容及組織結構
1.2.1 論文研究內容
1.2.2 論文結構
第二章 分布式與全文檢索系統(tǒng)簡介
2.1 分布式系統(tǒng)簡介
2.2 全文檢索系統(tǒng)的含義
2.3 Lucene簡介
2.3.1 Lucene核心包
2.3.2 Lucene索引結構
2.4 全文檢索系統(tǒng)的結構
2.5 全文檢索系統(tǒng)的核心技術
2.5.1 索引技術
2.5.2 檢索技術
2.5.3 壓縮技術
2.6 檢索結果質量的評價
2.7 分布式全文檢索系統(tǒng)簡介
2.8 本章小結
第三章 分布式Solr分析研究
3.1 Solr簡介
3.2 Solr的系統(tǒng)架構與特點
3.2.1 Solr的架構
3.2.2 Solr的特點
3.3 Solr服務的搭建
3.3.1 準備工作
3.3.2 Solr安裝
3.3.3 中文分詞組件選擇
3.3.4 Solr中文分詞組件添加
3.3.5 Solr其他配置
3.4 Solrj客戶端編程簡介
3.5 Solr分布式應用研究
3.6 本章小結
第四章 分布式實時全文檢索系統(tǒng)設計
4.1 系統(tǒng)需求分析
4.2 系統(tǒng)開發(fā)環(huán)境與設計目標
4.3 系統(tǒng)總體設計
4.4 系統(tǒng)詳細設計
4.4.1 數(shù)據(jù)庫設計
4.4.2 搜索服務器分布式集群設計
4.4.3 分布式創(chuàng)建索引設計
4.4.4 分布式檢索設計
4.5 分布式全文檢索系統(tǒng)模型設計
4.6 本章小結
第五章 分布式實時全文檢索系統(tǒng)實現(xiàn)與性能測試
5.1 分布式實時全文檢索系統(tǒng)實現(xiàn)
5.1.1 數(shù)據(jù)庫訪問實現(xiàn)
5.1.2 分布式創(chuàng)建索引實現(xiàn)
5.1.3 分布式檢索實現(xiàn)
5.1.4 用戶模塊實現(xiàn)
5.2 系統(tǒng)運行截圖
5.3 索引性能測試
5.3.1 索引吞吐量測試
5.3.2 多用戶并發(fā)操作測試
5.4 搜索時延測試
5.5 本章小結
第六章 總結與展望
6.1 總結
6.2 展望
參考文獻
致謝
【參考文獻】:
期刊論文
[1]使用Solr為大數(shù)據(jù)庫搭建搜索引擎[J]. 霍慶,劉培植. 軟件. 2011(06)
[2]基于分面搜索引擎Solr的機構知識庫訪問統(tǒng)計[J]. 姚曉娜,祝忠明. 現(xiàn)代圖書情報技術. 2011(Z1)
[3]關于Lucene索引工具的性能優(yōu)化研究[J]. 張春燕,劉發(fā)升. 計算機技術與發(fā)展. 2011(05)
[4]基于Lucene的分布式并行索引[J]. 唐華姣,何友全,徐小樂,徐澄. 計算機技術與發(fā)展. 2011(02)
[5]分布式計算環(huán)境下的動態(tài)可信度評估模型[J]. 朱友文,黃劉生,陳國良,楊威. 計算機學報. 2011(01)
[6]分布式密文全文檢索系統(tǒng)設計及安全性研究[J]. 霍林,潘英花,王力,黃俊文. 廣西大學學報(自然科學版). 2010(06)
[7]大規(guī)模集群中一種自適應可擴展的RPC超時機制[J]. 錢迎進,肖儂,金士堯. 軟件學報. 2010(12)
[8]基于Lucene.Net的分布式全文檢索系統(tǒng)[J]. 譚文堂,賀明科,李阜. 計算機應用與軟件. 2009(09)
[9]基于內容過濾的個性化搜索算法[J]. 曾春,邢春曉,周立柱. 軟件學報. 2003(05)
[10]分布式實時系統(tǒng)的容錯調度算法[J]. 秦嘯,龐麗萍,韓宗芬,李勝利. 計算機學報. 2000(10)
碩士論文
[1]半結構化網(wǎng)頁的信息抽取技術研究[D]. 祝美蓮.中國石油大學 2011
[2]主題搜索引擎的關鍵技術研究與實現(xiàn)[D]. 孫軒.武漢理工大學 2010
[3]基于lucene中文全文檢索系統(tǒng)的研究與實現(xiàn)[D]. 劉鶯迎.鄭州大學 2009
[4]基于Lucene的企業(yè)搜索引擎[D]. 王波.北京郵電大學 2009
[5]基于Lucene的搜索引擎的設計和優(yōu)化[D]. 李沛環(huán).吉林大學 2008
[6]搜索引擎中索引技術研究與實現(xiàn)[D]. 吳寶貴.西安電子科技大學 2008
[7]大規(guī)模分布式全文搜索系統(tǒng)的研究與設計[D]. 余錦.清華大學 2004
[8]中文智能搜索引擎[D]. 陳鑫.四川大學 2004
本文編號:3269364
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3269364.html