基于Lucene的分布式搜索引擎集群研究與設計
發(fā)布時間:2020-11-15 19:21
隨著社會信息化程度的不斷提高,傳統(tǒng)的基于單機系統(tǒng)的集中式信息檢索技術已無法滿足以大規(guī)模數(shù)據(jù)集為基礎的并發(fā)多用戶并行信息檢索的需求。利用高速網(wǎng)絡環(huán)境,搭建一個分布式搜索引擎集群系統(tǒng),進行分布式并行信息檢索,已成為搜索引擎新的發(fā)展趨勢。 信息集合的增大使得系統(tǒng)維護開銷和檢索響應時間越來越大。為了適應現(xiàn)代檢索環(huán)境的越來越高的要求,檢索體系設計和算法優(yōu)化仍然是一個信息檢索效率優(yōu)化的重要研究方向。 本文對信息檢索系統(tǒng)中涉及的兩個重大領域:索引和檢索,分別提出了兩種優(yōu)化算法,并在此基礎上衍生出了滿足并行和分布式需求的幾個不同技術。在索引方面,針對單一的RAM索引和FSD索引存在的缺點,采用RAM-FSD協(xié)同索引技術,并在此基礎上衍生出了RAM-FSD協(xié)同并行索引和RAM-FSD協(xié)同分布式并行索引技術。在檢索方面,針對現(xiàn)有線程池的不足,提出了一種新的線程池實現(xiàn)方式。在此基礎上,提出了線程池優(yōu)化檢索技術,并衍生出了并行檢索線程池優(yōu)化和分布式并行檢索線程池優(yōu)化技術。 在分布式搜索引擎集群設計中,本文針對一般分布式搜索引擎系統(tǒng)存在的問題,并吸取了GFS的優(yōu)點,提出了一種安全、高效、容易擴充、資源共享、成本較低的分布式集群系統(tǒng)。
【學位單位】:西安電子科技大學
【學位級別】:碩士
【學位年份】:2012
【中圖分類】:TP391.3
【部分圖文】:
第三章 RAM-FSD 協(xié)同分布式并行索引技術設計與實現(xiàn) 表:表 3.2 三種索引技術用時對比文件數(shù) FSD 索引 RAM 索引 RAM_FSD 協(xié)同100 0.641 0.406 0.7501000 3.047 2.438 3.12510000 25.084 溢出錯誤 25.50020000 50.156 溢出錯誤 48.016100000 515.437 溢出錯誤 411.969用時單如果不考慮 RAM 的溢出錯誤,可將上述統(tǒng)計表用曲線圖 3.3 表示,為了便的呈現(xiàn)將用時單位由 s 換算成 ms 后繪制如下:
Workstation)額外虛擬了多臺 PC。表 5.5 軟件環(huán)境配置開發(fā)工具 MyEclipse8.6、Macromedia Dreamweaver 8、Style Master 4.6Web 服務器 Apache 2.2.14、Apache Tomcat 6.5負載均衡 mod_jk-apache-2.0.55.so集群監(jiān)控 MC4J 1.2 Beta 9開發(fā)環(huán)境JDK6.0、Apache Ant1.8.2、Xfire-1.2.6、Lucene3.5.0、HTML Parser1.6、paoding_analyzer3.0、heritrix-1.14.4其它工具 Apache jakarta-jmeter-2.4、soapUI3.6.15.6.2 平臺效果演示RAM-FSD 協(xié)同索引技術、協(xié)同分布式并行索引技術和分布式并行檢索線程池優(yōu)化技術在分布式搜索引擎集群系統(tǒng)項目《一度搜索》中已得到了充分的運用和試驗驗證,運行效果如圖 5.8 和 5.9 所示。
圖 5.9 查詢結果顯示界面5.6.3 系統(tǒng)性能評估實驗 1:設定 20 個模擬用戶,對集群系統(tǒng)施加過量請求時,在 1~3 個節(jié)點服務器下對集群的平均響應速度、響應時間和數(shù)據(jù)傳輸速度進行測試。測試結果如下表 5.6 所示:表 5.6 測試結果節(jié)點數(shù) 響應速度(個響應/s) 響應時間(ms) 數(shù)據(jù)傳輸(KB/sec)1 450 109.71 68.82 436 109.98 69.23 442 109.76 69.0從表中可以發(fā)現(xiàn):當節(jié)點數(shù)增加的時候,系統(tǒng)響應速度、傳輸速度先減少后增加,響應時間先增加后減少。實驗 2:設定 3 個節(jié)點服務器下,5、15、20 個模擬用戶,對集群系統(tǒng)施加過
【參考文獻】
本文編號:2885109
【學位單位】:西安電子科技大學
【學位級別】:碩士
【學位年份】:2012
【中圖分類】:TP391.3
【部分圖文】:
第三章 RAM-FSD 協(xié)同分布式并行索引技術設計與實現(xiàn) 表:表 3.2 三種索引技術用時對比文件數(shù) FSD 索引 RAM 索引 RAM_FSD 協(xié)同100 0.641 0.406 0.7501000 3.047 2.438 3.12510000 25.084 溢出錯誤 25.50020000 50.156 溢出錯誤 48.016100000 515.437 溢出錯誤 411.969用時單如果不考慮 RAM 的溢出錯誤,可將上述統(tǒng)計表用曲線圖 3.3 表示,為了便的呈現(xiàn)將用時單位由 s 換算成 ms 后繪制如下:
Workstation)額外虛擬了多臺 PC。表 5.5 軟件環(huán)境配置開發(fā)工具 MyEclipse8.6、Macromedia Dreamweaver 8、Style Master 4.6Web 服務器 Apache 2.2.14、Apache Tomcat 6.5負載均衡 mod_jk-apache-2.0.55.so集群監(jiān)控 MC4J 1.2 Beta 9開發(fā)環(huán)境JDK6.0、Apache Ant1.8.2、Xfire-1.2.6、Lucene3.5.0、HTML Parser1.6、paoding_analyzer3.0、heritrix-1.14.4其它工具 Apache jakarta-jmeter-2.4、soapUI3.6.15.6.2 平臺效果演示RAM-FSD 協(xié)同索引技術、協(xié)同分布式并行索引技術和分布式并行檢索線程池優(yōu)化技術在分布式搜索引擎集群系統(tǒng)項目《一度搜索》中已得到了充分的運用和試驗驗證,運行效果如圖 5.8 和 5.9 所示。
圖 5.9 查詢結果顯示界面5.6.3 系統(tǒng)性能評估實驗 1:設定 20 個模擬用戶,對集群系統(tǒng)施加過量請求時,在 1~3 個節(jié)點服務器下對集群的平均響應速度、響應時間和數(shù)據(jù)傳輸速度進行測試。測試結果如下表 5.6 所示:表 5.6 測試結果節(jié)點數(shù) 響應速度(個響應/s) 響應時間(ms) 數(shù)據(jù)傳輸(KB/sec)1 450 109.71 68.82 436 109.98 69.23 442 109.76 69.0從表中可以發(fā)現(xiàn):當節(jié)點數(shù)增加的時候,系統(tǒng)響應速度、傳輸速度先減少后增加,響應時間先增加后減少。實驗 2:設定 3 個節(jié)點服務器下,5、15、20 個模擬用戶,對集群系統(tǒng)施加過
【參考文獻】
相關期刊論文 前10條
1 李曉明;劉建國;;搜索引擎技術及趨勢[J];電腦與電信;2008年05期
2 樊景超;周國民;;基于Lucene的“農(nóng)搜”并行索引技術研究[J];農(nóng)業(yè)網(wǎng)絡信息;2009年08期
3 王華,馬亮,顧明;線程池技術研究與應用[J];計算機應用研究;2005年11期
4 張敏,耿騫;并行信息檢索及其控制過程[J];情報科學;2004年08期
5 李建中;并行數(shù)據(jù)庫的查詢處理并行化技術和物理設計方法[J];軟件學報;1994年10期
6 趙海,李志蜀,韓學為,葉浩;線程池的優(yōu)化設計[J];四川大學學報(自然科學版);2005年01期
7 管建和;甘劍峰;;基于Lucene全文檢索引擎的應用研究與實現(xiàn)[J];計算機工程與設計;2007年02期
8 唐華姣;何友全;徐小樂;徐澄;;基于Lucene的分布式并行索引[J];計算機技術與發(fā)展;2011年02期
9 李昊,劉志鏡;線程池技術的研究[J];現(xiàn)代電子技術;2004年03期
10 田俊華;楊曉江;;分布式并行信息檢索系統(tǒng)的設計與實現(xiàn)——基礎教育資源搜索引擎?zhèn)案研究[J];現(xiàn)代圖書情報技術;2007年08期
本文編號:2885109
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2885109.html
最近更新
教材專著