天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于solr搜索引擎的在線問答搜索系統(tǒng)的設計與實現

發(fā)布時間:2017-03-28 14:14

  本文關鍵詞:基于solr搜索引擎的在線問答搜索系統(tǒng)的設計與實現,由筆耕文化傳播整理發(fā)布。


【摘要】:隨著互聯網的不斷發(fā)展,互聯網應用也越來越多,用戶通過互聯網可以獲得更多的信息。用戶量和用戶問題數量的不斷增量,一方面用戶搜索服務的效率和正確率得不到保障,這個極大的影響了用戶的使用體驗。另一方面在用戶問答數據量的不斷膨脹的情況下,公司對于數據的存儲管理也越來越困難。因此如何有效的對用戶問答數據進行了管理和搜索已經成為了互聯網應用急需解決的問題,特別是對在線問答系統(tǒng)這樣的應用來說,搜索服務的效率和正確率極大的影響著它的生存。本文正是在這樣的背景下提出了基于solr的搜索服務解決方法,為在線問答服務提供搜索服務。本文主要的工作內容如下:首先對搜索引擎技術進行了詳細的分析和研究。分析了全文搜索技術的流程和組件,對開源的搜索引擎進行了詳細的分析和比較,最終為本系統(tǒng)選擇了開源的公司級的搜索引擎solr。接著對Lucene和solr搜索引擎進行了詳細的分析,對搜索過程、索引過程和索引存儲結構有了非常深入的了解。對目前比較流行的中文分詞器進行了分詞對比,通過對比分析后選擇了開源熱度比較的中文分詞器Jcseg,并對它進行了一定的配置和性能優(yōu)化。最后對在線問答搜索系統(tǒng)進行了詳細的需求分析,在確定需求的基礎上,對系統(tǒng)進行了設計,主要包括系統(tǒng)流程圖的清理和系統(tǒng)的架構設計。在此基礎上,將系統(tǒng)劃分為四大模塊:信息收集模塊、文檔解析模塊、索引模塊和搜索模塊。然后分別對這四個模塊進行了詳細的設計、實現和測試。本文基于solr的在線問答搜索服務極大的提高了用戶問答信息的存儲和管理效率,并且通過這個系統(tǒng)極大的滿足了公司在搜索服務上的需求。
【關鍵詞】:solr 信息收集 中文分詞 Jcseg 索引
【學位授予單位】:湖南大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP311.52;TP391.3
【目錄】:
  • 摘要5-6
  • Abstract6-12
  • 第1章 序言12-17
  • 1.1 課題背景12-13
  • 1.2 選題目的與意義13
  • 1.3 國內外研究現狀13-15
  • 1.3.1 搜索引擎的發(fā)展現狀13-14
  • 1.3.2 中文分詞的發(fā)展現狀14-15
  • 1.4 研究內容15
  • 1.5 論文組織結構15-17
  • 第2章 搜索引擎的研究17-32
  • 2.1 全文檢索現狀17-18
  • 2.2 lucene工具包18-22
  • 2.2.1 lucene搜索流程18-19
  • 2.2.2 lucene包結構19-20
  • 2.2.3 lucene索引結構20-22
  • 2.3 solr平臺22-25
  • 2.3.1 solr搜索引擎服務器22-24
  • 2.3.2 solr體系結構24-25
  • 2.4 中文分詞算法25-28
  • 2.4.1 基于字符串匹配的分詞算法26-28
  • 2.4.2 基于統(tǒng)計的分詞算法28
  • 2.4.3 基于理解的分詞算法28
  • 2.5 中文分詞器的比較28-31
  • 2.6 本章小結31-32
  • 第3章 系統(tǒng)需求分析32-38
  • 3.1 系統(tǒng)的建設目標32-33
  • 3.2 系統(tǒng)可行性分析33
  • 3.2.1 需求可行性分析33
  • 3.2.2 技術可行性分析33
  • 3.3 功能需求分析33-35
  • 3.4 系統(tǒng)的流程圖35-36
  • 3.5 非功能性需求分析36
  • 3.6 本章小結36-38
  • 第4章 在線問答搜索系統(tǒng)的設計與實現38-58
  • 4.1 系統(tǒng)總體架構38-39
  • 4.2 Jcseg分詞器39-41
  • 4.2.1 Jcseg分詞器的軟件結構39-40
  • 4.2.2 Jcseg分詞器在solr上的配置40
  • 4.2.3 Jcseg分詞器的字典配置40
  • 4.2.4 分詞模式的配置40-41
  • 4.3 系統(tǒng)的模塊設計和實現41-56
  • 4.3.1 信息收集模塊41-46
  • 4.3.2 文檔解析模塊46-48
  • 4.3.3 索引模塊48-54
  • 4.3.4 搜索模塊54-56
  • 4.4 本章小結56-58
  • 第5章 在線問答搜索系統(tǒng)的測試58-68
  • 5.1 測試環(huán)境搭建58-60
  • 5.1.1 tomcat安裝和配置58-59
  • 5.1.2 通過tomcat部署solr59-60
  • 5.2 jcseg分詞器的測試60-61
  • 5.3 功能測試61-67
  • 5.3.1 分詞效果測試61-63
  • 5.3.2 索引建立測試63-64
  • 5.3.3 搜索服務測試64-67
  • 5.4 本章小結67-68
  • 結論68-70
  • 總結68-69
  • 展望69-70
  • 參考文獻70-73
  • 致謝73

【參考文獻】

中國期刊全文數據庫 前10條

1 姚曉娜;祝忠明;;基于分面搜索引擎Solr的機構知識庫訪問統(tǒng)計[J];現代圖書情報技術;2011年Z1期

2 唐華姣;何友全;徐小樂;徐澄;;基于Lucene的分布式并行索引[J];計算機技術與發(fā)展;2011年02期

3 于洪波;;中文分詞技術研究[J];東莞理工學院學報;2010年05期

4 徐海燕;劉勇;;搜索引擎的工作原理及發(fā)展趨勢[J];科技創(chuàng)新導報;2010年11期

5 胡長春;劉功申;;面向搜索引擎Lucene的中文分析器[J];計算機工程與應用;2009年12期

6 劉杰;;基于改進的隱馬爾科夫模型的中文命名實體識別算法[J];太原師范學院學報(自然科學版);2009年01期

7 余翠莉;徐軍英;;Yahoo和Google搜索功能之比較[J];農業(yè)圖書情報學刊;2007年06期

8 蔣建洪;;主要分布式搜索引擎技術的研究[J];科學技術與工程;2007年10期

9 趙仲孟,戚曉光,沈鈞毅;分布式搜索引擎系統(tǒng)中協作檢索機制的研究[J];微電子學與計算機;2005年05期

10 王瓊;搜索引擎的四大發(fā)展趨勢[J];農業(yè)網絡信息;2005年03期


  本文關鍵詞:基于solr搜索引擎的在線問答搜索系統(tǒng)的設計與實現,,由筆耕文化傳播整理發(fā)布。



本文編號:272426

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/272426.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶3e00e***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com