基于solr搜索引擎的在線問(wèn)答搜索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
本文關(guān)鍵詞:基于solr搜索引擎的在線問(wèn)答搜索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
【摘要】:隨著互聯(lián)網(wǎng)的不斷發(fā)展,互聯(lián)網(wǎng)應(yīng)用也越來(lái)越多,用戶通過(guò)互聯(lián)網(wǎng)可以獲得更多的信息。用戶量和用戶問(wèn)題數(shù)量的不斷增量,一方面用戶搜索服務(wù)的效率和正確率得不到保障,這個(gè)極大的影響了用戶的使用體驗(yàn)。另一方面在用戶問(wèn)答數(shù)據(jù)量的不斷膨脹的情況下,公司對(duì)于數(shù)據(jù)的存儲(chǔ)管理也越來(lái)越困難。因此如何有效的對(duì)用戶問(wèn)答數(shù)據(jù)進(jìn)行了管理和搜索已經(jīng)成為了互聯(lián)網(wǎng)應(yīng)用急需解決的問(wèn)題,特別是對(duì)在線問(wèn)答系統(tǒng)這樣的應(yīng)用來(lái)說(shuō),搜索服務(wù)的效率和正確率極大的影響著它的生存。本文正是在這樣的背景下提出了基于solr的搜索服務(wù)解決方法,為在線問(wèn)答服務(wù)提供搜索服務(wù)。本文主要的工作內(nèi)容如下:首先對(duì)搜索引擎技術(shù)進(jìn)行了詳細(xì)的分析和研究。分析了全文搜索技術(shù)的流程和組件,對(duì)開(kāi)源的搜索引擎進(jìn)行了詳細(xì)的分析和比較,最終為本系統(tǒng)選擇了開(kāi)源的公司級(jí)的搜索引擎solr。接著對(duì)Lucene和solr搜索引擎進(jìn)行了詳細(xì)的分析,對(duì)搜索過(guò)程、索引過(guò)程和索引存儲(chǔ)結(jié)構(gòu)有了非常深入的了解。對(duì)目前比較流行的中文分詞器進(jìn)行了分詞對(duì)比,通過(guò)對(duì)比分析后選擇了開(kāi)源熱度比較的中文分詞器Jcseg,并對(duì)它進(jìn)行了一定的配置和性能優(yōu)化。最后對(duì)在線問(wèn)答搜索系統(tǒng)進(jìn)行了詳細(xì)的需求分析,在確定需求的基礎(chǔ)上,對(duì)系統(tǒng)進(jìn)行了設(shè)計(jì),主要包括系統(tǒng)流程圖的清理和系統(tǒng)的架構(gòu)設(shè)計(jì)。在此基礎(chǔ)上,將系統(tǒng)劃分為四大模塊:信息收集模塊、文檔解析模塊、索引模塊和搜索模塊。然后分別對(duì)這四個(gè)模塊進(jìn)行了詳細(xì)的設(shè)計(jì)、實(shí)現(xiàn)和測(cè)試。本文基于solr的在線問(wèn)答搜索服務(wù)極大的提高了用戶問(wèn)答信息的存儲(chǔ)和管理效率,并且通過(guò)這個(gè)系統(tǒng)極大的滿足了公司在搜索服務(wù)上的需求。
【關(guān)鍵詞】:solr 信息收集 中文分詞 Jcseg 索引
【學(xué)位授予單位】:湖南大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP311.52;TP391.3
【目錄】:
- 摘要5-6
- Abstract6-12
- 第1章 序言12-17
- 1.1 課題背景12-13
- 1.2 選題目的與意義13
- 1.3 國(guó)內(nèi)外研究現(xiàn)狀13-15
- 1.3.1 搜索引擎的發(fā)展現(xiàn)狀13-14
- 1.3.2 中文分詞的發(fā)展現(xiàn)狀14-15
- 1.4 研究?jī)?nèi)容15
- 1.5 論文組織結(jié)構(gòu)15-17
- 第2章 搜索引擎的研究17-32
- 2.1 全文檢索現(xiàn)狀17-18
- 2.2 lucene工具包18-22
- 2.2.1 lucene搜索流程18-19
- 2.2.2 lucene包結(jié)構(gòu)19-20
- 2.2.3 lucene索引結(jié)構(gòu)20-22
- 2.3 solr平臺(tái)22-25
- 2.3.1 solr搜索引擎服務(wù)器22-24
- 2.3.2 solr體系結(jié)構(gòu)24-25
- 2.4 中文分詞算法25-28
- 2.4.1 基于字符串匹配的分詞算法26-28
- 2.4.2 基于統(tǒng)計(jì)的分詞算法28
- 2.4.3 基于理解的分詞算法28
- 2.5 中文分詞器的比較28-31
- 2.6 本章小結(jié)31-32
- 第3章 系統(tǒng)需求分析32-38
- 3.1 系統(tǒng)的建設(shè)目標(biāo)32-33
- 3.2 系統(tǒng)可行性分析33
- 3.2.1 需求可行性分析33
- 3.2.2 技術(shù)可行性分析33
- 3.3 功能需求分析33-35
- 3.4 系統(tǒng)的流程圖35-36
- 3.5 非功能性需求分析36
- 3.6 本章小結(jié)36-38
- 第4章 在線問(wèn)答搜索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)38-58
- 4.1 系統(tǒng)總體架構(gòu)38-39
- 4.2 Jcseg分詞器39-41
- 4.2.1 Jcseg分詞器的軟件結(jié)構(gòu)39-40
- 4.2.2 Jcseg分詞器在solr上的配置40
- 4.2.3 Jcseg分詞器的字典配置40
- 4.2.4 分詞模式的配置40-41
- 4.3 系統(tǒng)的模塊設(shè)計(jì)和實(shí)現(xiàn)41-56
- 4.3.1 信息收集模塊41-46
- 4.3.2 文檔解析模塊46-48
- 4.3.3 索引模塊48-54
- 4.3.4 搜索模塊54-56
- 4.4 本章小結(jié)56-58
- 第5章 在線問(wèn)答搜索系統(tǒng)的測(cè)試58-68
- 5.1 測(cè)試環(huán)境搭建58-60
- 5.1.1 tomcat安裝和配置58-59
- 5.1.2 通過(guò)tomcat部署solr59-60
- 5.2 jcseg分詞器的測(cè)試60-61
- 5.3 功能測(cè)試61-67
- 5.3.1 分詞效果測(cè)試61-63
- 5.3.2 索引建立測(cè)試63-64
- 5.3.3 搜索服務(wù)測(cè)試64-67
- 5.4 本章小結(jié)67-68
- 結(jié)論68-70
- 總結(jié)68-69
- 展望69-70
- 參考文獻(xiàn)70-73
- 致謝73
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 姚曉娜;祝忠明;;基于分面搜索引擎Solr的機(jī)構(gòu)知識(shí)庫(kù)訪問(wèn)統(tǒng)計(jì)[J];現(xiàn)代圖書(shū)情報(bào)技術(shù);2011年Z1期
2 唐華姣;何友全;徐小樂(lè);徐澄;;基于Lucene的分布式并行索引[J];計(jì)算機(jī)技術(shù)與發(fā)展;2011年02期
3 于洪波;;中文分詞技術(shù)研究[J];東莞理工學(xué)院學(xué)報(bào);2010年05期
4 徐海燕;劉勇;;搜索引擎的工作原理及發(fā)展趨勢(shì)[J];科技創(chuàng)新導(dǎo)報(bào);2010年11期
5 胡長(zhǎng)春;劉功申;;面向搜索引擎Lucene的中文分析器[J];計(jì)算機(jī)工程與應(yīng)用;2009年12期
6 劉杰;;基于改進(jìn)的隱馬爾科夫模型的中文命名實(shí)體識(shí)別算法[J];太原師范學(xué)院學(xué)報(bào)(自然科學(xué)版);2009年01期
7 余翠莉;徐軍英;;Yahoo和Google搜索功能之比較[J];農(nóng)業(yè)圖書(shū)情報(bào)學(xué)刊;2007年06期
8 蔣建洪;;主要分布式搜索引擎技術(shù)的研究[J];科學(xué)技術(shù)與工程;2007年10期
9 趙仲孟,戚曉光,沈鈞毅;分布式搜索引擎系統(tǒng)中協(xié)作檢索機(jī)制的研究[J];微電子學(xué)與計(jì)算機(jī);2005年05期
10 王瓊;搜索引擎的四大發(fā)展趨勢(shì)[J];農(nóng)業(yè)網(wǎng)絡(luò)信息;2005年03期
本文關(guān)鍵詞:基于solr搜索引擎的在線問(wèn)答搜索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn),,由筆耕文化傳播整理發(fā)布。
本文編號(hào):272426
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/272426.html