基于solr全文搜索引擎的研究與實(shí)現(xiàn)
本文關(guān)鍵詞:基于solr全文搜索引擎的研究與實(shí)現(xiàn)
【摘要】:目前市面上搜索引擎十分多,其擁有較高的技術(shù)門檻;現(xiàn)成的搜索引擎技術(shù)并不共享,這使得搜索引擎開發(fā)難度得到了進(jìn)一步提升。目前Solr是開源的企業(yè)級(jí)搜索引擎服務(wù)器,其具備高效、獨(dú)立等特點(diǎn),其已經(jīng)廣受關(guān)注,相關(guān)應(yīng)用已經(jīng)十分普及。目前浙江理工大學(xué)馬克思主義學(xué)院網(wǎng)站中并沒有嵌入站內(nèi)搜索功能,這使得馬克思主義學(xué)院網(wǎng)站信息的查找顯得無從下手。本文將基于Solr技術(shù)來構(gòu)建浙江理工大學(xué)馬克思主義學(xué)院的站內(nèi)搜索引擎。本文基于Solr完成了全文搜索引擎的開發(fā),整個(gè)系統(tǒng)主要實(shí)現(xiàn)浙江理工大學(xué)馬克思主義學(xué)院網(wǎng)站的全文搜索。系統(tǒng)主要依據(jù)Heritrix為框架基礎(chǔ)實(shí)現(xiàn)馬克思主義網(wǎng)站頁面的抓取,同時(shí)對(duì)抓取成果進(jìn)行下載與存儲(chǔ)至本地;在此之后對(duì)網(wǎng)頁相關(guān)內(nèi)容進(jìn)行抽取,將所抽取的內(nèi)容存儲(chǔ)數(shù)據(jù)庫;隨后利用相關(guān)技術(shù)將上述存儲(chǔ)的數(shù)據(jù)導(dǎo)入至Solr,由其對(duì)相關(guān)內(nèi)容進(jìn)行索引建立;依據(jù)索引編程成果進(jìn)行數(shù)據(jù)檢索,并將檢索結(jié)果呈現(xiàn)給用戶。首先對(duì)搜索引擎研發(fā)的背景進(jìn)行分析,明確馬克思主義學(xué)院研發(fā)搜索引擎迫切性;同時(shí)研究搜索引擎的相關(guān)技術(shù),明確搜索引擎發(fā)展以及技術(shù)特點(diǎn)。隨后針對(duì)本搜索引擎系統(tǒng)相關(guān)的技術(shù)進(jìn)行分析,如網(wǎng)絡(luò)爬蟲技術(shù)等,這些技術(shù)將作為后續(xù)搜索引擎的研發(fā)基礎(chǔ);同時(shí)對(duì)于搜索引擎開發(fā)所使用的工具進(jìn)行簡單介紹。隨后完成了全文搜索引擎的需求分析,完成了搜索引擎的架構(gòu)設(shè)計(jì),并依據(jù)此架構(gòu)完成了搜索引擎的各個(gè)功能模塊設(shè)計(jì),并完成了數(shù)據(jù)庫設(shè)計(jì),包括數(shù)據(jù)分析以及數(shù)據(jù)表設(shè)計(jì)。隨后完成了開發(fā)環(huán)境的介紹,包括硬件、軟件以及所采用的開發(fā)工具包;在此環(huán)境中完成了全文搜索引擎的各個(gè)功能模塊的編碼實(shí)現(xiàn)。最后完成了全文搜索引擎的測(cè)試概述,明確了搜索引擎測(cè)試的目標(biāo)、原則以及測(cè)試環(huán)境,與此同時(shí)完成了搜索引擎的功能以及性能測(cè)試(包括檢索速率以及中文分詞器)。整個(gè)測(cè)試表明,全文搜索引擎能夠滿足學(xué)校學(xué)院的要求,可嵌入至學(xué)院網(wǎng)站運(yùn)行,能夠?qū)崿F(xiàn)全文搜索,整個(gè)搜索引擎界面清晰,具備較強(qiáng)的可操作性。
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP391.3
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 吐爾地·托合提;維尼拉·木沙江;艾斯卡爾·艾木都拉;;維、哈、柯多文種全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用與軟件;2009年06期
2 李國芳;;全文搜索引擎快速搭建的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)與現(xiàn)代化;2012年11期
3 張俊飛;;全文搜索引擎搭建解析[J];現(xiàn)代計(jì)算機(jī);2013年25期
4 呂夢(mèng)瑩;;全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J];科技致富向?qū)?2013年11期
5 陳華輝;一個(gè)中英文全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用研究;2001年03期
6 許譚;祝彥杰;;森林碳匯文獻(xiàn)全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J];科技資訊;2008年33期
7 趙淑梅;;全文搜索引擎技術(shù)[J];鄭州鐵路職業(yè)技術(shù)學(xué)院學(xué)報(bào);2008年03期
8 杜勇強(qiáng);;基于行為統(tǒng)計(jì)的全文搜索引擎排序算法[J];計(jì)算機(jī)與數(shù)字工程;2006年10期
9 趙力;;網(wǎng)站全文搜索引擎技術(shù)的初步研究及應(yīng)用[J];科技信息;2009年11期
10 王志敏;黃文;謝小紅;賴建宇;;基于全文搜索引擎的空間數(shù)據(jù)搜索研究[J];國土資源信息化;2013年03期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前2條
1 吐爾地·托合提;維尼拉·木沙江;艾斯卡爾·艾木都拉;;維、哈、柯全文搜索引擎中查詢處理研究與實(shí)現(xiàn)[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年
2 陸偉;周雪忠;吳朝暉;;基于XML的WEB數(shù)據(jù)庫全文搜索引擎[A];中國中醫(yī)藥信息研究會(huì)第二屆理事大會(huì)暨學(xué)術(shù)交流會(huì)議論文匯編[C];2003年
中國重要報(bào)紙全文數(shù)據(jù)庫 前1條
1 湖北 周東飛;用Spy-CD構(gòu)建網(wǎng)站全文搜索引擎[N];電腦報(bào);2002年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前8條
1 楊彬;基于Lucene.NET的局域網(wǎng)全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2014年
2 高利雅;基于solr全文搜索引擎的研究與實(shí)現(xiàn)[D];電子科技大學(xué);2014年
3 翟永恒;基于Lucene的全文搜索引擎的應(yīng)用研究[D];貴州大學(xué);2009年
4 徐傳運(yùn);基于主題相關(guān)的P2P全文搜索引擎的研究[D];重慶大學(xué);2006年
5 張瑞;基于Lucene的中英文文檔全文搜索引擎[D];電子科技大學(xué);2008年
6 吳卓斌;基于LUCENE全文搜索引擎關(guān)鍵技術(shù)的研究[D];暨南大學(xué);2007年
7 蘇亮;基于多級(jí)Hash分詞的全文搜索引擎的研究[D];北京郵電大學(xué);2008年
8 李曉東;一個(gè)企業(yè)搜索平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[D];東北大學(xué);2012年
,本文編號(hào):1264502
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1264502.html