基于Lucene的實(shí)驗(yàn)室采集數(shù)據(jù)搜索引擎系統(tǒng)的搭建

發(fā)布時(shí)間：2019-07-19 07:02

【摘要】：隨著教學(xué)科研信息系統(tǒng)地建立和發(fā)展,產(chǎn)生了大量的業(yè)務(wù)信息。其中不僅有保存在數(shù)據(jù)庫(kù)中的科研實(shí)驗(yàn)業(yè)務(wù)信息、學(xué)生信息等結(jié)構(gòu)化信息,還有大量實(shí)驗(yàn)室采集數(shù)據(jù)、教學(xué)科研資料等非結(jié)構(gòu)化信息。這些信息有的可能存儲(chǔ)在數(shù)據(jù)庫(kù)中,大量的信息則保存在文件服務(wù)器或內(nèi)容管理服務(wù)器中。如何從實(shí)驗(yàn)室紛繁復(fù)雜的信息資源中,檢索到教學(xué)科研所需要的各類資源是信息管理所面臨的一個(gè)巨大挑戰(zhàn)。本文主要研究存在于文件服務(wù)器、內(nèi)容管理服務(wù)器上的實(shí)驗(yàn)室采集數(shù)據(jù)以及教學(xué)科研資料等大量非結(jié)構(gòu)化數(shù)據(jù)的檢索與取用問題。通過(guò)分析研究提出搭建基于Lucene檢索框架的實(shí)驗(yàn)室采集數(shù)據(jù)搜索引擎系統(tǒng)一MonsterSearch搜索引擎系統(tǒng)。MonsterSearch搜索引擎系統(tǒng)由Parse模塊和Search模塊組成。Parse模塊利用Tika解析框架提取非結(jié)構(gòu)化數(shù)據(jù)的文本內(nèi)容與相關(guān)元數(shù)據(jù),使用Lucene檢索框架進(jìn)行索引操作并將索引數(shù)據(jù)存入Berkeley DB數(shù)據(jù)庫(kù)。Search模塊基于Lucene檢索框架實(shí)現(xiàn)搜索操作,為用戶檢索查詢實(shí)驗(yàn)室各類信息資源提供用戶接口。本文所做的工作如下：首先,本文通過(guò)對(duì)Lucene檢索框架的檢索機(jī)制、系統(tǒng)架構(gòu)、框架核心模塊、文本分析過(guò)程、數(shù)據(jù)流、索引結(jié)構(gòu)、評(píng)分機(jī)制進(jìn)行了深入的分析研究,明確了Lucene內(nèi)部調(diào)用時(shí)序與處理邏輯以及Lucene索引的數(shù)據(jù)結(jié)構(gòu)和索引段優(yōu)化策略,對(duì)Lucene檢索框架有了全面的認(rèn)識(shí)。與此同時(shí),通過(guò)數(shù)學(xué)模型對(duì)Lucene核心評(píng)分公式進(jìn)行了推導(dǎo)驗(yàn)證,從根本上理解Lucene的評(píng)分機(jī)制,為使用Lucene檢索框架實(shí)現(xiàn)搜索引擎系統(tǒng)奠定了基礎(chǔ)。其次,本文對(duì)解析提取非結(jié)構(gòu)化數(shù)據(jù)文本內(nèi)容及相關(guān)元數(shù)據(jù)的Tika解析框架進(jìn)行了分析。隨后介紹了Tika如何判斷文檔類型以及提取文檔文本信息的方法。通過(guò)分析研究Tika的語(yǔ)言識(shí)別機(jī)制,建立一個(gè)NGP語(yǔ)言配置文件來(lái)解決對(duì)中文支持的問題。再次,根據(jù)需求分析編碼實(shí)現(xiàn)MonsterSearch搜索引擎系統(tǒng)。系統(tǒng)實(shí)現(xiàn)過(guò)程中解決的關(guān)鍵問題包括：1.系統(tǒng)結(jié)合IKAnalyzer分析器實(shí)現(xiàn)了對(duì)檢索詞的準(zhǔn)確切分,解決了Lucene自帶分析器對(duì)中文支持不力的問題；2.系統(tǒng)使用多線程技術(shù)對(duì)非結(jié)構(gòu)化數(shù)據(jù)信息進(jìn)行解析并創(chuàng)建索引,在充分利用CPU資源的同時(shí),提升索引創(chuàng)建速度；3.使用索引部分優(yōu)化策略對(duì)索引進(jìn)行優(yōu)化；4.通過(guò)對(duì)系統(tǒng)運(yùn)行特性的分析以及對(duì)系統(tǒng)資源的使用情況,使用Berkeley DB存儲(chǔ)索引數(shù)據(jù),實(shí)現(xiàn)更高的數(shù)據(jù)讀取效率；5.對(duì)文檔內(nèi)容域進(jìn)行加權(quán)操作,使得系統(tǒng)在計(jì)算其相似度的同時(shí)充分考慮到該域針對(duì)其他域的重要程度；6.系統(tǒng)利用Lucene檢索框架功能強(qiáng)大的API實(shí)現(xiàn)了針對(duì)教學(xué)科研資料、實(shí)驗(yàn)采集數(shù)據(jù)等非結(jié)構(gòu)化數(shù)據(jù)構(gòu)建的多種檢索方式；7.系統(tǒng)實(shí)現(xiàn)了搜索結(jié)果的高亮顯示為用戶提供更好的使用體驗(yàn)；8.對(duì)系統(tǒng)運(yùn)維中需要注意的內(nèi)存管理與索引備份問題提出了解決方法。最后,系統(tǒng)編碼實(shí)現(xiàn)后在惠普HP ProLiant DL380G7服務(wù)器上完成了部署運(yùn)行,并對(duì)系統(tǒng)進(jìn)行了功能測(cè)試和搜索質(zhì)量評(píng)估,結(jié)果顯示系統(tǒng)符合設(shè)計(jì)要求,能夠滿足實(shí)驗(yàn)室用戶搜索需求。
【學(xué)位授予單位】：首都師范大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2013
【分類號(hào)】：TP391.3

【參考文獻(xiàn)】

相關(guān)期刊論文前7條

1 高玉良;張濟(jì)強(qiáng);白瑤;;基于Lucene的多索引搜索的研究與應(yīng)用[J];電腦知識(shí)與技術(shù);2012年07期

2 彭波,閆宏飛;搜索引擎檢索系統(tǒng)質(zhì)量評(píng)估[J];計(jì)算機(jī)研究與發(fā)展;2005年10期

3 胡長(zhǎng)春;劉功申;;面向搜索引擎Lucene的中文分析器[J];計(jì)算機(jī)工程與應(yīng)用;2009年12期

4 房志峰;;中文搜索引擎中的分詞技術(shù)研究[J];科學(xué)技術(shù)與工程;2008年09期

5 孫建濤,沈抖,陸玉昌,石純一;網(wǎng)頁(yè)分類技術(shù)[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2004年01期

6 于津凱,王映雪,陳懷楚;一種基于N-Gram改進(jìn)的文本特征提取算法[J];圖書情報(bào)工作;2004年08期

7 向暉;郭一平;王亮;;基于Lucene的中文字典分詞模塊的設(shè)計(jì)與實(shí)現(xiàn)[J];現(xiàn)代圖書情報(bào)技術(shù);2006年08期

相關(guān)碩士學(xué)位論文前7條

1 蘇亮;基于多級(jí)Hash分詞的全文搜索引擎的研究[D];北京郵電大學(xué);2008年

2 劉朋;基于Lucene的垂直搜索引擎關(guān)鍵技術(shù)的研究應(yīng)用[D];武漢理工大學(xué);2009年

3 胡長(zhǎng)春;基于Lucene的中文自然語(yǔ)言搜索引擎[D];上海交通大學(xué);2009年

4 王波;基于Lucene的企業(yè)搜索引擎[D];北京郵電大學(xué);2009年

5 張蕾;基于Lucene的電子檔案檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];西安電子科技大學(xué);2010年

6 陳航哲;基于Lucene的垂直搜索引擎的研究與應(yīng)用[D];暨南大學(xué);2010年

7 魯小川;基于LUCENE的網(wǎng)絡(luò)搜索引擎系統(tǒng)研究及實(shí)現(xiàn)[D];武漢理工大學(xué);2010年

，

本文編號(hào)：2516146

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2516146.html

上一篇：從少兒信息港和Yahooligans看少年兒童網(wǎng)站建設(shè)
下一篇：網(wǎng)絡(luò)時(shí)代搜索引擎帶來(lái)的社會(huì)問題

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Lucene的實(shí)驗(yàn)室采集數(shù)據(jù)搜索引擎系統(tǒng)的搭建