【摘要】:隨著教學(xué)科研信息系統(tǒng)地建立和發(fā)展,產(chǎn)生了大量的業(yè)務(wù)信息。其中不僅有保存在數(shù)據(jù)庫中的科研實驗業(yè)務(wù)信息、學(xué)生信息等結(jié)構(gòu)化信息,還有大量實驗室采集數(shù)據(jù)、教學(xué)科研資料等非結(jié)構(gòu)化信息。這些信息有的可能存儲在數(shù)據(jù)庫中,大量的信息則保存在文件服務(wù)器或內(nèi)容管理服務(wù)器中。如何從實驗室紛繁復(fù)雜的信息資源中,檢索到教學(xué)科研所需要的各類資源是信息管理所面臨的一個巨大挑戰(zhàn)。 本文主要研究存在于文件服務(wù)器、內(nèi)容管理服務(wù)器上的實驗室采集數(shù)據(jù)以及教學(xué)科研資料等大量非結(jié)構(gòu)化數(shù)據(jù)的檢索與取用問題。通過分析研究提出搭建基于Lucene檢索框架的實驗室采集數(shù)據(jù)搜索引擎系統(tǒng)一MonsterSearch搜索引擎系統(tǒng)。MonsterSearch搜索引擎系統(tǒng)由Parse模塊和Search模塊組成。Parse模塊利用Tika解析框架提取非結(jié)構(gòu)化數(shù)據(jù)的文本內(nèi)容與相關(guān)元數(shù)據(jù),使用Lucene檢索框架進行索引操作并將索引數(shù)據(jù)存入Berkeley DB數(shù)據(jù)庫。Search模塊基于Lucene檢索框架實現(xiàn)搜索操作,為用戶檢索查詢實驗室各類信息資源提供用戶接口。 本文所做的工作如下: 首先,本文通過對Lucene檢索框架的檢索機制、系統(tǒng)架構(gòu)、框架核心模塊、文本分析過程、數(shù)據(jù)流、索引結(jié)構(gòu)、評分機制進行了深入的分析研究,明確了Lucene內(nèi)部調(diào)用時序與處理邏輯以及Lucene索引的數(shù)據(jù)結(jié)構(gòu)和索引段優(yōu)化策略,對Lucene檢索框架有了全面的認識。與此同時,通過數(shù)學(xué)模型對Lucene核心評分公式進行了推導(dǎo)驗證,從根本上理解Lucene的評分機制,為使用Lucene檢索框架實現(xiàn)搜索引擎系統(tǒng)奠定了基礎(chǔ)。 其次,本文對解析提取非結(jié)構(gòu)化數(shù)據(jù)文本內(nèi)容及相關(guān)元數(shù)據(jù)的Tika解析框架進行了分析。隨后介紹了Tika如何判斷文檔類型以及提取文檔文本信息的方法。通過分析研究Tika的語言識別機制,建立一個NGP語言配置文件來解決對中文支持的問題。 再次,根據(jù)需求分析編碼實現(xiàn)MonsterSearch搜索引擎系統(tǒng)。系統(tǒng)實現(xiàn)過程中解決的關(guān)鍵問題包括:1.系統(tǒng)結(jié)合IKAnalyzer分析器實現(xiàn)了對檢索詞的準確切分,解決了Lucene自帶分析器對中文支持不力的問題;2.系統(tǒng)使用多線程技術(shù)對非結(jié)構(gòu)化數(shù)據(jù)信息進行解析并創(chuàng)建索引,在充分利用CPU資源的同時,提升索引創(chuàng)建速度;3.使用索引部分優(yōu)化策略對索引進行優(yōu)化;4.通過對系統(tǒng)運行特性的分析以及對系統(tǒng)資源的使用情況,使用Berkeley DB存儲索引數(shù)據(jù),實現(xiàn)更高的數(shù)據(jù)讀取效率;5.對文檔內(nèi)容域進行加權(quán)操作,使得系統(tǒng)在計算其相似度的同時充分考慮到該域針對其他域的重要程度;6.系統(tǒng)利用Lucene檢索框架功能強大的API實現(xiàn)了針對教學(xué)科研資料、實驗采集數(shù)據(jù)等非結(jié)構(gòu)化數(shù)據(jù)構(gòu)建的多種檢索方式;7.系統(tǒng)實現(xiàn)了搜索結(jié)果的高亮顯示為用戶提供更好的使用體驗;8.對系統(tǒng)運維中需要注意的內(nèi)存管理與索引備份問題提出了解決方法。 最后,系統(tǒng)編碼實現(xiàn)后在惠普HP ProLiant DL380G7服務(wù)器上完成了部署運行,并對系統(tǒng)進行了功能測試和搜索質(zhì)量評估,結(jié)果顯示系統(tǒng)符合設(shè)計要求,能夠滿足實驗室用戶搜索需求。
【學(xué)位授予單位】:首都師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2013
【分類號】:TP391.3
【參考文獻】
相關(guān)期刊論文 前7條
1 高玉良;張濟強;白瑤;;基于Lucene的多索引搜索的研究與應(yīng)用[J];電腦知識與技術(shù);2012年07期
2 彭波,閆宏飛;搜索引擎檢索系統(tǒng)質(zhì)量評估[J];計算機研究與發(fā)展;2005年10期
3 胡長春;劉功申;;面向搜索引擎Lucene的中文分析器[J];計算機工程與應(yīng)用;2009年12期
4 房志峰;;中文搜索引擎中的分詞技術(shù)研究[J];科學(xué)技術(shù)與工程;2008年09期
5 孫建濤,沈抖,陸玉昌,石純一;網(wǎng)頁分類技術(shù)[J];清華大學(xué)學(xué)報(自然科學(xué)版);2004年01期
6 于津凱,王映雪,陳懷楚;一種基于N-Gram改進的文本特征提取算法[J];圖書情報工作;2004年08期
7 向暉;郭一平;王亮;;基于Lucene的中文字典分詞模塊的設(shè)計與實現(xiàn)[J];現(xiàn)代圖書情報技術(shù);2006年08期
相關(guān)碩士學(xué)位論文 前7條
1 蘇亮;基于多級Hash分詞的全文搜索引擎的研究[D];北京郵電大學(xué);2008年
2 劉朋;基于Lucene的垂直搜索引擎關(guān)鍵技術(shù)的研究應(yīng)用[D];武漢理工大學(xué);2009年
3 胡長春;基于Lucene的中文自然語言搜索引擎[D];上海交通大學(xué);2009年
4 王波;基于Lucene的企業(yè)搜索引擎[D];北京郵電大學(xué);2009年
5 張蕾;基于Lucene的電子檔案檢索系統(tǒng)的設(shè)計與實現(xiàn)[D];西安電子科技大學(xué);2010年
6 陳航哲;基于Lucene的垂直搜索引擎的研究與應(yīng)用[D];暨南大學(xué);2010年
7 魯小川;基于LUCENE的網(wǎng)絡(luò)搜索引擎系統(tǒng)研究及實現(xiàn)[D];武漢理工大學(xué);2010年
,
本文編號:
2516146
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2516146.html