天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于Lucene的實驗室采集數(shù)據(jù)搜索引擎系統(tǒng)的搭建

發(fā)布時間:2019-07-19 07:02
【摘要】:隨著教學(xué)科研信息系統(tǒng)地建立和發(fā)展,產(chǎn)生了大量的業(yè)務(wù)信息。其中不僅有保存在數(shù)據(jù)庫中的科研實驗業(yè)務(wù)信息、學(xué)生信息等結(jié)構(gòu)化信息,還有大量實驗室采集數(shù)據(jù)、教學(xué)科研資料等非結(jié)構(gòu)化信息。這些信息有的可能存儲在數(shù)據(jù)庫中,大量的信息則保存在文件服務(wù)器或內(nèi)容管理服務(wù)器中。如何從實驗室紛繁復(fù)雜的信息資源中,檢索到教學(xué)科研所需要的各類資源是信息管理所面臨的一個巨大挑戰(zhàn)。 本文主要研究存在于文件服務(wù)器、內(nèi)容管理服務(wù)器上的實驗室采集數(shù)據(jù)以及教學(xué)科研資料等大量非結(jié)構(gòu)化數(shù)據(jù)的檢索與取用問題。通過分析研究提出搭建基于Lucene檢索框架的實驗室采集數(shù)據(jù)搜索引擎系統(tǒng)一MonsterSearch搜索引擎系統(tǒng)。MonsterSearch搜索引擎系統(tǒng)由Parse模塊和Search模塊組成。Parse模塊利用Tika解析框架提取非結(jié)構(gòu)化數(shù)據(jù)的文本內(nèi)容與相關(guān)元數(shù)據(jù),使用Lucene檢索框架進行索引操作并將索引數(shù)據(jù)存入Berkeley DB數(shù)據(jù)庫。Search模塊基于Lucene檢索框架實現(xiàn)搜索操作,為用戶檢索查詢實驗室各類信息資源提供用戶接口。 本文所做的工作如下: 首先,本文通過對Lucene檢索框架的檢索機制、系統(tǒng)架構(gòu)、框架核心模塊、文本分析過程、數(shù)據(jù)流、索引結(jié)構(gòu)、評分機制進行了深入的分析研究,明確了Lucene內(nèi)部調(diào)用時序與處理邏輯以及Lucene索引的數(shù)據(jù)結(jié)構(gòu)和索引段優(yōu)化策略,對Lucene檢索框架有了全面的認識。與此同時,通過數(shù)學(xué)模型對Lucene核心評分公式進行了推導(dǎo)驗證,從根本上理解Lucene的評分機制,為使用Lucene檢索框架實現(xiàn)搜索引擎系統(tǒng)奠定了基礎(chǔ)。 其次,本文對解析提取非結(jié)構(gòu)化數(shù)據(jù)文本內(nèi)容及相關(guān)元數(shù)據(jù)的Tika解析框架進行了分析。隨后介紹了Tika如何判斷文檔類型以及提取文檔文本信息的方法。通過分析研究Tika的語言識別機制,建立一個NGP語言配置文件來解決對中文支持的問題。 再次,根據(jù)需求分析編碼實現(xiàn)MonsterSearch搜索引擎系統(tǒng)。系統(tǒng)實現(xiàn)過程中解決的關(guān)鍵問題包括:1.系統(tǒng)結(jié)合IKAnalyzer分析器實現(xiàn)了對檢索詞的準確切分,解決了Lucene自帶分析器對中文支持不力的問題;2.系統(tǒng)使用多線程技術(shù)對非結(jié)構(gòu)化數(shù)據(jù)信息進行解析并創(chuàng)建索引,在充分利用CPU資源的同時,提升索引創(chuàng)建速度;3.使用索引部分優(yōu)化策略對索引進行優(yōu)化;4.通過對系統(tǒng)運行特性的分析以及對系統(tǒng)資源的使用情況,使用Berkeley DB存儲索引數(shù)據(jù),實現(xiàn)更高的數(shù)據(jù)讀取效率;5.對文檔內(nèi)容域進行加權(quán)操作,使得系統(tǒng)在計算其相似度的同時充分考慮到該域針對其他域的重要程度;6.系統(tǒng)利用Lucene檢索框架功能強大的API實現(xiàn)了針對教學(xué)科研資料、實驗采集數(shù)據(jù)等非結(jié)構(gòu)化數(shù)據(jù)構(gòu)建的多種檢索方式;7.系統(tǒng)實現(xiàn)了搜索結(jié)果的高亮顯示為用戶提供更好的使用體驗;8.對系統(tǒng)運維中需要注意的內(nèi)存管理與索引備份問題提出了解決方法。 最后,系統(tǒng)編碼實現(xiàn)后在惠普HP ProLiant DL380G7服務(wù)器上完成了部署運行,并對系統(tǒng)進行了功能測試和搜索質(zhì)量評估,結(jié)果顯示系統(tǒng)符合設(shè)計要求,能夠滿足實驗室用戶搜索需求。
【學(xué)位授予單位】:首都師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2013
【分類號】:TP391.3

【參考文獻】

相關(guān)期刊論文 前7條

1 高玉良;張濟強;白瑤;;基于Lucene的多索引搜索的研究與應(yīng)用[J];電腦知識與技術(shù);2012年07期

2 彭波,閆宏飛;搜索引擎檢索系統(tǒng)質(zhì)量評估[J];計算機研究與發(fā)展;2005年10期

3 胡長春;劉功申;;面向搜索引擎Lucene的中文分析器[J];計算機工程與應(yīng)用;2009年12期

4 房志峰;;中文搜索引擎中的分詞技術(shù)研究[J];科學(xué)技術(shù)與工程;2008年09期

5 孫建濤,沈抖,陸玉昌,石純一;網(wǎng)頁分類技術(shù)[J];清華大學(xué)學(xué)報(自然科學(xué)版);2004年01期

6 于津凱,王映雪,陳懷楚;一種基于N-Gram改進的文本特征提取算法[J];圖書情報工作;2004年08期

7 向暉;郭一平;王亮;;基于Lucene的中文字典分詞模塊的設(shè)計與實現(xiàn)[J];現(xiàn)代圖書情報技術(shù);2006年08期

相關(guān)碩士學(xué)位論文 前7條

1 蘇亮;基于多級Hash分詞的全文搜索引擎的研究[D];北京郵電大學(xué);2008年

2 劉朋;基于Lucene的垂直搜索引擎關(guān)鍵技術(shù)的研究應(yīng)用[D];武漢理工大學(xué);2009年

3 胡長春;基于Lucene的中文自然語言搜索引擎[D];上海交通大學(xué);2009年

4 王波;基于Lucene的企業(yè)搜索引擎[D];北京郵電大學(xué);2009年

5 張蕾;基于Lucene的電子檔案檢索系統(tǒng)的設(shè)計與實現(xiàn)[D];西安電子科技大學(xué);2010年

6 陳航哲;基于Lucene的垂直搜索引擎的研究與應(yīng)用[D];暨南大學(xué);2010年

7 魯小川;基于LUCENE的網(wǎng)絡(luò)搜索引擎系統(tǒng)研究及實現(xiàn)[D];武漢理工大學(xué);2010年

,

本文編號:2516146

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2516146.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶7615e***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
日韩免费国产91在线| 精品一区二区三区免费看| 亚洲黄香蕉视频免费看| 亚洲a码一区二区三区| 日韩在线中文字幕不卡| 国产麻豆精品福利在线| 一区二区不卡免费观看免费| 亚洲国产综合久久天堂| 日韩中文高清在线专区| 日韩高清毛片免费观看| 国产精品一区二区高潮| 亚洲av成人一区二区三区在线| 99久久精品一区二区国产| 在线日韩欧美国产自拍| 中文字幕久热精品视频在线| 中文字幕一区二区久久综合| 五月情婷婷综合激情综合狠狠| 日本在线 一区 二区| 激情亚洲内射一区二区三区| 人妻亚洲一区二区三区| 欧美日韩综合在线精品| 国产欧美一区二区三区精品视| 麻豆看片麻豆免费视频| 国产精品流白浆无遮挡| av免费视屏在线观看| 日本高清二区视频久二区| 亚洲男女性生活免费视频| 麻豆精品视频一二三区| 中文字幕欧美视频二区| 欧美精品一区久久精品| 五月激情综合在线视频| 日本黄色美女日本黄色| 国产精品亚洲一区二区| 91精品视频全国免费| 国产又黄又爽又粗视频在线| 精品人妻一区二区三区四区久久| 极品少妇嫩草视频在线观看| 少妇丰满a一区二区三区| 少妇人妻精品一区二区三区| 久草国产精品一区二区| 国产精品福利一二三区|