基于Lucene的企業(yè)搜索引擎系統(tǒng)研究與實現(xiàn)
發(fā)布時間:2021-08-21 23:39
當(dāng)前,隨著企業(yè)信息化水平逐漸提高,企業(yè)信息資源越來越豐富,不僅包括各種數(shù)據(jù)庫信息,而且還包括企業(yè)內(nèi)部存儲的大量文本信息。然而,這些文本信息資源分布分散,信息組織形態(tài)多樣化,迫切的需要進行統(tǒng)一整合和查找。企業(yè)內(nèi)部信息資源搜索引擎系統(tǒng)的建立,對于優(yōu)化企業(yè)信息資源檢索顯得越來越重要。該文分析了企業(yè)搜索引擎的研究現(xiàn)狀和存在的不足,并針對企業(yè)的電子文檔組織管理領(lǐng)域,定制了一個基于Lucene的企業(yè)搜索引擎系統(tǒng),擴展了Lucene的應(yīng)用功能。著重研究了Lucene內(nèi)部的文檔排序算法,改進了文檔排序算法模型,利用層次分析法來確定文檔排序的權(quán)重。利用K-means聚類算法將搜索結(jié)果自動聚類,形成一個類似文件夾的層次結(jié)構(gòu)的搜索結(jié)果頁面,以便于用戶瀏覽。利用多線程技術(shù)實現(xiàn)了索引的分布式管理策略,提高了系統(tǒng)的效率和穩(wěn)定性。改進后的系統(tǒng)實現(xiàn)了企業(yè)中pdf、word、html、text等常見文本格式的文本抽取,將其轉(zhuǎn)化成Lucene所支持的固定索引格式,從而使系統(tǒng)支持各種文本格式的信息檢索。最后,通過結(jié)合中小企業(yè)信息資源平臺的具體案例,對實現(xiàn)檢索系統(tǒng)中各個功能模塊進行了詳細的設(shè)計和分析,在SSH(Struts,...
【文章來源】:重慶理工大學(xué)重慶市
【文章頁數(shù)】:66 頁
【學(xué)位級別】:碩士
【部分圖文】:
Lucene系統(tǒng)結(jié)構(gòu)圖
全文檢索流程示意圖
文本分類程序框架
【參考文獻】:
期刊論文
[1]企業(yè)級搜索引擎的“藍!盵J]. 安康健. 上海信息化. 2011(06)
[2]基于Lucene的分布式并行索引[J]. 唐華姣,何友全,徐小樂,徐澄. 計算機技術(shù)與發(fā)展. 2011(02)
[3]江西省三級綜合醫(yī)院競爭力評價指標(biāo)層次分析與應(yīng)用[J]. 李麗清,張百棧,周小剛. 中國衛(wèi)生統(tǒng)計. 2010(05)
[4]基于Lucene的企業(yè)搜索引擎研究及應(yīng)用[J]. 李海豐. 電腦知識與技術(shù). 2009(04)
[5]聚類搜索引擎探究[J]. 黃建年,侯漢清. 圖書館學(xué)研究. 2009(01)
[6]中小型企業(yè)搜索引擎應(yīng)用研究[J]. 馬穎儀,李利強. 科技信息. 2008(30)
[7]Lucene搜索引擎[J]. 周登朋,謝康林. 計算機工程. 2007(18)
[8]搜索引擎的相關(guān)排序算法分析與優(yōu)化[J]. 蔡國民,王雅琳. 吉首大學(xué)學(xué)報(自然科學(xué)版). 2006(05)
[9]搜索引擎的幾種常用排序算法[J]. 常璐,夏祖奇. 圖書情報工作. 2003(06)
[10]矩陣最大特征值的近似求法[J]. 葉耀軍,王首軍,魏磊,朱麗,侯金超. 河南農(nóng)業(yè)大學(xué)學(xué)報. 2001(S1)
碩士論文
[1]密文全文檢索系統(tǒng)的研究與實現(xiàn)[D]. 郭利剛.武漢理工大學(xué) 2011
[2]基于Lucene和Heritrix的職位垂直搜索引擎的設(shè)計與實現(xiàn)[D]. 李亮.中國地質(zhì)大學(xué)(北京) 2010
[3]基于RSS的種子信息聚合與抽取模型的研究與實現(xiàn)[D]. 張麗娜.太原理工大學(xué) 2010
[4]基于網(wǎng)頁內(nèi)容分析的Web信息抽取技術(shù)及其應(yīng)用[D]. 楊秀麗.河北科技大學(xué) 2010
[5]基于lucene的搜索引擎[D]. 張彬.上海師范大學(xué) 2010
[6]基于k-means的中文文本聚類算法的研究與實現(xiàn)[D]. 張睿.西北大學(xué) 2009
[7]多源文檔全文檢索系統(tǒng)設(shè)計與實現(xiàn)[D]. 方艷芬.華中師范大學(xué) 2009
[8]全文檢索系統(tǒng)Lucene的分析與擴展[D]. 楊光宇.吉林大學(xué) 2009
[9]基于Lucene的電力企業(yè)信息全文搜索系統(tǒng)的設(shè)計和實現(xiàn)[D]. 何霞.華北電力大學(xué)(北京) 2009
[10]基于Lucene的企業(yè)搜索引擎[D]. 王波.北京郵電大學(xué) 2009
本文編號:3356543
【文章來源】:重慶理工大學(xué)重慶市
【文章頁數(shù)】:66 頁
【學(xué)位級別】:碩士
【部分圖文】:
Lucene系統(tǒng)結(jié)構(gòu)圖
全文檢索流程示意圖
文本分類程序框架
【參考文獻】:
期刊論文
[1]企業(yè)級搜索引擎的“藍!盵J]. 安康健. 上海信息化. 2011(06)
[2]基于Lucene的分布式并行索引[J]. 唐華姣,何友全,徐小樂,徐澄. 計算機技術(shù)與發(fā)展. 2011(02)
[3]江西省三級綜合醫(yī)院競爭力評價指標(biāo)層次分析與應(yīng)用[J]. 李麗清,張百棧,周小剛. 中國衛(wèi)生統(tǒng)計. 2010(05)
[4]基于Lucene的企業(yè)搜索引擎研究及應(yīng)用[J]. 李海豐. 電腦知識與技術(shù). 2009(04)
[5]聚類搜索引擎探究[J]. 黃建年,侯漢清. 圖書館學(xué)研究. 2009(01)
[6]中小型企業(yè)搜索引擎應(yīng)用研究[J]. 馬穎儀,李利強. 科技信息. 2008(30)
[7]Lucene搜索引擎[J]. 周登朋,謝康林. 計算機工程. 2007(18)
[8]搜索引擎的相關(guān)排序算法分析與優(yōu)化[J]. 蔡國民,王雅琳. 吉首大學(xué)學(xué)報(自然科學(xué)版). 2006(05)
[9]搜索引擎的幾種常用排序算法[J]. 常璐,夏祖奇. 圖書情報工作. 2003(06)
[10]矩陣最大特征值的近似求法[J]. 葉耀軍,王首軍,魏磊,朱麗,侯金超. 河南農(nóng)業(yè)大學(xué)學(xué)報. 2001(S1)
碩士論文
[1]密文全文檢索系統(tǒng)的研究與實現(xiàn)[D]. 郭利剛.武漢理工大學(xué) 2011
[2]基于Lucene和Heritrix的職位垂直搜索引擎的設(shè)計與實現(xiàn)[D]. 李亮.中國地質(zhì)大學(xué)(北京) 2010
[3]基于RSS的種子信息聚合與抽取模型的研究與實現(xiàn)[D]. 張麗娜.太原理工大學(xué) 2010
[4]基于網(wǎng)頁內(nèi)容分析的Web信息抽取技術(shù)及其應(yīng)用[D]. 楊秀麗.河北科技大學(xué) 2010
[5]基于lucene的搜索引擎[D]. 張彬.上海師范大學(xué) 2010
[6]基于k-means的中文文本聚類算法的研究與實現(xiàn)[D]. 張睿.西北大學(xué) 2009
[7]多源文檔全文檢索系統(tǒng)設(shè)計與實現(xiàn)[D]. 方艷芬.華中師范大學(xué) 2009
[8]全文檢索系統(tǒng)Lucene的分析與擴展[D]. 楊光宇.吉林大學(xué) 2009
[9]基于Lucene的電力企業(yè)信息全文搜索系統(tǒng)的設(shè)計和實現(xiàn)[D]. 何霞.華北電力大學(xué)(北京) 2009
[10]基于Lucene的企業(yè)搜索引擎[D]. 王波.北京郵電大學(xué) 2009
本文編號:3356543
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3356543.html
最近更新
教材專著