天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于Lucene的分布式全文檢索技術(shù)的研究與應(yīng)用

發(fā)布時(shí)間:2017-03-24 18:14

  本文關(guān)鍵詞:基于Lucene的分布式全文檢索技術(shù)的研究與應(yīng)用,由筆耕文化傳播整理發(fā)布。


【摘要】:隨著互聯(lián)網(wǎng)信息技術(shù)的快速發(fā)展,電子設(shè)備承載的數(shù)據(jù)越來越多,越來越豐富,甚至已經(jīng)悄然進(jìn)入大數(shù)據(jù)時(shí)代。伴隨著企業(yè)數(shù)據(jù)量的不斷增長(zhǎng)和積累,企業(yè)需要解決在數(shù)據(jù)海洋中快速定位所需資料以及如何從大量文本資料中快速找到關(guān)鍵信息等問題。 傳統(tǒng)的方法主要是數(shù)據(jù)庫(kù)直接檢索,但利用數(shù)據(jù)庫(kù)檢索技術(shù)進(jìn)行全文檢索時(shí)效率很低,更無法和百度、Google等搜索引擎相媲美。同時(shí),關(guān)系型數(shù)據(jù)庫(kù)檢索不能有效的處理非結(jié)構(gòu)化數(shù)據(jù)。為提高全文檢索的效率,本文在研究全文檢索技術(shù)的基礎(chǔ)上,對(duì)索引構(gòu)建和檢索過程進(jìn)行優(yōu)化,改進(jìn)匹配算法,并結(jié)合分布式技術(shù)開發(fā)一個(gè)分布式全文檢索系統(tǒng),能有效處理非結(jié)構(gòu)化數(shù)據(jù),顯著提高檢索效率以及系統(tǒng)的可擴(kuò)展性與可維護(hù)性。 本文的具體內(nèi)容主要包括: 1)首先介紹了全文檢索和分布式相關(guān)技術(shù),包括Lucene的系統(tǒng)結(jié)構(gòu)和工作流程、倒排索引機(jī)制、排序算法、分詞技術(shù)以及分布式計(jì)算和分布式集群。 2)分析了倒排索引底層結(jié)構(gòu)及原理,并使用混合倒排索引以及不同域使用各自簡(jiǎn)化的分詞器的方法進(jìn)行了改進(jìn);深入剖析了全文檢索過程與檢索模型,提出了利用緩存和索引合并進(jìn)行優(yōu)化的建議;研究了Lucene的排序算法和分詞技術(shù)并對(duì)現(xiàn)有的分詞匹配算法進(jìn)行改進(jìn),很好地支持了最大詞匹配問題,并提出了實(shí)時(shí)更新詞典的方法。 3)設(shè)計(jì)了一個(gè)信息安全全文檢索系統(tǒng),包括索引構(gòu)建、檢索模塊以及分詞和字典的設(shè)計(jì)。通過分析Solr與Lucene的關(guān)系,使用Solr設(shè)計(jì)和實(shí)現(xiàn)了分布式全文檢索服務(wù)器,提高了系統(tǒng)的可擴(kuò)展性和可維護(hù)性。 4)通過對(duì)原型系統(tǒng)的測(cè)試分析,對(duì)比使用Solr搜索服務(wù)器前后相關(guān)性能的測(cè)試結(jié)果,表明了索引創(chuàng)建的優(yōu)化取得良好的效果,,用戶檢索效率高,能有效檢索各種非結(jié)構(gòu)化數(shù)據(jù),滿足了企業(yè)內(nèi)部全文檢索的日常工作需要。
【關(guān)鍵詞】:搜索引擎 全文檢索 Lucene 分布式 Solr
【學(xué)位授予單位】:東華大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP391.3
【目錄】:
  • 摘要5-7
  • ABSTRACT7-11
  • 第一章 緒論11-15
  • 1.1 引言11
  • 1.2 研究背景及意義11-12
  • 1.3 國(guó)內(nèi)外研究現(xiàn)狀12
  • 1.4 研究?jī)?nèi)容及組織結(jié)構(gòu)12-14
  • 1.4.1 研究?jī)?nèi)容12-13
  • 1.4.2 論文組織結(jié)構(gòu)13-14
  • 1.5 本章小結(jié)14-15
  • 第二章 分布式與全文檢索技術(shù)15-24
  • 2.1 全文檢索技術(shù)15-17
  • 2.1.1 檢索15
  • 2.1.2 全文檢索技術(shù)15
  • 2.1.3 全文檢索系統(tǒng)15-17
  • 2.2 Lucene17-20
  • 2.2.1 Lucene 簡(jiǎn)介17
  • 2.2.2 Lucene 優(yōu)點(diǎn)17
  • 2.2.3 Lucene 系統(tǒng)結(jié)構(gòu)17-18
  • 2.2.4 Lucene 工作流程18-20
  • 2.3 Lucene 與全文檢索系統(tǒng)20
  • 2.4 分布式系統(tǒng)20-22
  • 2.4.1 分布式系統(tǒng)簡(jiǎn)介20-21
  • 2.4.2 分布式系統(tǒng)優(yōu)點(diǎn)21-22
  • 2.5 分布式全文檢索系統(tǒng)22-23
  • 2.6 本章小結(jié)23-24
  • 第三章 全文檢索技術(shù)研究24-48
  • 3.1 傳統(tǒng)索引技術(shù)24-32
  • 3.1.1 索引簡(jiǎn)介24-25
  • 3.1.2 索引優(yōu)點(diǎn)與不足25
  • 3.1.3 索引原理剖析25-26
  • 3.1.4 常見索引數(shù)據(jù)結(jié)構(gòu)分析及優(yōu)缺點(diǎn)26-32
  • 3.2 倒排索引技術(shù)32-37
  • 3.2.1 倒排索引簡(jiǎn)介32-35
  • 3.2.2 改進(jìn)的混合倒排索引35-37
  • 3.2.3 Lucene 索引構(gòu)建優(yōu)化37
  • 3.3 檢索技術(shù)37-42
  • 3.3.1 檢索技術(shù)簡(jiǎn)介37-38
  • 3.3.2 檢索模型38-40
  • 3.3.3 檢索過程深入剖析40-41
  • 3.3.4 檢索過程優(yōu)化41-42
  • 3.4 排序算法42-43
  • 3.4.1 基于頁(yè)面內(nèi)容的排序算法42-43
  • 3.4.2 Lucene 排序算法研究43
  • 3.5 分詞技術(shù)43-47
  • 3.5.1 分詞技術(shù)簡(jiǎn)介43-44
  • 3.5.2 詞典分詞44-46
  • 3.5.3 改進(jìn)的匹配算法46-47
  • 3.6 本章小結(jié)47-48
  • 第四章 信息安全全文檢索系統(tǒng)的設(shè)計(jì)48-58
  • 4.1 需求分析48-49
  • 4.2 總體設(shè)計(jì)49
  • 4.3 索引構(gòu)建設(shè)計(jì)49-50
  • 4.4 檢索模塊設(shè)計(jì)50-53
  • 4.4.1 檢索模塊的封裝50-51
  • 4.4.2 Solr 與 Lucene51
  • 4.4.3 Solr 系統(tǒng)結(jié)構(gòu)51-53
  • 4.5 分詞和字典設(shè)計(jì)53-57
  • 4.5.1 分詞方法設(shè)計(jì)53-54
  • 4.5.2 分詞設(shè)計(jì)優(yōu)化前后對(duì)比54-55
  • 4.5.3 實(shí)時(shí)更新詞典55
  • 4.5.4 在詞典中匹配詞段55-57
  • 4.6 本章小結(jié)57-58
  • 第五章 信息安全全文檢索系統(tǒng)的實(shí)現(xiàn)58-71
  • 5.1 索引創(chuàng)建實(shí)現(xiàn)58-59
  • 5.2 全文檢索實(shí)現(xiàn)59-66
  • 5.2.1 Solr 下載與安裝60
  • 5.2.2 Solr 搭建開發(fā)環(huán)境60-63
  • 5.2.3 Lucene 分頁(yè)查詢實(shí)現(xiàn)63-64
  • 5.2.4 Lucene 常見查詢實(shí)現(xiàn)64-66
  • 5.3 分詞和詞典實(shí)現(xiàn)66-67
  • 5.4 系統(tǒng)運(yùn)行測(cè)試67-70
  • 5.4.3 系統(tǒng)運(yùn)行截圖67-69
  • 5.4.4 索引優(yōu)化前后對(duì)比69
  • 5.4.5 檢索優(yōu)化前后對(duì)比69-70
  • 5.5 本章小結(jié)70-71
  • 第六章 總結(jié)與展望71-73
  • 6.1 總結(jié)71
  • 6.2 展望71-73
  • 參考文獻(xiàn)73-76
  • 攻讀碩士學(xué)位期間發(fā)表的學(xué)術(shù)論文76-77
  • 致謝77

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前7條

1 趙珂;逯鵬;李永強(qiáng);;基于Lucene的搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)工程;2011年16期

2 欒靜;李軍鋒;;基于Lucene全文檢索引擎的應(yīng)用研究[J];計(jì)算機(jī)與數(shù)字工程;2010年12期

3 李戴維;李寧;;基于Solr的分布式全文檢索系統(tǒng)的研究與實(shí)現(xiàn)[J];計(jì)算機(jī)與現(xiàn)代化;2012年11期

4 義天鵬;陳啟安;;基于Lucene的中文分析器分詞性能比較研究[J];計(jì)算機(jī)工程;2012年22期

5 岳紹敏;李萬龍;王璐;光順利;;基于Lucene索引的數(shù)據(jù)庫(kù)全文檢索[J];吉林大學(xué)學(xué)報(bào)(理學(xué)版);2014年05期

6 黃少林;王華;張玉紅;蔣一峰;;基于Lucene的索引系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];現(xiàn)代情報(bào);2009年07期

7 胡_g;封俊;;Hadoop下的分布式搜索引擎[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2010年07期


  本文關(guān)鍵詞:基于Lucene的分布式全文檢索技術(shù)的研究與應(yīng)用,由筆耕文化傳播整理發(fā)布。



本文編號(hào):265989

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/265989.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶2e5eb***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
国产欧美日韩精品成人专区| 五月婷婷六月丁香在线观看| 久久久精品区二区三区| 色丁香之五月婷婷开心| 精品国产91亚洲一区二区三区| 亚洲一区二区三区在线中文字幕| 狠狠亚洲丁香综合久久| 欧美野外在线刺激在线观看| 国产一区在线免费国产一区| 国产成人亚洲欧美二区综| 黄色片一区二区在线观看| 国产欧美精品对白性色| 日韩aa一区二区三区| 日韩无套内射免费精品| 日本高清不卡一二三区| 国产黄色高清内射熟女视频| 日韩三极片在线免费播放| 国产亚洲视频香蕉一区| 熟女免费视频一区二区| 青青操精品视频在线观看| 久久一区内射污污内射亚洲| 99视频精品免费视频| 色播五月激情五月婷婷| 99久久精品免费看国产高清| 国产精品一级香蕉一区| 日韩精品第一区二区三区| 久久综合九色综合欧美| 国产又粗又猛又大爽又黄同志| 午夜久久精品福利视频| 丝袜破了有美女肉体免费观看| 欧美多人疯狂性战派对| 久热在线视频这里只有精品| 色丁香一区二区黑人巨大| 国产一区二区三区免费福利| 欧美黄色黑人一区二区| 老熟女露脸一二三四区| 日本欧美在线一区二区三区| 欧美日韩国产自拍亚洲| 国产又粗又猛又长又黄视频| 黑人粗大一区二区三区| 精品国产日韩一区三区|