天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于NoSQL存儲(chǔ)的海量文檔全文檢索系統(tǒng)的研究與實(shí)現(xiàn)

發(fā)布時(shí)間:2017-06-13 04:09

  本文關(guān)鍵詞:基于NoSQL存儲(chǔ)的海量文檔全文檢索系統(tǒng)的研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。


【摘要】:基于NoSQL存儲(chǔ)的海量文檔全文檢索系統(tǒng)是一種結(jié)合了分布式全文檢索和分布式存儲(chǔ)的新型文檔管理系統(tǒng)。它提供了文檔管理系統(tǒng)升級(jí)的一種方案,使文檔存儲(chǔ)滿足海量存儲(chǔ)要求,使文檔檢索更加準(zhǔn)確高效。傳統(tǒng)的文檔管理系統(tǒng)大多使用文檔外部特征作為文檔查詢關(guān)鍵字,通過(guò)這些關(guān)鍵字和文檔內(nèi)容建立關(guān)聯(lián)并保存到關(guān)系型數(shù)據(jù)庫(kù),文檔內(nèi)容直接保存到操作系統(tǒng)文件系統(tǒng)中。這種方式一般會(huì)造成兩個(gè)問(wèn)題,一個(gè)是文檔都保存在一臺(tái)服務(wù)器上,造成系統(tǒng)存儲(chǔ)容量有限,擴(kuò)展性不好。另一個(gè)是使用外部特征搜索文檔內(nèi)容,搜索的準(zhǔn)確性很低。為解決這兩個(gè)問(wèn)題,本文把業(yè)界兩種新興技術(shù)NoSQL和分布式全文檢索引擎引入到文檔管理系統(tǒng)中。MongoDB在NoSQL領(lǐng)域非常有名,在DB Engines的排行榜中己進(jìn)入前5,在行業(yè)中的應(yīng)用非常普遍。本文分析了MongoDB的特點(diǎn)、功能和適合場(chǎng)景,并重點(diǎn)研究了MongoDB實(shí)現(xiàn)分片和復(fù)制的原理,為學(xué)習(xí)分布式存儲(chǔ)提供了很好的案例。ElasticSearch是一個(gè)基于Lucene構(gòu)建的開源引擎,包涵有分布式、RESTful等功能。雖然是一個(gè)新興的分布式搜索引擎,但在性能、擴(kuò)展性、成熟度多方面都表現(xiàn)很優(yōu)秀。本文重點(diǎn)深入ElasticSearch源碼,分析了其實(shí)現(xiàn)分布式搜索的原理。本文主要研究工作是基于NoSQL存儲(chǔ)的海量文檔全文檢索系統(tǒng)的研究與實(shí)現(xiàn)。根據(jù)功能需要,本文設(shè)計(jì)了基于OSGi的模塊化插件結(jié)構(gòu)的系統(tǒng)架構(gòu),并把業(yè)務(wù)功能分為文件處理、文本提取、全文索引和查詢四個(gè)主要模塊。系統(tǒng)應(yīng)用插件結(jié)構(gòu)保證了系統(tǒng)的擴(kuò)展性,能夠支持新出現(xiàn)的文檔格式;應(yīng)用Mongo-DB解決了文檔海量存儲(chǔ)的問(wèn)題;應(yīng)用ElasticSearch搜索引擎解決了全文檢索準(zhǔn)確性和查詢效率問(wèn)題。
【關(guān)鍵詞】:NoSQL MongoDB ElasticSearch 分布式 搜索引擎
【學(xué)位授予單位】:華北電力大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP391.3
【目錄】:
  • 摘要5-6
  • ABSTRACT6-9
  • 第1章 緒論9-14
  • 1.1 課題背景及研究的目的和意義9-10
  • 1.2 NoSQL數(shù)據(jù)庫(kù)的發(fā)展現(xiàn)狀10-11
  • 1.3 全文檢索技術(shù)發(fā)展現(xiàn)狀11-12
  • 1.4 本文的研究?jī)?nèi)容及論文章節(jié)安排12-14
  • 第2章 關(guān)鍵技術(shù)14-24
  • 2.1 引言14
  • 2.2 MONGODB主要特點(diǎn)14-20
  • 2.2.1 功能和適用場(chǎng)景14-16
  • 2.2.2 集群和分片16-19
  • 2.2.3 GridFS簡(jiǎn)介19-20
  • 2.3 ELASTICSEARCH的基本原理20-23
  • 2.3.1 Lucene核心概念20-21
  • 2.3.2 構(gòu)建分布式搜索引擎原理21-22
  • 2.3.3 復(fù)制22-23
  • 2.3.4 管理工具23
  • 2.4 本章小結(jié)23-24
  • 第3章 海量文檔全文檢索系統(tǒng)的設(shè)計(jì)24-38
  • 3.1 引言24
  • 3.2 問(wèn)題分析及解決方案24-25
  • 3.3 總體架構(gòu)設(shè)計(jì)25-27
  • 3.3.1 基于OSGi的J2EE企業(yè)級(jí)模塊化框架26-27
  • 3.3.2 面向服務(wù)架構(gòu)27
  • 3.4 模塊設(shè)計(jì)27-37
  • 3.4.1 文件處理模塊設(shè)計(jì)29-32
  • 3.4.2 文本提取模塊設(shè)計(jì)32-34
  • 3.4.3 全文索引模塊設(shè)計(jì)34-36
  • 3.4.4 查詢模塊設(shè)計(jì)36-37
  • 3.5 本章小結(jié)37-38
  • 第4章 海量文檔全文檢索系統(tǒng)的實(shí)現(xiàn)38-52
  • 4.1 引言38
  • 4.2 基于OSGI的J2EE企業(yè)級(jí)模塊化框架的實(shí)現(xiàn)38-39
  • 4.3 系統(tǒng)處理流程39-41
  • 4.4 文件處理模塊的實(shí)現(xiàn)41-45
  • 4.4.1 用戶界面41-43
  • 4.4.2 文件上傳下載43-44
  • 4.4.3 文件保存讀取44-45
  • 4.5 文本提取模塊的實(shí)現(xiàn)45-49
  • 4.5.1 文本提取主框架45-48
  • 4.5.2 文本提取插件48-49
  • 4.6 全文索引模塊的實(shí)現(xiàn)49-51
  • 4.6.1 分布式索引庫(kù)配置49-50
  • 4.6.2 索引管理實(shí)現(xiàn)50-51
  • 4.7 查詢模塊的實(shí)現(xiàn)51
  • 4.8 本章小結(jié)51-52
  • 第5章 結(jié)論與展望52-54
  • 5.1 結(jié)論52
  • 5.2 展望52-54
  • 參考文獻(xiàn)54-57
  • 致謝57-58
  • 作者簡(jiǎn)介58

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前3條

1 徐輝,何克抗,孫波;書面漢語(yǔ)自動(dòng)分詞專家系統(tǒng)的實(shí)現(xiàn)[J];中文信息學(xué)報(bào);1991年03期

2 張琳;陶振凱;;基于Lucene的全文檢索系統(tǒng)的改進(jìn)方法[J];沈陽(yáng)理工大學(xué)學(xué)報(bào);2008年04期

3 管建和;甘劍峰;;基于Lucene全文檢索引擎的應(yīng)用研究與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與設(shè)計(jì);2007年02期

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條

1 史偉;中文自動(dòng)分詞關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D];電子科技大學(xué);2008年


  本文關(guān)鍵詞:基于NoSQL存儲(chǔ)的海量文檔全文檢索系統(tǒng)的研究與實(shí)現(xiàn),,由筆耕文化傳播整理發(fā)布。



本文編號(hào):445679

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/445679.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶10667***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com