天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

大數(shù)據(jù)云存儲(chǔ)及綜合應(yīng)用系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間:2017-09-21 17:03

  本文關(guān)鍵詞:大數(shù)據(jù)云存儲(chǔ)及綜合應(yīng)用系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)


  更多相關(guān)文章: 大數(shù)據(jù) 云存儲(chǔ) 分布式檢索 數(shù)據(jù)比對(duì)


【摘要】:作為大數(shù)據(jù)應(yīng)用的某單位積累了種類(lèi)繁多、數(shù)據(jù)量達(dá)PB級(jí)的海量數(shù)據(jù)信息,而且每天還持續(xù)不斷的產(chǎn)生超過(guò)1TB的數(shù)據(jù)。各種數(shù)據(jù)資源的來(lái)源不統(tǒng)一,數(shù)據(jù)類(lèi)型多樣化,數(shù)據(jù)存儲(chǔ)方式各異,業(yè)務(wù)系統(tǒng)分散,業(yè)務(wù)用戶(hù)對(duì)數(shù)據(jù)全文檢索、比對(duì)應(yīng)用的反饋速度要求越來(lái)越高,現(xiàn)有系統(tǒng)的數(shù)據(jù)比對(duì)性能和全文檢索能力急劇下降。同時(shí),多種來(lái)源格式的外部數(shù)據(jù)如何高效快速加載到數(shù)據(jù)庫(kù)提供業(yè)務(wù)應(yīng)用也是需要考慮的問(wèn)題。因此,我們迫切需要利用大數(shù)據(jù)處理技術(shù)來(lái)設(shè)計(jì)符合該業(yè)務(wù)應(yīng)用的大數(shù)據(jù)存儲(chǔ)與綜合應(yīng)用方案。本論文就是致力于通過(guò)Hadoop大數(shù)據(jù)存儲(chǔ)架構(gòu)、ElasticSearch分布式全文檢索技術(shù)和ETL應(yīng)用技術(shù)解決在實(shí)際工作中遇到的傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)和全文數(shù)據(jù)庫(kù)在進(jìn)行大規(guī)模數(shù)據(jù)處理、檢索和比對(duì)時(shí)的性能瓶頸問(wèn)題,以及多數(shù)據(jù)源的高頻率增量加載入庫(kù)性能問(wèn)題。目前,基于Hadoop架構(gòu)、ElasticSearch分布式全文檢索技術(shù)的分布式數(shù)據(jù)比對(duì)引擎和全文檢索技術(shù),以及開(kāi)源的Kettle ETL應(yīng)用能夠滿(mǎn)足以上需求。但在地址類(lèi)型的數(shù)據(jù)比對(duì)和檢索效率以及多數(shù)據(jù)源高頻增量加載效率上還存在一些問(wèn)題,需要對(duì)地址比對(duì)算法、中文分詞和Kettle自帶的數(shù)據(jù)加載插件進(jìn)行改進(jìn)優(yōu)化。為解決這些問(wèn)題,本文的主要工作如下:(1)分析了系統(tǒng)在數(shù)據(jù)存儲(chǔ)和全文檢索、數(shù)據(jù)比對(duì)、多數(shù)據(jù)高頻加載等綜合應(yīng)用方面的需求,進(jìn)行了系統(tǒng)總體架構(gòu)和功能設(shè)計(jì);(2)建立分布式數(shù)據(jù)比對(duì)引擎并優(yōu)化地址比對(duì)算法,提高數(shù)據(jù)比對(duì)性能;(3)建立分布式全文檢索應(yīng)用并優(yōu)化中文分詞算法,提高全文檢索效率;(4)針對(duì)外部數(shù)據(jù)更新方式,選取合適的ETL抽取加載方法,實(shí)現(xiàn)多據(jù)源高頻增量加載,并通過(guò)多線(xiàn)程處理方法和優(yōu)化加載代碼提高數(shù)據(jù)加載性能。(5)建立簡(jiǎn)單美觀友好的用戶(hù)界面和進(jìn)行系統(tǒng)整體功能和性能測(cè)試保證軟件質(zhì)量。通過(guò)精心設(shè)計(jì)和不斷完善,最后基于分布式數(shù)據(jù)比對(duì)引擎和全文檢索技術(shù)及ETL應(yīng)用技術(shù)設(shè)計(jì)出一套大數(shù)據(jù)云存儲(chǔ)及綜合應(yīng)用系統(tǒng),通過(guò)系統(tǒng)部署實(shí)施證明,本設(shè)計(jì)既解決了姓名、地址類(lèi)型的數(shù)據(jù)快速檢索和數(shù)據(jù)高效比對(duì),以及海量數(shù)據(jù)的全文檢索問(wèn)題;又實(shí)現(xiàn)了多數(shù)據(jù)源高頻增量加載,降低系統(tǒng)總體投入,提高系統(tǒng)總體性能,實(shí)現(xiàn)業(yè)務(wù)系統(tǒng)的初步整合。
【關(guān)鍵詞】:大數(shù)據(jù) 云存儲(chǔ) 分布式檢索 數(shù)據(jù)比對(duì)
【學(xué)位授予單位】:北京化工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類(lèi)號(hào)】:TP333;TP311.52
【目錄】:
  • 摘要4-6
  • ABSTRACT6-15
  • 第一章 緒論15-19
  • 1.1 研究目的與意義15
  • 1.2 國(guó)內(nèi)外研究現(xiàn)狀15-16
  • 1.3 研究?jī)?nèi)容16-17
  • 1.4 本文的組織結(jié)構(gòu)17-19
  • 第二章 相關(guān)技術(shù)19-23
  • 2.1 Hadoop概述19-20
  • 2.2 ETL工具Kettle概述20
  • 2.3 ElasticSearch分布式全文檢索系統(tǒng)特性20-21
  • 2.4 Spark介紹21-23
  • 第三章 系統(tǒng)分析與設(shè)計(jì)23-33
  • 3.1 數(shù)據(jù)存儲(chǔ)與綜合應(yīng)用需求分析23-24
  • 3.1.1 數(shù)據(jù)存儲(chǔ)與綜合應(yīng)用現(xiàn)狀23-24
  • 3.1.2 主要存在的問(wèn)題24
  • 3.2 數(shù)據(jù)存儲(chǔ)與綜合應(yīng)用需求24-26
  • 3.2.1 數(shù)據(jù)存儲(chǔ)需求24
  • 3.2.2 業(yè)務(wù)流程分析24-25
  • 3.2.3 功能需求25-26
  • 3.2.4 非功能需求26
  • 3.3 系統(tǒng)總體設(shè)計(jì)方案26-33
  • 3.3.1 系統(tǒng)總體結(jié)構(gòu)26-27
  • 3.3.2 主要功能設(shè)計(jì)27-28
  • 3.3.3 權(quán)限控制28-29
  • 3.3.4 數(shù)據(jù)庫(kù)分布及設(shè)計(jì)29-30
  • 3.3.5 用戶(hù)界面設(shè)計(jì)30-33
  • 第四章 核心業(yè)務(wù)技術(shù)設(shè)計(jì)33-49
  • 4.1 分布式數(shù)據(jù)比對(duì)引擎技術(shù)設(shè)計(jì)33-41
  • 4.1.1 技術(shù)原理和路線(xiàn)34-35
  • 4.1.2 地址比對(duì)設(shè)計(jì)35-37
  • 4.1.3 地址比對(duì)算法有效性研究37-38
  • 4.1.4 地址比對(duì)算法性能研究38-41
  • 4.2 分布式全文檢索應(yīng)用設(shè)計(jì)41-44
  • 4.2.1 分布式全文檢索應(yīng)用整體架構(gòu)42-43
  • 4.2.2 分布式全文檢索應(yīng)用的中文分詞43-44
  • 4.3 ETL應(yīng)用設(shè)計(jì)44-49
  • 第五章 系統(tǒng)實(shí)現(xiàn)49-73
  • 5.1 Hadoop的安裝與部署49-51
  • 5.2 ElasticSearch的安裝部署51-52
  • 5.3 Spark的安裝部署52-53
  • 5.4 數(shù)據(jù)信息比對(duì)的實(shí)現(xiàn)53-59
  • 5.4.1 外部數(shù)據(jù)源管理53-56
  • 5.4.2 業(yè)務(wù)目標(biāo)數(shù)據(jù)源管理56-57
  • 5.4.3 數(shù)據(jù)源分組57-58
  • 5.4.4 設(shè)置比對(duì)規(guī)則58-59
  • 5.5 全文檢索應(yīng)用的實(shí)現(xiàn)59-62
  • 5.6 ETL實(shí)現(xiàn)62
  • 5.7 主要功能和性能指標(biāo)的測(cè)試和驗(yàn)證62-73
  • 5.7.1 主要功能測(cè)試和驗(yàn)證62-68
  • 5.7.2 主要性能測(cè)試和驗(yàn)證68-73
  • 第六章 結(jié)論73-75
  • 參考文獻(xiàn)75-77
  • 致謝77-79
  • 作者與導(dǎo)師簡(jiǎn)介79-80
  • 附件80-81

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前1條

1 蔣建洪;;主要分布式搜索引擎技術(shù)的研究[J];科學(xué)技術(shù)與工程;2007年10期



本文編號(hào):895775

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/895775.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)9b2fe***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com