天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

南通市檔案館大數(shù)據(jù)管理平臺(tái)關(guān)鍵技術(shù)研究

發(fā)布時(shí)間:2021-09-25 05:30
  檔案是企業(yè)的重要信息資源之一,在網(wǎng)絡(luò)信息化趨勢(shì)越來(lái)越明顯的如今,南通市檔案館的“庫(kù)存”數(shù)據(jù)量也早已遠(yuǎn)勝先前,檔案館存有來(lái)自全國(guó)各省份的檔案,對(duì)南通市檔案館大數(shù)據(jù)的管理和應(yīng)用顯得尤其重要。其中,南通市檔案館大數(shù)據(jù)實(shí)時(shí)分析是其關(guān)鍵應(yīng)用之一;诖,對(duì)于南通市檔案館大數(shù)據(jù)管理核心需實(shí)現(xiàn)存儲(chǔ)、自動(dòng)備份、易于處理等重要目標(biāo),然而這些目標(biāo)基于傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)來(lái)實(shí)現(xiàn)會(huì)造成南通市檔案館大數(shù)據(jù)的管理即在容量、存儲(chǔ)效率、處理性能和查詢優(yōu)化方面存在一定的瓶頸問(wèn)題。對(duì)傳統(tǒng)研究方式涉及到的問(wèn)題總結(jié)概括以下三點(diǎn),第一,存儲(chǔ)性能方面,傳統(tǒng)關(guān)系型數(shù)據(jù)中存儲(chǔ)的數(shù)據(jù)越來(lái)越多,可擴(kuò)展性也因此而顯得較低,性能較低,并對(duì)于半結(jié)構(gòu)化、非結(jié)構(gòu)話的數(shù)據(jù)存儲(chǔ)效果不理想。第二,分析效率查詢這一層面上,對(duì)于有相對(duì)較大數(shù)據(jù)量的表,其往往查詢效率較低且延遲高。第三,并發(fā)高這一方面,因其關(guān)系型庫(kù)帶來(lái)的諸多關(guān)聯(lián)導(dǎo)致的慢查詢?cè)斐煞⻊?wù)器cpu負(fù)載較高,無(wú)響應(yīng)。從傳統(tǒng)研究方式表現(xiàn)出的各種不足,提出優(yōu)化分析平臺(tái)用于南通市檔案館層面的大數(shù)據(jù)管理,本研究的主要工作包括:⑴對(duì)于南通市檔案館大數(shù)據(jù)的管理,首先提出面向南通市檔案館的大數(shù)據(jù)管理平臺(tái)方面的系統(tǒng)架構(gòu)。其... 

【文章來(lái)源】:上海師范大學(xué)上海市

【文章頁(yè)數(shù)】:54 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

南通市檔案館大數(shù)據(jù)管理平臺(tái)關(guān)鍵技術(shù)研究


面向南通市檔案館大數(shù)據(jù)管理平臺(tái)系統(tǒng)架構(gòu)圖

流程圖,架構(gòu),流程圖,檔案館


第4章南通市檔案館大數(shù)據(jù)管理平臺(tái)詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)上海師范大學(xué)碩士學(xué)位論文18第4章南通市檔案館大數(shù)據(jù)管理平臺(tái)詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)在本章我們將一步一步詳細(xì)地介紹架構(gòu)的設(shè)計(jì)與實(shí)現(xiàn),從圖4-1中的流程圖中我們可以發(fā)現(xiàn)需要做各個(gè)系統(tǒng)的搭建及其之間的整合配置,包括Flume與Kafka的整合配置,Kafka與sparkstreaming的整合配置等。圖4-1總體架構(gòu)流程圖4.1通過(guò)Flume采集數(shù)據(jù)發(fā)送到Kafka4.1.1Flume和Kafka整合概述對(duì)于Flume而言,關(guān)鍵在于如何采集數(shù)據(jù),并且將其發(fā)送到Kafka上,并且由于我們這里使用了Flume集群的方式,F(xiàn)lume集群的配置也是十分關(guān)鍵的。而對(duì)于Kafka,關(guān)鍵就是如何接收來(lái)自Flume的數(shù)據(jù)。從整體上講,邏輯應(yīng)該是比較簡(jiǎn)單的,首先可以在Kafka中創(chuàng)建一個(gè)用于我們實(shí)時(shí)處理系統(tǒng)的topic,然后Flume將其采集到的數(shù)據(jù)發(fā)送到該topic上即可,如圖4-2。

結(jié)構(gòu)圖,結(jié)構(gòu)圖,日志,數(shù)據(jù)


上海師范大學(xué)碩士學(xué)位論文第4章南通市檔案館大數(shù)據(jù)管理平臺(tái)詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)19圖4-2flume集群結(jié)構(gòu)圖4.1.2Flume集群配置與KafkaTopic創(chuàng)建4.1.2.1Flume集群配置在我們的場(chǎng)景中,兩個(gè)FlumeAgent分別部署在兩臺(tái)Web服務(wù)器上,用來(lái)采集Web服務(wù)器上的日志數(shù)據(jù),然后將其數(shù)據(jù)的下沉方式都發(fā)送到另外一個(gè)FlumeAgent上,所以這里我們需要配置三個(gè)FlumeAgent.(1)FlumeAgent01該FlumeAgent部署在第一臺(tái)Web服務(wù)器上,用來(lái)采集產(chǎn)生的檔案出入庫(kù)日志,然后發(fā)送到FlumeConsolidationAgent上,并創(chuàng)建一個(gè)新的配置文件flume-sink-avro.conf,其主要配置內(nèi)容如下:1.主要作用是監(jiān)聽(tīng)文件中的新增數(shù)據(jù),采集到數(shù)據(jù)之后,輸出到avro2.注意Flumeagent的運(yùn)行,主要就是配置sourcechannelsink3.下面的a1就是agent的代號(hào),source叫r1channel叫c1sink叫k1a1.sources=r1a1.sinks=k1a1.channels=c14.對(duì)于source的配置描述,監(jiān)聽(tīng)文件中的新增數(shù)據(jù)execa1.sources.r1.type=execa1.sources.r1.command=tail-F/home/uplooking/data/data-clean/data-access.log5.對(duì)于sink的配置描述,使用avro日志做數(shù)據(jù)的消費(fèi)


本文編號(hào):3409186

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3409186.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶b6c74***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com