天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

大數(shù)據(jù)環(huán)境下的分布式數(shù)據(jù)流處理關鍵技術探析

發(fā)布時間:2019-08-24 18:18
【摘要】:大數(shù)據(jù)環(huán)境下的數(shù)據(jù)流處理實時性要求高,數(shù)據(jù)計算要求持續(xù)性和高可靠性。分布式數(shù)據(jù)流處理系統(tǒng)(DDSPS)能解決大數(shù)據(jù)環(huán)境下的數(shù)據(jù)流處理問題,它除具備分布式系統(tǒng)的可擴展性和容錯性優(yōu)勢外,還具有高的實時處理能力。詳細介紹了組成基于大數(shù)據(jù)的分布式數(shù)據(jù)流處理系統(tǒng)的四個子系統(tǒng)及其關鍵技術,討論和比較了各個子系統(tǒng)的不同技術方案;同時介紹一種分布式拒絕服務(DDo S)攻擊檢測數(shù)據(jù)流處理系統(tǒng)結(jié)構(gòu)案例,其研究內(nèi)容能為大數(shù)據(jù)環(huán)境下的數(shù)據(jù)流處理理論研究和應用技術開發(fā)提供技術參考。
【圖文】:

體系架構(gòu)


cribe已經(jīng)實現(xiàn)了向不同類型的存儲介質(zhì)中寫入數(shù)據(jù)的功能,包括文件系統(tǒng)(如HDFS,,位于本地磁盤或共享式的存儲系統(tǒng)中),網(wǎng)絡(直接發(fā)送給其他Scribe),緩存(可滿足故障恢復的要求,數(shù)據(jù)優(yōu)先寫入主存儲中,若主存儲故障,則存入到備份的存儲中),多存儲介質(zhì)(同時將數(shù)據(jù)寫入不同的存儲系統(tǒng)中,達到數(shù)據(jù)備份的目的)。從架構(gòu)上分析,Scribe能在一定程度上保證數(shù)據(jù)不丟失。Scribe進程能將消息在內(nèi)存中緩存一段時間,但是當ScribeAgent出現(xiàn)故障時,這些緩存的數(shù)據(jù)就會丟失,因此,從這方面來講,Scribe不能嚴格保證數(shù)據(jù)可靠性。圖1Scribe體系架構(gòu)Fig.1Scribearchitecture1.2FlumeFlume最初是由Cloudera的工程師設計用于合并日志數(shù)據(jù)的系統(tǒng)[10],后將其開源出來,并逐漸發(fā)展成為一款開源、高可靠、高擴展、易管理、支持客戶擴展的分布式數(shù)據(jù)流采集系統(tǒng),主要是用于日志數(shù)據(jù)的收集和聚合。在原始的Flume版本中,一個完整的Flume系統(tǒng)由Agent(用于采集數(shù)據(jù))、Master(配置及通信管理)、Collector(對數(shù)據(jù)進行聚合)構(gòu)成。而重構(gòu)后的新版Flume也稱為FlumeNG(NextGeneration),其系統(tǒng)中只有Agent一種角色。圖2為FlumeNG的架構(gòu),由分布在不同節(jié)點的Agent負責收集不同的應用所產(chǎn)生的數(shù)據(jù),并發(fā)往匯總的Agent節(jié)點,最后存入大容量、高可靠的存儲系統(tǒng),如:HDFS。圖2Flume架構(gòu)Fig.2Flumearchitecture每一個FlumeAgent的內(nèi)部都是由Source、Channel以及Sink組成。Source即為要收集數(shù)據(jù)的來源,負責產(chǎn)生或接收數(shù)據(jù),并發(fā)往Channel。Channel則是負責接收來自Source的數(shù)據(jù),并傳送到Sink,負責對數(shù)據(jù)提供可靠性保證。Sink則是從Channel拉取數(shù)據(jù),并將數(shù)據(jù)寫入到后端的存儲系統(tǒng)中,已經(jīng)實現(xiàn)的Sink包括:HDFSSink(將數(shù)據(jù)寫入到HDFS中)、HiveSink(將

架構(gòu)圖,架構(gòu)


[10],后將其開源出來,并逐漸發(fā)展成為一款開源、高可靠、高擴展、易管理、支持客戶擴展的分布式數(shù)據(jù)流采集系統(tǒng),主要是用于日志數(shù)據(jù)的收集和聚合。在原始的Flume版本中,一個完整的Flume系統(tǒng)由Agent(用于采集數(shù)據(jù))、Master(配置及通信管理)、Collector(對數(shù)據(jù)進行聚合)構(gòu)成。而重構(gòu)后的新版Flume也稱為FlumeNG(NextGeneration),其系統(tǒng)中只有Agent一種角色。圖2為FlumeNG的架構(gòu),由分布在不同節(jié)點的Agent負責收集不同的應用所產(chǎn)生的數(shù)據(jù),并發(fā)往匯總的Agent節(jié)點,最后存入大容量、高可靠的存儲系統(tǒng),如:HDFS。圖2Flume架構(gòu)Fig.2Flumearchitecture每一個FlumeAgent的內(nèi)部都是由Source、Channel以及Sink組成。Source即為要收集數(shù)據(jù)的來源,負責產(chǎn)生或接收數(shù)據(jù),并發(fā)往Channel。Channel則是負責接收來自Source的數(shù)據(jù),并傳送到Sink,負責對數(shù)據(jù)提供可靠性保證。Sink則是從Channel拉取數(shù)據(jù),并將數(shù)據(jù)寫入到后端的存儲系統(tǒng)中,已經(jīng)實現(xiàn)的Sink包括:HDFSSink(將數(shù)據(jù)寫入到HDFS中)、HiveSink(將數(shù)據(jù)存入Hive中)、AvroSink(將數(shù)據(jù)以Avro的方式進行序列化,并發(fā)往后端的Avro接收端,也可以是Flume第3期陳付梅等:大數(shù)據(jù)環(huán)境下的分布式數(shù)據(jù)流處理關鍵技術探析621
【作者單位】: 上海海事大學信息工程學院;
【基金】:國家自然科學基金資助項目(61373028,61672338)~~
【分類號】:TP311.13

【相似文獻】

相關期刊論文 前10條

1 侯太平,顧大權(quán),王柏春,朱紅偉;遠程天氣會商系統(tǒng)中的數(shù)據(jù)流處理[J];計算機工程;2003年03期

2 陳昕,宋瀚濤;基于數(shù)據(jù)流的近似查詢計算及其應用研究[J];計算機應用研究;2003年11期

3 陳昕,陳維興,蘇錦祥;基于數(shù)據(jù)流模式的聚集快速查詢計算研究[J];計算機集成制造系統(tǒng);2004年06期

4 張冬冬,李建中,王偉平,郭龍江;分布式復式數(shù)據(jù)流的處理[J];計算機研究與發(fā)展;2004年10期

5 王金棟;周良;張磊;丁秋林;;一類數(shù)據(jù)流連續(xù)查詢的降載策略研究[J];武漢大學學報(工學版);2005年06期

6 劉景春;;數(shù)據(jù)流分類關鍵技術研究[J];佳木斯大學學報(自然科學版);2007年01期

7 李琳;孫士兵;;數(shù)據(jù)流聚類方法發(fā)展研究[J];長沙民政職業(yè)技術學院學報;2008年04期

8 陳軍;周明天;楊曉燕;;數(shù)據(jù)流系統(tǒng)降載研究綜述[J];計算機應用研究;2008年10期

9 傅鸝;魯先志;蔡斌;;一種基于數(shù)據(jù)流驅(qū)動的數(shù)據(jù)流連續(xù)查詢模型[J];重慶工學院學報(自然科學版);2008年10期

10 David P.Misunas ,張啟瑞;數(shù)據(jù)流處理機的性能分析[J];計算機工程與應用;1980年12期

相關會議論文 前10條

1 張冬冬;李建中;王偉平;郭龍江;;分布式復式數(shù)據(jù)流的處理[A];第二十一屆中國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2004年

2 楚紅濤;寒楓;張燕;王婷;;基于數(shù)據(jù)流的挖掘研究[A];計算機技術與應用進展·2007——全國第18屆計算機技術與應用(CACIS)學術會議論文集[C];2007年

3 尹婷;李紅燕;;窗口模型下數(shù)據(jù)流查詢流水化執(zhí)行的研究[A];第二十一屆中國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2004年

4 孟軍;張航黎;張建英;郭禾;;分布式數(shù)據(jù)流的漸增式聚集維護算法[A];2006年全國開放式分布與并行計算學術會議論文集(二)[C];2006年

5 韓近強;楊冬青;唐世渭;;數(shù)據(jù)流處理中一種自適應的直方圖維護算法[A];第二十屆全國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2003年

6 蔡致遠;熊方;錢衛(wèi)寧;周傲英;;核合并分析及其在數(shù)據(jù)流密度估計上的應用[A];第二十屆全國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2003年

7 王亦兵;楊樹強;王曉偉;;一個面向數(shù)據(jù)流的多維分析系統(tǒng)的研究與實現(xiàn)[A];全國計算機安全學術交流會論文集(第二十四卷)[C];2009年

8 于亞新;王國仁;陳燦;蘇林;朱歆華;趙相國;;基于操作符優(yōu)先級的兩種分布式數(shù)據(jù)流負載分配算法研究[A];第二十四屆中國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2007年

9 周銳;肖川;王國仁;韓東紅;霍歡;;數(shù)據(jù)流滑動窗口連接上的卸載技術的研究[A];第二十三屆中國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2006年

10 田李;王樂;賈焰;鄒鵬;李愛平;;分布式數(shù)據(jù)流上低通信開銷的連續(xù)極值查詢方法研究[A];第二十四屆中國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2007年

相關博士學位論文 前10條

1 張麗;數(shù)據(jù)流上序敏感查詢處理關鍵技術研究[D];國防科學技術大學;2013年

2 王超;時間序列數(shù)據(jù)流復雜模式挖掘研究[D];合肥工業(yè)大學;2015年

3 李颯;數(shù)據(jù)流軟聚類理論及其在瓦斯災害預警中的應用[D];遼寧工程技術大學;2014年

4 陳華輝;基于遺忘特性的數(shù)據(jù)流概要結(jié)構(gòu)及其應用研究[D];復旦大學;2008年

5 孔英會;數(shù)據(jù)流技術及其在電力信息處理中的應用研究[D];華北電力大學(河北);2009年

6 崇志宏;基于屏蔽/匯總技術的數(shù)據(jù)流處理算法[D];復旦大學;2006年

7 姚遠;海量動態(tài)數(shù)據(jù)流分類方法研究[D];大連理工大學;2013年

8 曹振麗;面向養(yǎng)殖環(huán)境監(jiān)測的數(shù)據(jù)流處理方法研究[D];中國農(nóng)業(yè)大學;2015年

9 朱輝生;基于情節(jié)規(guī)則匹配的數(shù)據(jù)流預測研究[D];復旦大學;2011年

10 袁志堅;數(shù)據(jù)流突發(fā)檢測若干關鍵技術研究[D];國防科學技術大學;2008年

相關碩士學位論文 前10條

1 王川;面向位置服務的物聯(lián)網(wǎng)數(shù)據(jù)質(zhì)量保證方法研究[D];南京理工大學;2015年

2 祝然威;基于時間窗口的數(shù)據(jù)流頻繁項挖掘算法[D];復旦大學;2014年

3 邱孝兵;基于GPU的數(shù)據(jù)流聚類及相關性分析[D];大連理工大學;2015年

4 張野;數(shù)據(jù)流查詢語言中語法分析器的設計[D];電子科技大學;2015年

5 閆新院;基于概要模型的數(shù)據(jù)流聚合技術研究[D];西安電子科技大學;2014年

6 王濤;基于Ntrip協(xié)議的實時數(shù)據(jù)流軟件的設計與實現(xiàn)[D];西安電子科技大學;2014年

7 陳彬;數(shù)據(jù)流實時存儲關鍵技術[D];浙江工業(yè)大學;2015年

8 王高洋;基于網(wǎng)格和加速粒子群優(yōu)化的數(shù)據(jù)流聚類算法研究[D];哈爾濱師范大學;2015年

9 錢海振;大數(shù)據(jù)流滯后相關性挖掘方法[D];遼寧師范大學;2015年

10 劉祥佳;制造物聯(lián)海量數(shù)據(jù)流模式挖掘算法研究[D];廣東工業(yè)大學;2016年



本文編號:2529108

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2529108.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶95560***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com