基于Kafka的消息隊列在射天文數(shù)據(jù)處理中應(yīng)用的研究
本文關(guān)鍵詞:基于Kafka的消息隊列在射天文數(shù)據(jù)處理中應(yīng)用的研究 出處:《昆明理工大學(xué)》2017年碩士論文 論文類型:學(xué)位論文
更多相關(guān)文章: 消息隊列 海量數(shù)據(jù)處理 負載均衡 異常處理
【摘要】:明安圖射電頻譜日像儀(MingantU Spectral Radioheliograph,MUSER)每天生成的數(shù)據(jù)量可達TB級,并且需要實現(xiàn)海量數(shù)據(jù)的實時和離線處理,如何較好地解決MUSER系統(tǒng)的海量射電天文數(shù)據(jù)處理問題,是MUSER項目研發(fā)中的一項重要課題。為了滿足海量數(shù)據(jù)處理的實時性和并行性需求,海量數(shù)據(jù)處理系統(tǒng)通常使用消息隊列來提高系統(tǒng)的整體數(shù)據(jù)處理能力。本文以MUSER系統(tǒng)的海量射電天文數(shù)據(jù)處理為研究背景,分析MUSER系統(tǒng)的海量數(shù)據(jù)處理需求并深入了解消息隊列技術(shù)。為了提高MUSER系統(tǒng)的整體數(shù)據(jù)處理能力,本文所做的主要工作如下:(1)經(jīng)過消息隊列技術(shù)選型,選擇將Kafka應(yīng)用于MUSER系統(tǒng),把海量數(shù)據(jù)處理解耦為任務(wù)發(fā)布和任務(wù)處理兩部分,提高MUSER系統(tǒng)的并行性和實時性,實現(xiàn)了 MUSER系統(tǒng)的多任務(wù)并行處理,初步提高了 MUSER系統(tǒng)的整體數(shù)據(jù)處理能力。(2)MUSER系統(tǒng)需要實現(xiàn)消費者負載均衡來優(yōu)化任務(wù)調(diào)度,但原生的Kafka消費者負載均衡算法無法滿足MUSER系統(tǒng)的需求。本文設(shè)計并實現(xiàn)了一種優(yōu)化的消費者負載均衡算法,通過選舉管理者控制負載均衡來優(yōu)化消費者負載均衡過程,進一步提高了 MUSER系統(tǒng)的整體數(shù)據(jù)處理能力,并通過選舉監(jiān)控者進行異常監(jiān)控來提高MUSER系統(tǒng)的容錯性。(3)MUSER系統(tǒng)使用Kafka進行海量數(shù)據(jù)處理時,消費異常情況會降低射電天文數(shù)據(jù)處理結(jié)果的準(zhǔn)確性。本文設(shè)計并實現(xiàn)了消費異常處理機制,通過進行雙端日志管理、異常處理和偏移量一致性校驗來提高MUSER系統(tǒng)數(shù)據(jù)處理過程的可靠性和容錯性,從而提高MUSER系統(tǒng)的海量射電天文數(shù)據(jù)處理結(jié)果的準(zhǔn)確性。本文的研究成果提高了 MUSER系統(tǒng)的整體數(shù)據(jù)處理能力,并增強了系統(tǒng)數(shù)據(jù)處理過程的可靠性和容錯性。目前本文的研究成果已被應(yīng)用在天文海量數(shù)據(jù)處理軟件包的開發(fā)中并取得了良好效果,可以為其它用于海量數(shù)據(jù)處理的軟件和系統(tǒng)的開發(fā)提供參考。
[Abstract]:MingantU Spectral Radioheliographer (MUSERA) can generate data of TB level every day. And we need to realize the real-time and offline processing of massive data, how to solve the problem of massive radio astronomical data processing in MUSER system. In order to meet the real-time and parallelism requirements of massive data processing, it is an important subject in the research and development of MUSER project. Mass data processing systems usually use message queue to improve the overall data processing capability of the system. This paper takes the massive radio astronomical data processing of MUSER system as the research background. In order to improve the overall data processing capability of MUSER system, the requirement of massive data processing in MUSER system is analyzed and the message queue technology is deeply understood. The main work of this paper is as follows: 1) after the selection of message queue technology, we choose to apply Kafka to MUSER system and decouple massive data processing into two parts: task publishing and task processing. To improve the parallelism and real-time of MUSER system, the multitasking parallel processing of MUSER system is realized. The overall data processing capability of MUSER system is improved. The system needs to realize load balancing to optimize task scheduling. But the native Kafka consumer load balancing algorithm can not meet the needs of MUSER system. This paper designs and implements an optimized consumer load balancing algorithm. Through the election of managers to control load balancing to optimize the process of consumer load balancing, further improve the overall data processing ability of MUSER system. In order to improve the fault tolerance of MUSER system, we use Kafka to deal with massive data. Consumption anomalies will reduce the accuracy of radio astronomical data processing results. This paper designs and implements the mechanism of consumer anomaly processing, through the dual-terminal log management. Exception handling and offset consistency check are used to improve the reliability and fault tolerance of data processing in MUSER system. In order to improve the accuracy of massive radio astronomical data processing results of MUSER system. The research results of this paper improve the overall data processing capability of MUSER system. The research results of this paper have been applied in the development of astronomical mass data processing software package and achieved good results. It can provide reference for the development of other software and systems for mass data processing.
【學(xué)位授予單位】:昆明理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:P161
【參考文獻】
相關(guān)期刊論文 前10條
1 于金良;朱志祥;李聰穎;;一種分布式消息隊列研究與測試[J];物聯(lián)網(wǎng)技術(shù);2016年08期
2 馬可;李玲娟;;分布式實時流數(shù)據(jù)聚類算法及其基于Storm的實現(xiàn)[J];南京郵電大學(xué)學(xué)報(自然科學(xué)版);2016年02期
3 代慧梅;梅盈;王威;鄧輝;王鋒;;一種基于支持向量機的射電可見度數(shù)據(jù)自動標(biāo)注方法[J];天文學(xué)報;2016年01期
4 王巖;王純;;一種基于Kafka的可靠的Consumer的設(shè)計方案[J];軟件;2016年01期
5 薛鵬飛;胡榮貴;胡勁松;;基于ZeroMQ的分布式系統(tǒng)通信方法[J];計算機應(yīng)用;2015年S2期
6 陳泰燃;王威;王鋒;鄧輝;劉應(yīng)波;梅盈;;基于MPI的高性能UVFITS數(shù)據(jù)合成研究與應(yīng)用[J];天文研究與技術(shù);2016年02期
7 周鑫磊;王威;王鋒;鄧輝;柳翠寅;胡杰;李少良;王璐璐;周士然;;基于QT的MUSER觀測數(shù)據(jù)多屏圖形化實時顯示的設(shè)計與實現(xiàn)[J];天文研究與技術(shù);2015年04期
8 衛(wèi)守林;石聰明;高姣姣;王鋒;鄧輝;季凱帆;;Vantage Pro氣象站實時數(shù)據(jù)采集與在MUSER中的應(yīng)用研究[J];天文研究與技術(shù);2016年01期
9 袁智;梁波;鄧輝;王鋒;戴偉;季凱帆;;一種面向選址的低功耗遠程電源控制和視頻監(jiān)控系統(tǒng)設(shè)計與實現(xiàn)[J];天文研究與技術(shù);2015年01期
10 梅盈;劉東浩;王鋒;鄧輝;戴偉;季凱帆;;中國頻譜射電日像儀FITS-IDI文件格式研究[J];天文研究與技術(shù);2014年04期
相關(guān)碩士學(xué)位論文 前4條
1 代慧梅;基于模式識別的科學(xué)數(shù)據(jù)標(biāo)記方法研究[D];昆明理工大學(xué);2016年
2 高姣姣;MUSER異構(gòu)數(shù)據(jù)采集及融合技術(shù)研究[D];昆明理工大學(xué);2015年
3 梅盈;MUSER海量數(shù)據(jù)預(yù)處理關(guān)鍵技術(shù)研究[D];昆明理工大學(xué);2015年
4 高揚;基于工作流的績效管理研究[D];天津大學(xué);2007年
,本文編號:1404836
本文鏈接:http://sikaile.net/shoufeilunwen/benkebiyelunwen/1404836.html