分布式流處理系統(tǒng)操作共享優(yōu)化算法研究
本文選題:流數(shù)據(jù) 切入點:分布式流處理 出處:《吉林大學(xué)》2016年碩士論文
【摘要】:隨著社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)和無線通信網(wǎng)的出現(xiàn)以及快速發(fā)展,流數(shù)據(jù)成為一種重要的大數(shù)據(jù)類型,在股票交易、電子商務(wù)、社交網(wǎng)絡(luò)和監(jiān)控等領(lǐng)域應(yīng)用廣泛。流數(shù)據(jù)相較于普通的大數(shù)據(jù),具有持續(xù)性、動態(tài)性和實時性的特點,對流處理提出新的要求:(1)數(shù)據(jù)持續(xù)到達(dá)需要在線處理。流處理作業(yè)長時間運行,采用One Pass處理模式,無法留存數(shù)據(jù),僅保存中間結(jié)果;(2)數(shù)據(jù)在線變化要求作業(yè)拓?fù)浣Y(jié)構(gòu)動態(tài)調(diào)整;(3)需要實時或近實時的處理,F(xiàn)有相關(guān)工作針對流處理的系統(tǒng)結(jié)構(gòu)和相關(guān)技術(shù)開展了大量研究,形成分布式流處理技術(shù),實現(xiàn)了大規(guī)模流的高速處理。但對分布式流處理系統(tǒng)資源分配問題的研究存在不足,未能充分利用流處理作業(yè)間操作可共享的特點,導(dǎo)致數(shù)據(jù)處理冗余,形成資源浪費。流作業(yè)是典型的工作流模式,由多個數(shù)據(jù)處理操作組成。多個流作業(yè)間的基本數(shù)據(jù)處理操作有重疊,例如filter,join等。因此多個作業(yè)間存在操作共享的可能。目前,針對操作共享的相關(guān)研究主要從作業(yè)拓?fù)浣Y(jié)構(gòu)角度考慮共享的可能性,建立操作共享方案。對共享操作資源分配問題的研究并不充分,主要體現(xiàn)在:(1)缺乏系統(tǒng)模型,描述流處理作業(yè)操作共享過程中的資源約束變化;(2)對流處理作業(yè)操作共享后的輸出帶寬資源分配問題研究不足;(3)流數(shù)據(jù)動態(tài)變化導(dǎo)致作業(yè)拓?fù)浣Y(jié)構(gòu)變化,需要進(jìn)一步研究資源分配方案快速調(diào)整問題。本文提出支持分布式流處理的操作共享優(yōu)化算法,主要工作如下:(1)建立流處理作業(yè)操作共享模型。支持不同作業(yè)之間相同操作的邏輯共享,滿足不同的資源約束條件,包括計算資源和物理網(wǎng)絡(luò)帶寬資源。(2)研究多資源約束下的資源分配問題。利用作業(yè)操作間的相似性,提出共享判定算法,找到邏輯上可共享的操作。將資源分配過程抽象成一個裝箱問題,考慮操作共享后的資源使用情況,與不共享的情形相比,共享操作占有的計算資源合并,輸出帶寬累加。根據(jù)資源分配算法,在最小數(shù)目的計算節(jié)點上完成所有操作的共享任務(wù),保證正常的數(shù)據(jù)傳輸。(3)研究快速資源映射調(diào)整問題。新作業(yè)的動態(tài)加入導(dǎo)致整體拓?fù)浣Y(jié)構(gòu)改變,共享操作的資源需求在線變化,根據(jù)當(dāng)前的資源配置對共享的操作進(jìn)行篩選,選擇共享受益最大的操作,使用較少的調(diào)整消耗,快速地滿足新的資源需求,保證流處理實時性和動態(tài)性。(4)建立模擬實驗平臺。驗證作業(yè)操作共享能夠有效節(jié)省計算資源,并且滿足不同系統(tǒng)資源對共享操作數(shù)目的約束;驗證操作共享算法的有效性,快速調(diào)整算法優(yōu)于資源重新分配算法。
[Abstract]:With social networking, networking and wireless communication networks and the rapid development of data stream is becoming a important data type, the electronic commerce in the stock exchange, and social networking applications and monitoring areas widely. Compared to the common data stream data, with a persistent, dynamic and real-time. The convection process put forward new requirements: (1) continuous arrival of data need to be handled online. Flow operations for a long time operation, using One Pass model, can not only save the data retention, intermediate results; (2) online data changes require dynamic topology adjustment operations; (3) require real-time or near real-time processing system. The structure and related technology of existing related work aiming at cluster processing carried out extensive research, the formation of distributed stream processing technology, to achieve high-speed processing flow. But for large-scale distributed stream processing system of resource allocation problems. The problems, make full use of stream processing operations between operating characteristics can be shared to lead to redundant data processing, the formation of a waste of resources. The flow assignment is typical workflow model, composed of a plurality of data processing operations. A basic data flow between activity processing operations overlap, such as filter, join and so on. So many there may be sharing operation. At present, the related research on operation sharing mainly consider the possibility of shared operation from the perspective of topological structure, establish the operation scheme. To study the operating resource allocation problem sharing is not sufficient, mainly reflected in: (1) the lack of system model, describes the stream processing operations change shared resource constraints in the process of research; (2) processing operations after sharing the distribution output bandwidth of convection is insufficient; (3) data flow dynamic changes leading to topology changes, the need for further The rapid adjustment of resource allocation problems. This paper supports distributed stream processing sharing optimization algorithm, the main work is as follows: (1) the establishment of stream processing operations. Support sharing model between different operations of the same operation logic sharing, meet different resource constraints, including computing resources and physical network bandwidth (2. Study) resource allocation problem under multiple resource constraints. The similarity between the proposed operation, sharing decision algorithm, find a logical sharing operation. Resource allocation process is abstracted into a packing problem, considering the sharing of resource usage, compared with no sharing, sharing operation of possession the computing resources combined, cumulative output bandwidth. According to the resource allocation algorithm to complete all operations of the shared task in the calculation of the minimum number of nodes, ensure the normal data transmission. (3). The rapid adjustment of dynamic resource mapping. The new operation leads to change the overall topology, sharing resource demand changes according to the online operation, the current resource allocation of the shared operation screen, choose to share the biggest benefit of the operation, use less adjustment of consumption, to meet the new demand for resources, ensure the real-time stream processing anddynamics. (4) the establishment of the simulation platform. Verify operation sharing can effectively save computing resources, and to satisfy the constraints of different system resources sharing operation number; validation operation sharing algorithm, fast adjustment algorithm is better than the resource re allocation algorithm.
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP301.6
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 金澈清,錢衛(wèi)寧,周傲英;流數(shù)據(jù)分析與管理綜述[J];軟件學(xué)報;2004年08期
2 聶國梁;盧正鼎;;流數(shù)據(jù)實時近似求和的算法研究[J];小型微型計算機(jī)系統(tǒng);2005年10期
3 李衛(wèi)民;于守健;駱軼姝;樂嘉錦;;流數(shù)據(jù)管理的降載技術(shù):研究進(jìn)展[J];計算機(jī)科學(xué);2007年06期
4 李子杰;鄭誠;;流數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)存儲及管理方法比較研究[J];計算機(jī)技術(shù)與發(fā)展;2009年04期
5 潘靜;于宏偉;;流數(shù)據(jù)管理降載技術(shù)研究綜述[J];中國管理信息化;2009年21期
6 鄒永貴;龔海平;夏英;宋強(qiáng);;一種面向流數(shù)據(jù)頻繁項挖掘的降載策略[J];計算機(jī)應(yīng)用研究;2011年04期
7 聶國梁;盧正鼎;聶國棟;;流數(shù)據(jù)近似統(tǒng)計算法研究[J];計算機(jī)科學(xué);2005年04期
8 魏晶晶;金培權(quán);龔育昌;岳麗華;;基于流數(shù)據(jù)的大對象數(shù)據(jù)緩沖機(jī)制[J];計算機(jī)工程;2006年11期
9 楊立;;基于權(quán)重的流數(shù)據(jù)頻繁項挖掘算法的應(yīng)用[J];微型機(jī)與應(yīng)用;2011年02期
10 尹為;張成虎;楊彬;;基于流數(shù)據(jù)頻繁項挖掘的可疑金融交易識別研究[J];西安交通大學(xué)學(xué)報(社會科學(xué)版);2011年05期
相關(guān)會議論文 前3條
1 劉正濤;毛宇光;吳莊;;一種新的流數(shù)據(jù)模型及其擴(kuò)展[A];第二十二屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2005年
2 姚春芬;陳紅;;分布偏斜的流數(shù)據(jù)上的一種直方圖維護(hù)算法[A];第二十三屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2006年
3 孫煥良;趙法信;鮑玉斌;于戈;王大玲;;CD-Stream——一種基于空間劃分的流數(shù)據(jù)密度聚類算法[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2004年
相關(guān)博士學(xué)位論文 前6條
1 聶國梁;流數(shù)據(jù)統(tǒng)計算法研究[D];華中科技大學(xué);2006年
2 劉建偉;流數(shù)據(jù)查詢系統(tǒng)結(jié)構(gòu)及模式查詢算法的研究[D];東華大學(xué);2005年
3 丁智國;流數(shù)據(jù)在線異常檢測方法研究[D];上海大學(xué);2015年
4 李衛(wèi)民;流數(shù)據(jù)查詢算法若干關(guān)鍵技術(shù)研究[D];東華大學(xué);2008年
5 屠莉;流數(shù)據(jù)的頻繁項挖掘及聚類的關(guān)鍵技術(shù)研究[D];南京航空航天大學(xué);2009年
6 陳筠翰;車載網(wǎng)絡(luò)的若干關(guān)鍵技術(shù)研究[D];吉林大學(xué);2014年
相關(guān)碩士學(xué)位論文 前10條
1 肖丙賢;大規(guī)模流數(shù)據(jù)聚集查詢服務(wù)的生成與優(yōu)化[D];北方工業(yè)大學(xué);2016年
2 劉曉斐;分布式流處理系統(tǒng)操作共享優(yōu)化算法研究[D];吉林大學(xué);2016年
3 張媛;基于彈性分布式數(shù)據(jù)集的流數(shù)據(jù)聚類分析[D];華東師范大學(xué);2016年
4 孔祥佳;基于海洋平臺監(jiān)測的流數(shù)據(jù)管理研究[D];大連理工大學(xué);2015年
5 張金川;基于反饋機(jī)制的流數(shù)據(jù)查詢[D];蘭州大學(xué);2007年
6 辛波;基于InfoSphere Streams的流數(shù)據(jù)分析及應(yīng)用[D];武漢理工大學(xué);2014年
7 李聰;支持大規(guī)模流數(shù)據(jù)在線處理動態(tài)數(shù)據(jù)分區(qū)算法研究[D];吉林大學(xué);2015年
8 梁然;流數(shù)據(jù)處理在金融數(shù)據(jù)庫中的應(yīng)用[D];浙江大學(xué);2010年
9 張婧媛;流數(shù)據(jù)上的可置換聚類研究[D];大連理工大學(xué);2011年
10 顧偉;分布式流數(shù)據(jù)實時計算框架的研究和開發(fā)[D];浙江理工大學(xué);2013年
,本文編號:1720534
本文鏈接:http://sikaile.net/jingjilunwen/dianzishangwulunwen/1720534.html