分布式流連接系統(tǒng)負(fù)載均衡策略研究
發(fā)布時(shí)間:2021-03-04 17:40
在大數(shù)據(jù)時(shí)代,越來(lái)越多的實(shí)時(shí)應(yīng)用需要對(duì)大規(guī)模實(shí)時(shí)數(shù)據(jù)流執(zhí)行快速并且準(zhǔn)確的連接運(yùn)算,例如股票交易系統(tǒng),在線(xiàn)廣告分析系統(tǒng)等。由于數(shù)據(jù)流到達(dá)速率快,源源不斷地產(chǎn)生,傳統(tǒng)的連接系統(tǒng)并不能很好滿(mǎn)足上述的實(shí)時(shí)系統(tǒng)的需求。為了滿(mǎn)足現(xiàn)有實(shí)時(shí)系統(tǒng)高性能的需求,現(xiàn)有的一些相關(guān)工作提出了流連接系統(tǒng)。為了達(dá)到高吞吐和低延時(shí)的實(shí)時(shí)性需求,分布式流連接系統(tǒng)需要使用高效的流數(shù)據(jù)分發(fā)策略來(lái)并行地執(zhí)行復(fù)雜的流連接運(yùn)算。分布式流連接系統(tǒng)主要包含兩個(gè)組件:分發(fā)組件和流連接組件。分發(fā)組件負(fù)責(zé)從數(shù)據(jù)源接收數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行預(yù)處理以及將數(shù)據(jù)分發(fā)到流連接組件中的若干個(gè)流連接處理單元。流連接處理單元負(fù)責(zé)對(duì)兩條流(記為R流和S流)執(zhí)行流連接運(yùn)算。流連接組件中所有流連接處理單元會(huì)被分為兩組,分別對(duì)R流和S流元組進(jìn)行存儲(chǔ),并對(duì)另一條流新分發(fā)到來(lái)的元組與所存儲(chǔ)的所有元組進(jìn)行比對(duì)和連接操作。其中,分發(fā)組件對(duì)數(shù)據(jù)采取不同的分發(fā)策略,那么流連接系統(tǒng)則會(huì)有不同的性能表現(xiàn),F(xiàn)有系統(tǒng)主要使用兩種分發(fā)策略:隨機(jī)分發(fā)策略與哈希策略。隨機(jī)分發(fā)策略將其中R流(或S流)的每一個(gè)元組隨機(jī)分發(fā)到任意一個(gè)存儲(chǔ)R流(或S流)的處理單元,而同時(shí)將S流(或R流)的所有元組廣播...
【文章來(lái)源】:華中科技大學(xué)湖北省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:58 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
握手模型
圖 1-2 相鄰核間的同步傳輸了解決握手模型中高延時(shí),低時(shí)效的問(wèn)題,Najafi 等人[13]則提出另外接系統(tǒng)——SplitJoin。該模型部署在 NUMA 結(jié)構(gòu)的處理單元上。每個(gè)存,可以同時(shí)獨(dú)立地進(jìn)行流連接運(yùn)算。該流連接系統(tǒng)使用輪詢(xún)的方式S 流)的元組分配到某個(gè)核里 R 流(或 S 流)的存儲(chǔ)區(qū)域進(jìn)行存儲(chǔ),并R 流)的廣播到所有核里 S 流(或 R 流)的緩沖區(qū)與另一個(gè)流進(jìn)行連接操?gòu)倪M(jìn)入流連接系統(tǒng)后,不再需要經(jīng)過(guò)長(zhǎng)時(shí)間核與核之間的傳輸,所以再需要經(jīng)過(guò)長(zhǎng)時(shí)間的核間傳輸?shù)牡却。相比握手模型而言,SplitJoin 提性以及降低系統(tǒng)延時(shí),尤其是對(duì)處理固定窗口大小的全連接時(shí)非常有plitJoin 是基于并行架構(gòu)平臺(tái)的,并行流連接系統(tǒng)由于資源的限制,在數(shù)據(jù)時(shí)難以保證系統(tǒng)的可擴(kuò)展性。這些設(shè)計(jì)對(duì)于哈希流連接來(lái)說(shuō)并不保證節(jié)點(diǎn)容錯(cuò)性。
圖 1-3 SplitJoin 系統(tǒng)架構(gòu)性指系統(tǒng)對(duì)不同數(shù)據(jù)量的處理能力。對(duì)于流連接系統(tǒng)來(lái)說(shuō),擴(kuò)展性是的特性。相比并行流連接系統(tǒng)而言,分布式流連接系統(tǒng)更具備擴(kuò)展性身的廣告分析業(yè)務(wù),自主設(shè)計(jì)了一種分布式流連接處理系統(tǒng)——Pho以部署在分布式多節(jié)點(diǎn)集群中,各節(jié)點(diǎn)可以在不同的地區(qū)中分布。P輕易地進(jìn)行擴(kuò)展以應(yīng)對(duì)大規(guī)模的數(shù)據(jù)集。Photon 設(shè)法通過(guò)簡(jiǎn)單地復(fù)制來(lái)解決在哈希連接中經(jīng)常出現(xiàn)的負(fù)載不均的問(wèn)題。但是,這種方式并聯(lián)的元組剛好執(zhí)行一次連接操作,違反了完整性的需求。
本文編號(hào):3063622
【文章來(lái)源】:華中科技大學(xué)湖北省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:58 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
握手模型
圖 1-2 相鄰核間的同步傳輸了解決握手模型中高延時(shí),低時(shí)效的問(wèn)題,Najafi 等人[13]則提出另外接系統(tǒng)——SplitJoin。該模型部署在 NUMA 結(jié)構(gòu)的處理單元上。每個(gè)存,可以同時(shí)獨(dú)立地進(jìn)行流連接運(yùn)算。該流連接系統(tǒng)使用輪詢(xún)的方式S 流)的元組分配到某個(gè)核里 R 流(或 S 流)的存儲(chǔ)區(qū)域進(jìn)行存儲(chǔ),并R 流)的廣播到所有核里 S 流(或 R 流)的緩沖區(qū)與另一個(gè)流進(jìn)行連接操?gòu)倪M(jìn)入流連接系統(tǒng)后,不再需要經(jīng)過(guò)長(zhǎng)時(shí)間核與核之間的傳輸,所以再需要經(jīng)過(guò)長(zhǎng)時(shí)間的核間傳輸?shù)牡却。相比握手模型而言,SplitJoin 提性以及降低系統(tǒng)延時(shí),尤其是對(duì)處理固定窗口大小的全連接時(shí)非常有plitJoin 是基于并行架構(gòu)平臺(tái)的,并行流連接系統(tǒng)由于資源的限制,在數(shù)據(jù)時(shí)難以保證系統(tǒng)的可擴(kuò)展性。這些設(shè)計(jì)對(duì)于哈希流連接來(lái)說(shuō)并不保證節(jié)點(diǎn)容錯(cuò)性。
圖 1-3 SplitJoin 系統(tǒng)架構(gòu)性指系統(tǒng)對(duì)不同數(shù)據(jù)量的處理能力。對(duì)于流連接系統(tǒng)來(lái)說(shuō),擴(kuò)展性是的特性。相比并行流連接系統(tǒng)而言,分布式流連接系統(tǒng)更具備擴(kuò)展性身的廣告分析業(yè)務(wù),自主設(shè)計(jì)了一種分布式流連接處理系統(tǒng)——Pho以部署在分布式多節(jié)點(diǎn)集群中,各節(jié)點(diǎn)可以在不同的地區(qū)中分布。P輕易地進(jìn)行擴(kuò)展以應(yīng)對(duì)大規(guī)模的數(shù)據(jù)集。Photon 設(shè)法通過(guò)簡(jiǎn)單地復(fù)制來(lái)解決在哈希連接中經(jīng)常出現(xiàn)的負(fù)載不均的問(wèn)題。但是,這種方式并聯(lián)的元組剛好執(zhí)行一次連接操作,違反了完整性的需求。
本文編號(hào):3063622
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3063622.html
最近更新
教材專(zhuān)著