分布式數(shù)據(jù)回放系統(tǒng)研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-08-04 00:56
在金融和證券等行業(yè)的大數(shù)據(jù)處理應(yīng)用中,存在很多需要對(duì)大規(guī)模歷史數(shù)據(jù)進(jìn)行回放的服務(wù)需求。在一個(gè)歷史數(shù)據(jù)回放應(yīng)用中,首先需要從底層存儲(chǔ)系統(tǒng)中查詢和加載大規(guī)模歷史數(shù)據(jù),并以用戶定義的邏輯處理這些數(shù)據(jù),將數(shù)據(jù)轉(zhuǎn)化為動(dòng)態(tài)的數(shù)據(jù)流,最終由系統(tǒng)加以回放。例如,股票量化分析平臺(tái)以及在線電子交易平臺(tái)中,就存在很多這種數(shù)據(jù)回放服務(wù)需求,以便于進(jìn)行回歸測(cè)試分析或者系統(tǒng)性能測(cè)試。然而,目前國(guó)內(nèi)外這種歷史數(shù)據(jù)回放系統(tǒng)尚不多見(jiàn)。如前所述,這種歷史數(shù)據(jù)回放系統(tǒng)是一種特殊的系統(tǒng),它既需要具備按照用戶需求進(jìn)行數(shù)據(jù)查詢的能力,同時(shí)又需要具備流式數(shù)據(jù)處理的能力與流出計(jì)算的能力,因而不等同于流式處理系統(tǒng)或數(shù)據(jù)庫(kù)系統(tǒng)。因此,現(xiàn)有的包括流計(jì)算以及數(shù)據(jù)庫(kù)在內(nèi)的系統(tǒng),都不具備這類(lèi)數(shù)據(jù)回放服務(wù)能力。流計(jì)算系統(tǒng)本質(zhì)上被設(shè)計(jì)成對(duì)動(dòng)態(tài)流式數(shù)據(jù)進(jìn)行流入計(jì)算處理,因而缺乏對(duì)已存在的歷史數(shù)據(jù)進(jìn)行回放處理的能力;而數(shù)據(jù)庫(kù)系統(tǒng)雖然支持復(fù)雜靈活的查詢,但不具備流處理功能,不能直接應(yīng)用于上述流式數(shù)據(jù)回放服務(wù)。為此,有必要研究實(shí)現(xiàn)一種專(zhuān)門(mén)的歷史數(shù)據(jù)回放系統(tǒng)。針對(duì)上述應(yīng)用需求和問(wèn)題背景,本文首先研究構(gòu)建了一種通用化的數(shù)據(jù)回放模型與框架,并基于該模型與框架研究...
【文章來(lái)源】:南京大學(xué)江蘇省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:77 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1-1:回放服務(wù)系統(tǒng)處理流程與系統(tǒng)框架??數(shù)據(jù)回放服務(wù)在許多領(lǐng)域中得到廣泛應(yīng)用,包括在線系統(tǒng)性能測(cè)試、歷史證??
數(shù)據(jù)kvW]丨文件?||??圖2-1:回放作業(yè)數(shù)據(jù)流模型??回放作業(yè)的數(shù)據(jù)流模型如圖2-1所示;胤抛鳂I(yè)的數(shù)據(jù)流一共要經(jīng)過(guò)三個(gè)階??段,即數(shù)據(jù)加載階段、合并階段、流處理階段。這三個(gè)階段分別由加載操作符、??11??
回放系統(tǒng)中這種數(shù)據(jù)分片切分方式對(duì)上層回放應(yīng)用程序是透明的。默??認(rèn)情況下,從這些分片中加載出來(lái)的數(shù)據(jù)會(huì)維持這些分片在該數(shù)據(jù)區(qū)間中原本的??相對(duì)順序,如圖2-2?(a)所示。?????split-1?split-2?split-3??split-1??????????split-2???1?1?? ̄s^it ̄3_=??(Tange^)?(^range^)??split-1?split-1??range?split-2?range?split-2??split-3?split-3??(a)無(wú)flatten操作符加載數(shù)據(jù)示意圖?(b)有flatten操作符加載數(shù)據(jù)示意圖??圖2-2:有無(wú)flatten操作符作用的range加載數(shù)據(jù)作用對(duì)比??(2)?flatten??在某些回放應(yīng)用場(chǎng)景下(例如全局排序),range操作符指定的一??個(gè)數(shù)據(jù)區(qū)間中的多個(gè)數(shù)據(jù)分片不需要按它們?cè)谠摂?shù)據(jù)區(qū)間中的原順序加載為單??個(gè)中間回放數(shù)據(jù)流,而是可以獨(dú)立加載為多個(gè)平行的中間回放數(shù)據(jù)流。flatten操??作符即提供該功能,通過(guò)為一個(gè)range操作符指定flatten操作符,可將一個(gè)數(shù)據(jù)??區(qū)間中的每個(gè)數(shù)據(jù)分片都被獨(dú)立加載為一個(gè)數(shù)據(jù)流,如圖2-2?(b)所示。??(3)?reverse:默認(rèn)情況下,從一個(gè)range操作符指定的數(shù)據(jù)區(qū)間中加載出來(lái)??的數(shù)據(jù)流會(huì)保持原數(shù)據(jù)區(qū)間中的順序
本文編號(hào):3320667
【文章來(lái)源】:南京大學(xué)江蘇省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:77 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1-1:回放服務(wù)系統(tǒng)處理流程與系統(tǒng)框架??數(shù)據(jù)回放服務(wù)在許多領(lǐng)域中得到廣泛應(yīng)用,包括在線系統(tǒng)性能測(cè)試、歷史證??
數(shù)據(jù)kvW]丨文件?||??圖2-1:回放作業(yè)數(shù)據(jù)流模型??回放作業(yè)的數(shù)據(jù)流模型如圖2-1所示;胤抛鳂I(yè)的數(shù)據(jù)流一共要經(jīng)過(guò)三個(gè)階??段,即數(shù)據(jù)加載階段、合并階段、流處理階段。這三個(gè)階段分別由加載操作符、??11??
回放系統(tǒng)中這種數(shù)據(jù)分片切分方式對(duì)上層回放應(yīng)用程序是透明的。默??認(rèn)情況下,從這些分片中加載出來(lái)的數(shù)據(jù)會(huì)維持這些分片在該數(shù)據(jù)區(qū)間中原本的??相對(duì)順序,如圖2-2?(a)所示。?????split-1?split-2?split-3??split-1??????????split-2???1?1?? ̄s^it ̄3_=??(Tange^)?(^range^)??split-1?split-1??range?split-2?range?split-2??split-3?split-3??(a)無(wú)flatten操作符加載數(shù)據(jù)示意圖?(b)有flatten操作符加載數(shù)據(jù)示意圖??圖2-2:有無(wú)flatten操作符作用的range加載數(shù)據(jù)作用對(duì)比??(2)?flatten??在某些回放應(yīng)用場(chǎng)景下(例如全局排序),range操作符指定的一??個(gè)數(shù)據(jù)區(qū)間中的多個(gè)數(shù)據(jù)分片不需要按它們?cè)谠摂?shù)據(jù)區(qū)間中的原順序加載為單??個(gè)中間回放數(shù)據(jù)流,而是可以獨(dú)立加載為多個(gè)平行的中間回放數(shù)據(jù)流。flatten操??作符即提供該功能,通過(guò)為一個(gè)range操作符指定flatten操作符,可將一個(gè)數(shù)據(jù)??區(qū)間中的每個(gè)數(shù)據(jù)分片都被獨(dú)立加載為一個(gè)數(shù)據(jù)流,如圖2-2?(b)所示。??(3)?reverse:默認(rèn)情況下,從一個(gè)range操作符指定的數(shù)據(jù)區(qū)間中加載出來(lái)??的數(shù)據(jù)流會(huì)保持原數(shù)據(jù)區(qū)間中的順序
本文編號(hào):3320667
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3320667.html
最近更新
教材專(zhuān)著