多路數(shù)據(jù)流等值連接中獨(dú)立元素問題的研究
發(fā)布時(shí)間:2021-03-24 13:33
隨著互聯(lián)網(wǎng)、傳感器等技術(shù)深入到人們生活的各個(gè)方面,數(shù)據(jù)產(chǎn)生的速度越來越快。新數(shù)據(jù)中隱藏著各種有價(jià)值的信息,通過挖掘利用這些信息,給人們的日常生活提供了更多的便利。在很多應(yīng)用場景中,信息通過數(shù)據(jù)流的方式提供給用戶,通常這些信息帶有非常強(qiáng)的時(shí)效性,很少存儲(chǔ)在傳統(tǒng)數(shù)據(jù)庫中,而是必須在生成時(shí)進(jìn)行“即時(shí)”處理。此外,由于應(yīng)用場景的不同,通常每種數(shù)據(jù)流只提供部分信息,結(jié)合多種來源的數(shù)據(jù)流,獲取完整的信息成為勢在必行的趨勢。在數(shù)據(jù)流的處理中,連接可以將多個(gè)數(shù)據(jù)流之間的信息進(jìn)行整合,以獲取完整的信息。Spark Streaming是大數(shù)據(jù)環(huán)境下處理流連接的一個(gè)系統(tǒng)平臺(tái),它根據(jù)當(dāng)前操作父子數(shù)據(jù)集之間的依賴關(guān)系來決定連接的執(zhí)行順序。但由于評價(jià)的標(biāo)準(zhǔn)單一,對于多路數(shù)據(jù)流的連接操作只能做出簡單的順序劃分,并不能根據(jù)各個(gè)數(shù)據(jù)流之間的整體相關(guān)性來對數(shù)據(jù)流連接做出更合理的優(yōu)化,導(dǎo)致連接的執(zhí)行效率低下。本文在經(jīng)過深入研究以及總結(jié)相關(guān)工作的基礎(chǔ)上,對多路數(shù)據(jù)流的獨(dú)立元素計(jì)數(shù)問題展開分析和研究,最后對多路數(shù)據(jù)流的等值連接進(jìn)行優(yōu)化,內(nèi)容主要有以下幾個(gè)方面:首先,本文對多個(gè)數(shù)據(jù)流之間的全局相關(guān)性進(jìn)行研究,也就是數(shù)據(jù)流的獨(dú)立元...
【文章來源】:中國科學(xué)院大學(xué)(中國科學(xué)院深圳先進(jìn)技術(shù)研究院)廣東省
【文章頁數(shù)】:61 頁
【學(xué)位級別】:碩士
【部分圖文】:
流式框架處理方式——流處理Figure1.1Streamingframeprocessingmethod-streamingprocessing
多路數(shù)據(jù)流等值連接中獨(dú)立元素問題的研究4圖1.1流式框架處理方式——流處理Figure1.1Streamingframeprocessingmethod-streamingprocessing(2)微批處理:把輸入的數(shù)據(jù)按照某種預(yù)先定義的時(shí)間間隔(典型的是幾秒鐘)分成短小的批量數(shù)據(jù),進(jìn)入流處理系統(tǒng)。示例如下:圖1.2流式框架處理方式——微批處理Figure1.2Streamingframeprocessingmethod-MicroBatchProcessing上述的兩種方式都有各自的優(yōu)缺點(diǎn),原生流的處理方式中,系統(tǒng)接收到新的數(shù)據(jù)便立即進(jìn)行處理,這樣產(chǎn)生結(jié)果的延遲性大大降低,此外,對數(shù)據(jù)流的狀態(tài)進(jìn)行處理也更容易實(shí)現(xiàn)。但是,正是對延遲性以及狀態(tài)的要求,原生流的處理會(huì)耗費(fèi)系統(tǒng)較大的開銷,因?yàn)樾枰獙ΜF(xiàn)有的每條記錄做分析處理;原生流還會(huì)有數(shù)據(jù)分布不均衡的問題出現(xiàn),比如,在某個(gè)任務(wù)中,我們按照關(guān)鍵字進(jìn)行分區(qū),但是如果某個(gè)關(guān)鍵字出現(xiàn)頻率很高,導(dǎo)該分區(qū)數(shù)據(jù)非常擁擠,那么這個(gè)分區(qū)很容易成為系統(tǒng)處理的瓶頸。微批處理將流式計(jì)算分解成一系列短小的批處理作業(yè),也不可避免的減弱系統(tǒng)的表達(dá)力。對于在原生流中很容易實(shí)現(xiàn)的狀態(tài)管理或者是需要對數(shù)據(jù)進(jìn)行匹配連接的操作時(shí),微批處理會(huì)變得很不適用,因?yàn)樾枰獙φ麄(gè)數(shù)據(jù)集進(jìn)行操作。微批處理也有它的優(yōu)勢,比如說在數(shù)據(jù)分配的均勻性或者是系統(tǒng)的容錯(cuò)上都可以輕而易舉的實(shí)現(xiàn),這得益于微批處理系統(tǒng)僅僅將某一批
第2章數(shù)據(jù)流連接相關(guān)工作9的個(gè)數(shù)為標(biāo)準(zhǔn)進(jìn)行劃分,通常個(gè)數(shù)是固定不變的;如果以窗口覆蓋的時(shí)間長短進(jìn)行劃分(如10分鐘),這種窗口稱為邏輯窗口。通常來說,物理窗口中的元組個(gè)數(shù)是固定不變的,新來一個(gè)元組則意味著窗口中要清除掉一個(gè)舊元組;而在邏輯窗口中,里面元組的個(gè)數(shù)往往是不確定的,影響的因素主要是數(shù)據(jù)流到來的速度,元組到來的速度越快,則意味著窗口中的元組個(gè)數(shù)越多;瑒(dòng)窗口的工作原理是在數(shù)據(jù)流中劃分中一塊緩沖區(qū),在每次的處理過程中只處理緩沖區(qū)內(nèi)的數(shù)據(jù)。隨著新數(shù)據(jù)的到來,緩沖區(qū)也進(jìn)行更新,新的元組進(jìn)入,舊的元組被剔除出緩沖區(qū)。如圖2.1所示,在數(shù)據(jù)流的t1時(shí)刻,2、3、4號元組在滑動(dòng)窗口的緩沖區(qū)內(nèi),隨著時(shí)間的推移,2、3號元組被剔除出緩沖區(qū),5、6號元組進(jìn)入緩沖區(qū),使得t2時(shí)刻的緩沖區(qū)變?yōu)?、5、6號元組。本文中,多路數(shù)據(jù)流的等值連接操作均基于滑動(dòng)窗口[1][5][15]。圖2.1滑動(dòng)窗口工作原理Figure2.1WorkingPrincipleofSlidingWindow2.1.3時(shí)間戳實(shí)時(shí)數(shù)據(jù)流生成的數(shù)據(jù)中,為了方便數(shù)據(jù)的處理,都需要對數(shù)據(jù)元組進(jìn)行編號,以此來標(biāo)記數(shù)據(jù)元組在數(shù)據(jù)流中生成的次序,這種編號稱為時(shí)間戳,時(shí)間戳按性質(zhì)可以分為顯示時(shí)間戳和隱式時(shí)間戳[5][15]。顯式的時(shí)間戳是在數(shù)據(jù)產(chǎn)生的時(shí)候主動(dòng)添加到元組上的,表示數(shù)據(jù)產(chǎn)生的時(shí)間,也可以代表該元組與現(xiàn)實(shí)世界在時(shí)間上的關(guān)聯(lián)性;而隱形的時(shí)間戳則是在數(shù)據(jù)到達(dá)設(shè)備時(shí)增添的一個(gè)時(shí)間信息,用于表示數(shù)據(jù)到達(dá)設(shè)備時(shí)的時(shí)間?梢钥闯觯瑪(shù)據(jù)流中元組產(chǎn)生的時(shí)間和到達(dá)設(shè)備的時(shí)間是有所區(qū)分的,主要的原因是因?yàn)樵趶?fù)雜的網(wǎng)絡(luò)環(huán)境下,由于網(wǎng)絡(luò)延遲、傳輸距離等差異,可能會(huì)導(dǎo)致顯式時(shí)間戳小的元組比顯式時(shí)間戳大的元組晚到。
【參考文獻(xiàn)】:
期刊論文
[1]基于數(shù)據(jù)流的滑動(dòng)窗口機(jī)制的研究[J]. 杜威,鄒先霞. 計(jì)算機(jī)工程與設(shè)計(jì). 2005(11)
博士論文
[1]大規(guī)模實(shí)時(shí)數(shù)據(jù)流連接關(guān)鍵技術(shù)的研究[D]. 劉新春.中國科學(xué)技術(shù)大學(xué) 2015
本文編號:3097817
【文章來源】:中國科學(xué)院大學(xué)(中國科學(xué)院深圳先進(jìn)技術(shù)研究院)廣東省
【文章頁數(shù)】:61 頁
【學(xué)位級別】:碩士
【部分圖文】:
流式框架處理方式——流處理Figure1.1Streamingframeprocessingmethod-streamingprocessing
多路數(shù)據(jù)流等值連接中獨(dú)立元素問題的研究4圖1.1流式框架處理方式——流處理Figure1.1Streamingframeprocessingmethod-streamingprocessing(2)微批處理:把輸入的數(shù)據(jù)按照某種預(yù)先定義的時(shí)間間隔(典型的是幾秒鐘)分成短小的批量數(shù)據(jù),進(jìn)入流處理系統(tǒng)。示例如下:圖1.2流式框架處理方式——微批處理Figure1.2Streamingframeprocessingmethod-MicroBatchProcessing上述的兩種方式都有各自的優(yōu)缺點(diǎn),原生流的處理方式中,系統(tǒng)接收到新的數(shù)據(jù)便立即進(jìn)行處理,這樣產(chǎn)生結(jié)果的延遲性大大降低,此外,對數(shù)據(jù)流的狀態(tài)進(jìn)行處理也更容易實(shí)現(xiàn)。但是,正是對延遲性以及狀態(tài)的要求,原生流的處理會(huì)耗費(fèi)系統(tǒng)較大的開銷,因?yàn)樾枰獙ΜF(xiàn)有的每條記錄做分析處理;原生流還會(huì)有數(shù)據(jù)分布不均衡的問題出現(xiàn),比如,在某個(gè)任務(wù)中,我們按照關(guān)鍵字進(jìn)行分區(qū),但是如果某個(gè)關(guān)鍵字出現(xiàn)頻率很高,導(dǎo)該分區(qū)數(shù)據(jù)非常擁擠,那么這個(gè)分區(qū)很容易成為系統(tǒng)處理的瓶頸。微批處理將流式計(jì)算分解成一系列短小的批處理作業(yè),也不可避免的減弱系統(tǒng)的表達(dá)力。對于在原生流中很容易實(shí)現(xiàn)的狀態(tài)管理或者是需要對數(shù)據(jù)進(jìn)行匹配連接的操作時(shí),微批處理會(huì)變得很不適用,因?yàn)樾枰獙φ麄(gè)數(shù)據(jù)集進(jìn)行操作。微批處理也有它的優(yōu)勢,比如說在數(shù)據(jù)分配的均勻性或者是系統(tǒng)的容錯(cuò)上都可以輕而易舉的實(shí)現(xiàn),這得益于微批處理系統(tǒng)僅僅將某一批
第2章數(shù)據(jù)流連接相關(guān)工作9的個(gè)數(shù)為標(biāo)準(zhǔn)進(jìn)行劃分,通常個(gè)數(shù)是固定不變的;如果以窗口覆蓋的時(shí)間長短進(jìn)行劃分(如10分鐘),這種窗口稱為邏輯窗口。通常來說,物理窗口中的元組個(gè)數(shù)是固定不變的,新來一個(gè)元組則意味著窗口中要清除掉一個(gè)舊元組;而在邏輯窗口中,里面元組的個(gè)數(shù)往往是不確定的,影響的因素主要是數(shù)據(jù)流到來的速度,元組到來的速度越快,則意味著窗口中的元組個(gè)數(shù)越多;瑒(dòng)窗口的工作原理是在數(shù)據(jù)流中劃分中一塊緩沖區(qū),在每次的處理過程中只處理緩沖區(qū)內(nèi)的數(shù)據(jù)。隨著新數(shù)據(jù)的到來,緩沖區(qū)也進(jìn)行更新,新的元組進(jìn)入,舊的元組被剔除出緩沖區(qū)。如圖2.1所示,在數(shù)據(jù)流的t1時(shí)刻,2、3、4號元組在滑動(dòng)窗口的緩沖區(qū)內(nèi),隨著時(shí)間的推移,2、3號元組被剔除出緩沖區(qū),5、6號元組進(jìn)入緩沖區(qū),使得t2時(shí)刻的緩沖區(qū)變?yōu)?、5、6號元組。本文中,多路數(shù)據(jù)流的等值連接操作均基于滑動(dòng)窗口[1][5][15]。圖2.1滑動(dòng)窗口工作原理Figure2.1WorkingPrincipleofSlidingWindow2.1.3時(shí)間戳實(shí)時(shí)數(shù)據(jù)流生成的數(shù)據(jù)中,為了方便數(shù)據(jù)的處理,都需要對數(shù)據(jù)元組進(jìn)行編號,以此來標(biāo)記數(shù)據(jù)元組在數(shù)據(jù)流中生成的次序,這種編號稱為時(shí)間戳,時(shí)間戳按性質(zhì)可以分為顯示時(shí)間戳和隱式時(shí)間戳[5][15]。顯式的時(shí)間戳是在數(shù)據(jù)產(chǎn)生的時(shí)候主動(dòng)添加到元組上的,表示數(shù)據(jù)產(chǎn)生的時(shí)間,也可以代表該元組與現(xiàn)實(shí)世界在時(shí)間上的關(guān)聯(lián)性;而隱形的時(shí)間戳則是在數(shù)據(jù)到達(dá)設(shè)備時(shí)增添的一個(gè)時(shí)間信息,用于表示數(shù)據(jù)到達(dá)設(shè)備時(shí)的時(shí)間?梢钥闯觯瑪(shù)據(jù)流中元組產(chǎn)生的時(shí)間和到達(dá)設(shè)備的時(shí)間是有所區(qū)分的,主要的原因是因?yàn)樵趶?fù)雜的網(wǎng)絡(luò)環(huán)境下,由于網(wǎng)絡(luò)延遲、傳輸距離等差異,可能會(huì)導(dǎo)致顯式時(shí)間戳小的元組比顯式時(shí)間戳大的元組晚到。
【參考文獻(xiàn)】:
期刊論文
[1]基于數(shù)據(jù)流的滑動(dòng)窗口機(jī)制的研究[J]. 杜威,鄒先霞. 計(jì)算機(jī)工程與設(shè)計(jì). 2005(11)
博士論文
[1]大規(guī)模實(shí)時(shí)數(shù)據(jù)流連接關(guān)鍵技術(shù)的研究[D]. 劉新春.中國科學(xué)技術(shù)大學(xué) 2015
本文編號:3097817
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3097817.html
最近更新
教材專著