多路數(shù)據(jù)流等值連接中獨立元素問題的研究
發(fā)布時間:2021-03-24 13:33
隨著互聯(lián)網(wǎng)、傳感器等技術深入到人們生活的各個方面,數(shù)據(jù)產(chǎn)生的速度越來越快。新數(shù)據(jù)中隱藏著各種有價值的信息,通過挖掘利用這些信息,給人們的日常生活提供了更多的便利。在很多應用場景中,信息通過數(shù)據(jù)流的方式提供給用戶,通常這些信息帶有非常強的時效性,很少存儲在傳統(tǒng)數(shù)據(jù)庫中,而是必須在生成時進行“即時”處理。此外,由于應用場景的不同,通常每種數(shù)據(jù)流只提供部分信息,結合多種來源的數(shù)據(jù)流,獲取完整的信息成為勢在必行的趨勢。在數(shù)據(jù)流的處理中,連接可以將多個數(shù)據(jù)流之間的信息進行整合,以獲取完整的信息。Spark Streaming是大數(shù)據(jù)環(huán)境下處理流連接的一個系統(tǒng)平臺,它根據(jù)當前操作父子數(shù)據(jù)集之間的依賴關系來決定連接的執(zhí)行順序。但由于評價的標準單一,對于多路數(shù)據(jù)流的連接操作只能做出簡單的順序劃分,并不能根據(jù)各個數(shù)據(jù)流之間的整體相關性來對數(shù)據(jù)流連接做出更合理的優(yōu)化,導致連接的執(zhí)行效率低下。本文在經(jīng)過深入研究以及總結相關工作的基礎上,對多路數(shù)據(jù)流的獨立元素計數(shù)問題展開分析和研究,最后對多路數(shù)據(jù)流的等值連接進行優(yōu)化,內(nèi)容主要有以下幾個方面:首先,本文對多個數(shù)據(jù)流之間的全局相關性進行研究,也就是數(shù)據(jù)流的獨立元...
【文章來源】:中國科學院大學(中國科學院深圳先進技術研究院)廣東省
【文章頁數(shù)】:61 頁
【學位級別】:碩士
【部分圖文】:
流式框架處理方式——流處理Figure1.1Streamingframeprocessingmethod-streamingprocessing
多路數(shù)據(jù)流等值連接中獨立元素問題的研究4圖1.1流式框架處理方式——流處理Figure1.1Streamingframeprocessingmethod-streamingprocessing(2)微批處理:把輸入的數(shù)據(jù)按照某種預先定義的時間間隔(典型的是幾秒鐘)分成短小的批量數(shù)據(jù),進入流處理系統(tǒng)。示例如下:圖1.2流式框架處理方式——微批處理Figure1.2Streamingframeprocessingmethod-MicroBatchProcessing上述的兩種方式都有各自的優(yōu)缺點,原生流的處理方式中,系統(tǒng)接收到新的數(shù)據(jù)便立即進行處理,這樣產(chǎn)生結果的延遲性大大降低,此外,對數(shù)據(jù)流的狀態(tài)進行處理也更容易實現(xiàn)。但是,正是對延遲性以及狀態(tài)的要求,原生流的處理會耗費系統(tǒng)較大的開銷,因為需要對現(xiàn)有的每條記錄做分析處理;原生流還會有數(shù)據(jù)分布不均衡的問題出現(xiàn),比如,在某個任務中,我們按照關鍵字進行分區(qū),但是如果某個關鍵字出現(xiàn)頻率很高,導該分區(qū)數(shù)據(jù)非常擁擠,那么這個分區(qū)很容易成為系統(tǒng)處理的瓶頸。微批處理將流式計算分解成一系列短小的批處理作業(yè),也不可避免的減弱系統(tǒng)的表達力。對于在原生流中很容易實現(xiàn)的狀態(tài)管理或者是需要對數(shù)據(jù)進行匹配連接的操作時,微批處理會變得很不適用,因為需要對整個數(shù)據(jù)集進行操作。微批處理也有它的優(yōu)勢,比如說在數(shù)據(jù)分配的均勻性或者是系統(tǒng)的容錯上都可以輕而易舉的實現(xiàn),這得益于微批處理系統(tǒng)僅僅將某一批
第2章數(shù)據(jù)流連接相關工作9的個數(shù)為標準進行劃分,通常個數(shù)是固定不變的;如果以窗口覆蓋的時間長短進行劃分(如10分鐘),這種窗口稱為邏輯窗口。通常來說,物理窗口中的元組個數(shù)是固定不變的,新來一個元組則意味著窗口中要清除掉一個舊元組;而在邏輯窗口中,里面元組的個數(shù)往往是不確定的,影響的因素主要是數(shù)據(jù)流到來的速度,元組到來的速度越快,則意味著窗口中的元組個數(shù)越多;瑒哟翱诘墓ぷ髟硎窃跀(shù)據(jù)流中劃分中一塊緩沖區(qū),在每次的處理過程中只處理緩沖區(qū)內(nèi)的數(shù)據(jù)。隨著新數(shù)據(jù)的到來,緩沖區(qū)也進行更新,新的元組進入,舊的元組被剔除出緩沖區(qū)。如圖2.1所示,在數(shù)據(jù)流的t1時刻,2、3、4號元組在滑動窗口的緩沖區(qū)內(nèi),隨著時間的推移,2、3號元組被剔除出緩沖區(qū),5、6號元組進入緩沖區(qū),使得t2時刻的緩沖區(qū)變?yōu)?、5、6號元組。本文中,多路數(shù)據(jù)流的等值連接操作均基于滑動窗口[1][5][15]。圖2.1滑動窗口工作原理Figure2.1WorkingPrincipleofSlidingWindow2.1.3時間戳實時數(shù)據(jù)流生成的數(shù)據(jù)中,為了方便數(shù)據(jù)的處理,都需要對數(shù)據(jù)元組進行編號,以此來標記數(shù)據(jù)元組在數(shù)據(jù)流中生成的次序,這種編號稱為時間戳,時間戳按性質(zhì)可以分為顯示時間戳和隱式時間戳[5][15]。顯式的時間戳是在數(shù)據(jù)產(chǎn)生的時候主動添加到元組上的,表示數(shù)據(jù)產(chǎn)生的時間,也可以代表該元組與現(xiàn)實世界在時間上的關聯(lián)性;而隱形的時間戳則是在數(shù)據(jù)到達設備時增添的一個時間信息,用于表示數(shù)據(jù)到達設備時的時間?梢钥闯,數(shù)據(jù)流中元組產(chǎn)生的時間和到達設備的時間是有所區(qū)分的,主要的原因是因為在復雜的網(wǎng)絡環(huán)境下,由于網(wǎng)絡延遲、傳輸距離等差異,可能會導致顯式時間戳小的元組比顯式時間戳大的元組晚到。
【參考文獻】:
期刊論文
[1]基于數(shù)據(jù)流的滑動窗口機制的研究[J]. 杜威,鄒先霞. 計算機工程與設計. 2005(11)
博士論文
[1]大規(guī)模實時數(shù)據(jù)流連接關鍵技術的研究[D]. 劉新春.中國科學技術大學 2015
本文編號:3097817
【文章來源】:中國科學院大學(中國科學院深圳先進技術研究院)廣東省
【文章頁數(shù)】:61 頁
【學位級別】:碩士
【部分圖文】:
流式框架處理方式——流處理Figure1.1Streamingframeprocessingmethod-streamingprocessing
多路數(shù)據(jù)流等值連接中獨立元素問題的研究4圖1.1流式框架處理方式——流處理Figure1.1Streamingframeprocessingmethod-streamingprocessing(2)微批處理:把輸入的數(shù)據(jù)按照某種預先定義的時間間隔(典型的是幾秒鐘)分成短小的批量數(shù)據(jù),進入流處理系統(tǒng)。示例如下:圖1.2流式框架處理方式——微批處理Figure1.2Streamingframeprocessingmethod-MicroBatchProcessing上述的兩種方式都有各自的優(yōu)缺點,原生流的處理方式中,系統(tǒng)接收到新的數(shù)據(jù)便立即進行處理,這樣產(chǎn)生結果的延遲性大大降低,此外,對數(shù)據(jù)流的狀態(tài)進行處理也更容易實現(xiàn)。但是,正是對延遲性以及狀態(tài)的要求,原生流的處理會耗費系統(tǒng)較大的開銷,因為需要對現(xiàn)有的每條記錄做分析處理;原生流還會有數(shù)據(jù)分布不均衡的問題出現(xiàn),比如,在某個任務中,我們按照關鍵字進行分區(qū),但是如果某個關鍵字出現(xiàn)頻率很高,導該分區(qū)數(shù)據(jù)非常擁擠,那么這個分區(qū)很容易成為系統(tǒng)處理的瓶頸。微批處理將流式計算分解成一系列短小的批處理作業(yè),也不可避免的減弱系統(tǒng)的表達力。對于在原生流中很容易實現(xiàn)的狀態(tài)管理或者是需要對數(shù)據(jù)進行匹配連接的操作時,微批處理會變得很不適用,因為需要對整個數(shù)據(jù)集進行操作。微批處理也有它的優(yōu)勢,比如說在數(shù)據(jù)分配的均勻性或者是系統(tǒng)的容錯上都可以輕而易舉的實現(xiàn),這得益于微批處理系統(tǒng)僅僅將某一批
第2章數(shù)據(jù)流連接相關工作9的個數(shù)為標準進行劃分,通常個數(shù)是固定不變的;如果以窗口覆蓋的時間長短進行劃分(如10分鐘),這種窗口稱為邏輯窗口。通常來說,物理窗口中的元組個數(shù)是固定不變的,新來一個元組則意味著窗口中要清除掉一個舊元組;而在邏輯窗口中,里面元組的個數(shù)往往是不確定的,影響的因素主要是數(shù)據(jù)流到來的速度,元組到來的速度越快,則意味著窗口中的元組個數(shù)越多;瑒哟翱诘墓ぷ髟硎窃跀(shù)據(jù)流中劃分中一塊緩沖區(qū),在每次的處理過程中只處理緩沖區(qū)內(nèi)的數(shù)據(jù)。隨著新數(shù)據(jù)的到來,緩沖區(qū)也進行更新,新的元組進入,舊的元組被剔除出緩沖區(qū)。如圖2.1所示,在數(shù)據(jù)流的t1時刻,2、3、4號元組在滑動窗口的緩沖區(qū)內(nèi),隨著時間的推移,2、3號元組被剔除出緩沖區(qū),5、6號元組進入緩沖區(qū),使得t2時刻的緩沖區(qū)變?yōu)?、5、6號元組。本文中,多路數(shù)據(jù)流的等值連接操作均基于滑動窗口[1][5][15]。圖2.1滑動窗口工作原理Figure2.1WorkingPrincipleofSlidingWindow2.1.3時間戳實時數(shù)據(jù)流生成的數(shù)據(jù)中,為了方便數(shù)據(jù)的處理,都需要對數(shù)據(jù)元組進行編號,以此來標記數(shù)據(jù)元組在數(shù)據(jù)流中生成的次序,這種編號稱為時間戳,時間戳按性質(zhì)可以分為顯示時間戳和隱式時間戳[5][15]。顯式的時間戳是在數(shù)據(jù)產(chǎn)生的時候主動添加到元組上的,表示數(shù)據(jù)產(chǎn)生的時間,也可以代表該元組與現(xiàn)實世界在時間上的關聯(lián)性;而隱形的時間戳則是在數(shù)據(jù)到達設備時增添的一個時間信息,用于表示數(shù)據(jù)到達設備時的時間?梢钥闯,數(shù)據(jù)流中元組產(chǎn)生的時間和到達設備的時間是有所區(qū)分的,主要的原因是因為在復雜的網(wǎng)絡環(huán)境下,由于網(wǎng)絡延遲、傳輸距離等差異,可能會導致顯式時間戳小的元組比顯式時間戳大的元組晚到。
【參考文獻】:
期刊論文
[1]基于數(shù)據(jù)流的滑動窗口機制的研究[J]. 杜威,鄒先霞. 計算機工程與設計. 2005(11)
博士論文
[1]大規(guī)模實時數(shù)據(jù)流連接關鍵技術的研究[D]. 劉新春.中國科學技術大學 2015
本文編號:3097817
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3097817.html
最近更新
教材專著