天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

多路數(shù)據(jù)流等值連接中獨立元素問題的研究

發(fā)布時間:2021-03-24 13:33
  隨著互聯(lián)網(wǎng)、傳感器等技術深入到人們生活的各個方面,數(shù)據(jù)產(chǎn)生的速度越來越快。新數(shù)據(jù)中隱藏著各種有價值的信息,通過挖掘利用這些信息,給人們的日常生活提供了更多的便利。在很多應用場景中,信息通過數(shù)據(jù)流的方式提供給用戶,通常這些信息帶有非常強的時效性,很少存儲在傳統(tǒng)數(shù)據(jù)庫中,而是必須在生成時進行“即時”處理。此外,由于應用場景的不同,通常每種數(shù)據(jù)流只提供部分信息,結合多種來源的數(shù)據(jù)流,獲取完整的信息成為勢在必行的趨勢。在數(shù)據(jù)流的處理中,連接可以將多個數(shù)據(jù)流之間的信息進行整合,以獲取完整的信息。Spark Streaming是大數(shù)據(jù)環(huán)境下處理流連接的一個系統(tǒng)平臺,它根據(jù)當前操作父子數(shù)據(jù)集之間的依賴關系來決定連接的執(zhí)行順序。但由于評價的標準單一,對于多路數(shù)據(jù)流的連接操作只能做出簡單的順序劃分,并不能根據(jù)各個數(shù)據(jù)流之間的整體相關性來對數(shù)據(jù)流連接做出更合理的優(yōu)化,導致連接的執(zhí)行效率低下。本文在經(jīng)過深入研究以及總結相關工作的基礎上,對多路數(shù)據(jù)流的獨立元素計數(shù)問題展開分析和研究,最后對多路數(shù)據(jù)流的等值連接進行優(yōu)化,內(nèi)容主要有以下幾個方面:首先,本文對多個數(shù)據(jù)流之間的全局相關性進行研究,也就是數(shù)據(jù)流的獨立元... 

【文章來源】:中國科學院大學(中國科學院深圳先進技術研究院)廣東省

【文章頁數(shù)】:61 頁

【學位級別】:碩士

【部分圖文】:

多路數(shù)據(jù)流等值連接中獨立元素問題的研究


流式框架處理方式——流處理Figure1.1Streamingframeprocessingmethod-streamingprocessing

框架圖,框架,方式,數(shù)據(jù)


多路數(shù)據(jù)流等值連接中獨立元素問題的研究4圖1.1流式框架處理方式——流處理Figure1.1Streamingframeprocessingmethod-streamingprocessing(2)微批處理:把輸入的數(shù)據(jù)按照某種預先定義的時間間隔(典型的是幾秒鐘)分成短小的批量數(shù)據(jù),進入流處理系統(tǒng)。示例如下:圖1.2流式框架處理方式——微批處理Figure1.2Streamingframeprocessingmethod-MicroBatchProcessing上述的兩種方式都有各自的優(yōu)缺點,原生流的處理方式中,系統(tǒng)接收到新的數(shù)據(jù)便立即進行處理,這樣產(chǎn)生結果的延遲性大大降低,此外,對數(shù)據(jù)流的狀態(tài)進行處理也更容易實現(xiàn)。但是,正是對延遲性以及狀態(tài)的要求,原生流的處理會耗費系統(tǒng)較大的開銷,因為需要對現(xiàn)有的每條記錄做分析處理;原生流還會有數(shù)據(jù)分布不均衡的問題出現(xiàn),比如,在某個任務中,我們按照關鍵字進行分區(qū),但是如果某個關鍵字出現(xiàn)頻率很高,導該分區(qū)數(shù)據(jù)非常擁擠,那么這個分區(qū)很容易成為系統(tǒng)處理的瓶頸。微批處理將流式計算分解成一系列短小的批處理作業(yè),也不可避免的減弱系統(tǒng)的表達力。對于在原生流中很容易實現(xiàn)的狀態(tài)管理或者是需要對數(shù)據(jù)進行匹配連接的操作時,微批處理會變得很不適用,因為需要對整個數(shù)據(jù)集進行操作。微批處理也有它的優(yōu)勢,比如說在數(shù)據(jù)分配的均勻性或者是系統(tǒng)的容錯上都可以輕而易舉的實現(xiàn),這得益于微批處理系統(tǒng)僅僅將某一批

原理圖,滑動窗口,原理,元組


第2章數(shù)據(jù)流連接相關工作9的個數(shù)為標準進行劃分,通常個數(shù)是固定不變的;如果以窗口覆蓋的時間長短進行劃分(如10分鐘),這種窗口稱為邏輯窗口。通常來說,物理窗口中的元組個數(shù)是固定不變的,新來一個元組則意味著窗口中要清除掉一個舊元組;而在邏輯窗口中,里面元組的個數(shù)往往是不確定的,影響的因素主要是數(shù)據(jù)流到來的速度,元組到來的速度越快,則意味著窗口中的元組個數(shù)越多;瑒哟翱诘墓ぷ髟硎窃跀(shù)據(jù)流中劃分中一塊緩沖區(qū),在每次的處理過程中只處理緩沖區(qū)內(nèi)的數(shù)據(jù)。隨著新數(shù)據(jù)的到來,緩沖區(qū)也進行更新,新的元組進入,舊的元組被剔除出緩沖區(qū)。如圖2.1所示,在數(shù)據(jù)流的t1時刻,2、3、4號元組在滑動窗口的緩沖區(qū)內(nèi),隨著時間的推移,2、3號元組被剔除出緩沖區(qū),5、6號元組進入緩沖區(qū),使得t2時刻的緩沖區(qū)變?yōu)?、5、6號元組。本文中,多路數(shù)據(jù)流的等值連接操作均基于滑動窗口[1][5][15]。圖2.1滑動窗口工作原理Figure2.1WorkingPrincipleofSlidingWindow2.1.3時間戳實時數(shù)據(jù)流生成的數(shù)據(jù)中,為了方便數(shù)據(jù)的處理,都需要對數(shù)據(jù)元組進行編號,以此來標記數(shù)據(jù)元組在數(shù)據(jù)流中生成的次序,這種編號稱為時間戳,時間戳按性質(zhì)可以分為顯示時間戳和隱式時間戳[5][15]。顯式的時間戳是在數(shù)據(jù)產(chǎn)生的時候主動添加到元組上的,表示數(shù)據(jù)產(chǎn)生的時間,也可以代表該元組與現(xiàn)實世界在時間上的關聯(lián)性;而隱形的時間戳則是在數(shù)據(jù)到達設備時增添的一個時間信息,用于表示數(shù)據(jù)到達設備時的時間?梢钥闯,數(shù)據(jù)流中元組產(chǎn)生的時間和到達設備的時間是有所區(qū)分的,主要的原因是因為在復雜的網(wǎng)絡環(huán)境下,由于網(wǎng)絡延遲、傳輸距離等差異,可能會導致顯式時間戳小的元組比顯式時間戳大的元組晚到。

【參考文獻】:
期刊論文
[1]基于數(shù)據(jù)流的滑動窗口機制的研究[J]. 杜威,鄒先霞.  計算機工程與設計. 2005(11)

博士論文
[1]大規(guī)模實時數(shù)據(jù)流連接關鍵技術的研究[D]. 劉新春.中國科學技術大學 2015



本文編號:3097817

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3097817.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶5d449***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
国产精品激情在线观看| 熟女少妇一区二区三区蜜桃| 色偷偷亚洲女人天堂观看| 日韩亚洲精品国产第二页| 东京热男人的天堂久久综合| 成人综合网视频在线观看| 亚洲精品伦理熟女国产一区二区 | 欧美日韩三区在线观看| 少妇丰满a一区二区三区| 日韩人妻免费视频一专区| 色婷婷国产熟妇人妻露脸| 国产韩国日本精品视频| 大屁股肥臀熟女一区二区视频| 久久热麻豆国产精品视频| 91欧美日韩国产在线观看| 国产一区二区精品丝袜| 夫妻性生活真人动作视频 | 免费在线成人激情视频| 激情五月天深爱丁香婷婷| 成年女人午夜在线视频| 久久午夜福利精品日韩| 国产日韩欧美国产欧美日韩| 熟女高潮一区二区三区| 亚洲熟女国产熟女二区三区| 中文字幕91在线观看| 人妻乱近亲奸中文字幕| 久久99精品国产麻豆婷婷洗澡 | 国产精品国三级国产专不卡| 国产自拍欧美日韩在线观看| 国产免费黄片一区二区| 亚洲午夜av一区二区| 欧美精品亚洲精品一区| 欧美av人人妻av人人爽蜜桃 | 热久久这里只有精品视频| 四季精品人妻av一区二区三区| 国产免费一区二区不卡| 99久久精品一区二区国产| 中国美女草逼一级黄片视频| 婷婷色网视频在线播放| 日本妇女高清一区二区三区| 亚洲第一区二区三区女厕偷拍 |