天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于Spark Streaming的分布式數(shù)據(jù)流連接優(yōu)化

發(fā)布時間:2021-07-20 15:11
  Spark Streaming是大數(shù)據(jù)環(huán)境下流處理系統(tǒng)中的新秀,它使用有向無環(huán)圖的方式依照當前操作父子數(shù)據(jù)集間的依賴關(guān)系劃分操作執(zhí)行順序。但其評價標準過于單一,對于多連接操作只能做出簡單的順序劃分,無法結(jié)合各條數(shù)據(jù)流基礎信息和數(shù)據(jù)流間連接關(guān)系做出針對性處理,難以找到執(zhí)行效率較高的連接順序。同時針對多條數(shù)據(jù)流連接下的窗口持續(xù)查詢操作,其采用重復獨立計算的方式執(zhí)行,每次都要根據(jù)當前窗口下全部信息重新計算結(jié)果,相鄰窗口間存在大量冗余計算,整個查詢執(zhí)行效率較低。針對以上問題,本文提出了基于啟發(fā)式搜索的多數(shù)據(jù)流連接策略和基于時間戳的中間結(jié)果緩存策略。根據(jù)數(shù)據(jù)流集合對應的無向賦權(quán)圖構(gòu)建連接樹,求解合適的連接順序,再結(jié)合連接樹各節(jié)點間便于數(shù)據(jù)存放的優(yōu)勢建立緩存機制,在相近窗口內(nèi)復用中間結(jié)果,減少冗余計算量。本文主要貢獻如下:1)基于啟發(fā)式搜索的多數(shù)據(jù)流連接策略:通過分析關(guān)系型數(shù)據(jù)庫系統(tǒng)和流處理系統(tǒng)中已有的連接技術(shù)與圖的相關(guān)概念特征,將數(shù)據(jù)流之間的連接關(guān)系轉(zhuǎn)化為無向連通圖;根據(jù)數(shù)據(jù)流的流速為圖中各點賦權(quán),根據(jù)相關(guān)數(shù)據(jù)流間中間量的規(guī)模為圖中各邊賦權(quán),分析多流連接代價構(gòu)建啟發(fā)函數(shù),提出了一種基于啟發(fā)式搜索... 

【文章來源】:北京工業(yè)大學北京市 211工程院校

【文章頁數(shù)】:69 頁

【學位級別】:碩士

【文章目錄】:
摘要
Abstract
第1章 緒論
    1.1 研究背景
        1.1.1 大數(shù)據(jù)發(fā)展背景
        1.1.2 數(shù)據(jù)流概念及特征
        1.1.3 流處理平臺概述
    1.2 數(shù)據(jù)流連接相關(guān)概念及技術(shù)
        1.2.1 連接
        1.2.2 滑動窗口
        1.2.3 時間戳
        1.2.4 發(fā)展過程
    1.3 本文主要貢獻
    1.4 本文組織結(jié)構(gòu)
    1.5 本章小結(jié)
第2章 相關(guān)工作
    2.1 數(shù)據(jù)流連接算法
        2.1.1 傳統(tǒng)數(shù)據(jù)庫連接算法
        2.1.2 擴展連接算法
        2.1.3 分布式連接算法
    2.2 多數(shù)據(jù)流連接實現(xiàn)機制
        2.2.1 多連接算子
        2.2.2 連接樹
        2.2.3 相互比較
    2.3 Kafka分布式消息發(fā)布訂閱系統(tǒng)
        2.3.1 Kafka平臺概述
        2.3.2 Kafka與Spark Streaming平臺交互
    2.4 Spark Streaming流處理系統(tǒng)
        2.4.1 Spark平臺概述
        2.4.2 Spark Streaming平臺概述
    2.5 本章小結(jié)
第3章 基于啟發(fā)式搜索的多數(shù)據(jù)流連接策略
    3.1 問題描述
        3.1.1 DAG作業(yè)劃分規(guī)則
        3.1.2 Spark Streaming下join算子與多連接操作
    3.2 問題分析
        3.2.1 多連接下的順序選擇
        3.2.2 啟發(fā)式搜索算法選取
    3.3 模型設計
        3.3.1 無向賦權(quán)圖模型設計
        3.3.2 圖模型存儲結(jié)構(gòu)
        3.3.3 代價分析
    3.4 策略實現(xiàn)
        3.4.1 無向賦權(quán)圖構(gòu)建
        3.4.2 連接順序選取
        3.4.3 動態(tài)重建樹
    3.5 本章小結(jié)
第4章 基于時間戳的中間結(jié)果緩存策略
    4.1 問題描述
        4.1.1 連接樹模式緩存優(yōu)勢
        4.1.2 傳統(tǒng)環(huán)境下的緩存實現(xiàn)
    4.2 基本思路
        4.2.1 引入時間戳標記
        4.2.2 緩存回收
    4.3 策略實現(xiàn)
    4.4 本章小結(jié)
第5章 實驗分析
    5.1 實驗環(huán)境搭建及配置
    5.2 實驗數(shù)據(jù)及思路
        5.2.1 Kafka數(shù)據(jù)生成規(guī)則
        5.2.2 模擬數(shù)據(jù)生成思路
    5.3 實驗結(jié)果分析
    5.4 本章小結(jié)
結(jié)論
參考文獻
攻讀碩士學位期間所發(fā)表的學術(shù)論文
致謝


【參考文獻】:
期刊論文
[1]Spark內(nèi)存管理及緩存策略研究[J]. 孟紅濤,余松平,劉芳,肖儂.  計算機科學. 2017(06)
[2]一種分布式消息隊列研究與測試[J]. 于金良,朱志祥,李聰穎.  物聯(lián)網(wǎng)技術(shù). 2016(08)
[3]一種基于數(shù)據(jù)流的滑動窗口查詢策略[J]. 宋曉偉,孫陽,殷守林.  現(xiàn)代計算機(專業(yè)版). 2016(09)
[4]流式計算在交通管理中應用研究[J]. 周建寧,徐曉東,蔡崗.  中國公共安全(學術(shù)版). 2016(01)
[5]Spark環(huán)境下基于多維布隆過濾器的星型連接算法[J]. 周國亮,薩初日拉,朱永利.  計算機應用. 2016(02)
[6]分布式流處理技術(shù)綜述[J]. 崔星燦,禹曉輝,劉洋,呂朝陽.  計算機研究與發(fā)展. 2015(02)
[7]一種數(shù)據(jù)流上基于滑動窗口的點連接查詢處理算法[J]. 楊仁凱,王坤朋,木偉民,王偉平.  計算機研究與發(fā)展. 2014(S1)
[8]大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J]. 孟小峰,慈祥.  計算機研究與發(fā)展. 2013(01)
[9]DBMS與DSMS的比較研究[J]. 姜芳艽.  微計算機信息. 2007(06)
[10]一種改進的時間片輪轉(zhuǎn)調(diào)度算法[J]. 肖建明,張向利.  計算機應用. 2005(S1)

博士論文
[1]大規(guī)模實時數(shù)據(jù)流連接關(guān)鍵技術(shù)的研究[D]. 劉新春.中國科學技術(shù)大學 2015

碩士論文
[1]大數(shù)據(jù)流查詢框架與算子算法研究[D]. 蔣晨晨.南京郵電大學 2016
[2]智能電網(wǎng)大數(shù)據(jù)實時流處理方法研究[D]. 楊力平.華北電力大學 2016
[3]基于Spark Streaming的試驗數(shù)據(jù)處理系統(tǒng)的研究與實現(xiàn)[D]. 李天喜.西安電子科技大學 2015
[4]數(shù)據(jù)流窗口連接與相關(guān)性分析研究[D]. 王志杰.寧波大學 2012
[5]基于MapReduce的數(shù)據(jù)聚集運算算法研究與實現(xiàn)[D]. 高偉.東北大學 2010
[6]數(shù)據(jù)流多連接查詢算法研究[D]. 程亮.南京航空航天大學 2008



本文編號:3293064

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3293064.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶53824***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com