面向大數(shù)據(jù)流的分布式B+樹索引構(gòu)建
發(fā)布時間:2021-02-14 06:42
隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)的產(chǎn)生及其應用方式更加多元化。數(shù)據(jù)流是一種特殊的大數(shù)據(jù)形態(tài),具有實時性、無限性、突發(fā)性等特點,在眾多領域有著廣泛的應用,具有很高的價值。然而,數(shù)據(jù)流的流速快且數(shù)據(jù)量巨大,其在實時處理、存儲和查詢等方面都存在很大的挑戰(zhàn)。對此,本文提出了一種適用于數(shù)據(jù)流場景的分布式索引結(jié)構(gòu),其能支持數(shù)據(jù)流的高效存儲與查詢。本文貢獻如下:1.提出了一種適用于大數(shù)據(jù)流場景的分布式B+樹索引結(jié)構(gòu):WB-Index。WB-Index是一種雙層的主從索引結(jié)構(gòu),其利用時間窗口機制切分數(shù)據(jù)流。在每個時間窗口內(nèi),根據(jù)流元組內(nèi)容構(gòu)建B+樹索引作為底層索引,針對各連續(xù)時間窗口,以時間窗口起始時間戳作為“Key”值,時間窗口對應底層索引元信息作為“Value”值構(gòu)建頂層B+樹索引。WB-Index將底層索引分發(fā)到多個節(jié)點來減輕索引維護壓力。WB-Index系統(tǒng)架構(gòu)中,通過多種節(jié)點類型將流元組存儲、索引構(gòu)建和查詢請求分離,從而滿足數(shù)據(jù)流的高效存儲與查詢。2.針對WB-Index索引結(jié)構(gòu),提出了高效的索引構(gòu)建方法。由于數(shù)據(jù)流流速快,索引的構(gòu)建效率至關重要。針對底層索引,提出基于并行排序的預裝載B+樹批量構(gòu)...
【文章來源】:浙江工業(yè)大學浙江省
【文章頁數(shù)】:82 頁
【學位級別】:碩士
【部分圖文】:
不同流元組數(shù)量下排序線程數(shù)量對排序性能的影響
圖 4-6 不同流元組數(shù)量下排序線程數(shù)量對排序性能的影響re 4-6. Sort delay vs. the number of threads in different amount of tupl果如圖 4-6 所示,當數(shù)據(jù)量較小時,單線程排序性能優(yōu)于多線據(jù)量達到一定量級后,并行排序才會具有優(yōu)勢。此外,當線程后,隨著線程數(shù)量的增加,最終的排序時間反而會增加,這是量會導致最后歸并排序時長增加,也會增加線程切換的時間開節(jié)的理論分析結(jié)論。由實驗結(jié)果可得,當數(shù)據(jù)量為 100 萬和 1程排序的性能最優(yōu)。 小節(jié)分析可得,底層 B+樹索引構(gòu)建過程中,在窗口數(shù)量、排定的情況下,分片數(shù) NSlice會影響構(gòu)建時延。本實驗評估了分樹索引的構(gòu)建時延的影響。實驗也對比了底層索引構(gòu)建過程中B+樹骨架構(gòu)建+預裝載時間、B+樹賦值時間的占比情況。實驗 20 秒,窗口數(shù)據(jù)量為 2000 萬條,即模擬的數(shù)據(jù)流平均流速為
浙江工業(yè)大學碩士學位論文結(jié)果如圖 4-7 所示,底層索引的構(gòu)建時延隨著分片數(shù)的增加有著,這符合 4.2 小節(jié)中理論計算得出的結(jié)論。當分片數(shù)量超過 25構(gòu)建時延基本穩(wěn)定,且在分片數(shù)為 35 左右時構(gòu)建時延達到最小中,排序時延占構(gòu)建時延的 70%~80%的左右,其他階段的時間固定,這也證明了排序時延直接決定了構(gòu)建時延。對于索引構(gòu)高性能服務器,通過提高排序性能來減少構(gòu)建時延。流具有波動性,每個時間窗口的數(shù)據(jù)量存在較大的差異。本實驗速的數(shù)據(jù)流來考察底層索引的構(gòu)建性能。相比于傳統(tǒng)的 B+樹批提方法通過預排序和增加構(gòu)建并行度的方法來提高構(gòu)建效率,同數(shù)據(jù)流流速下兩種 B+樹構(gòu)建方法的性能。實驗中設置的窗口片數(shù)量設置為 35。
【參考文獻】:
期刊論文
[1]一種面向HDFS的多層索引技術(shù)[J]. 何龍,陳晉川,杜小勇. 軟件學報. 2017(03)
[2]面向大數(shù)據(jù)的分布式流處理技術(shù)綜述[J]. 張鵬,李鵬霄,任彥,林海倫,楊嶸,鄭超. 計算機研究與發(fā)展. 2014(S2)
[3]大數(shù)據(jù)流式計算:關鍵技術(shù)及系統(tǒng)實例[J]. 孫大為,張廣艷,鄭緯民. 軟件學報. 2014(04)
[4]列存儲數(shù)據(jù)庫關鍵技術(shù)綜述[J]. 李超,張明博,邢春曉,胡勁松. 計算機科學. 2010(12)
[5]流數(shù)據(jù)分析與管理綜述[J]. 金澈清,錢衛(wèi)寧,周傲英. 軟件學報. 2004(08)
本文編號:3033288
【文章來源】:浙江工業(yè)大學浙江省
【文章頁數(shù)】:82 頁
【學位級別】:碩士
【部分圖文】:
不同流元組數(shù)量下排序線程數(shù)量對排序性能的影響
圖 4-6 不同流元組數(shù)量下排序線程數(shù)量對排序性能的影響re 4-6. Sort delay vs. the number of threads in different amount of tupl果如圖 4-6 所示,當數(shù)據(jù)量較小時,單線程排序性能優(yōu)于多線據(jù)量達到一定量級后,并行排序才會具有優(yōu)勢。此外,當線程后,隨著線程數(shù)量的增加,最終的排序時間反而會增加,這是量會導致最后歸并排序時長增加,也會增加線程切換的時間開節(jié)的理論分析結(jié)論。由實驗結(jié)果可得,當數(shù)據(jù)量為 100 萬和 1程排序的性能最優(yōu)。 小節(jié)分析可得,底層 B+樹索引構(gòu)建過程中,在窗口數(shù)量、排定的情況下,分片數(shù) NSlice會影響構(gòu)建時延。本實驗評估了分樹索引的構(gòu)建時延的影響。實驗也對比了底層索引構(gòu)建過程中B+樹骨架構(gòu)建+預裝載時間、B+樹賦值時間的占比情況。實驗 20 秒,窗口數(shù)據(jù)量為 2000 萬條,即模擬的數(shù)據(jù)流平均流速為
浙江工業(yè)大學碩士學位論文結(jié)果如圖 4-7 所示,底層索引的構(gòu)建時延隨著分片數(shù)的增加有著,這符合 4.2 小節(jié)中理論計算得出的結(jié)論。當分片數(shù)量超過 25構(gòu)建時延基本穩(wěn)定,且在分片數(shù)為 35 左右時構(gòu)建時延達到最小中,排序時延占構(gòu)建時延的 70%~80%的左右,其他階段的時間固定,這也證明了排序時延直接決定了構(gòu)建時延。對于索引構(gòu)高性能服務器,通過提高排序性能來減少構(gòu)建時延。流具有波動性,每個時間窗口的數(shù)據(jù)量存在較大的差異。本實驗速的數(shù)據(jù)流來考察底層索引的構(gòu)建性能。相比于傳統(tǒng)的 B+樹批提方法通過預排序和增加構(gòu)建并行度的方法來提高構(gòu)建效率,同數(shù)據(jù)流流速下兩種 B+樹構(gòu)建方法的性能。實驗中設置的窗口片數(shù)量設置為 35。
【參考文獻】:
期刊論文
[1]一種面向HDFS的多層索引技術(shù)[J]. 何龍,陳晉川,杜小勇. 軟件學報. 2017(03)
[2]面向大數(shù)據(jù)的分布式流處理技術(shù)綜述[J]. 張鵬,李鵬霄,任彥,林海倫,楊嶸,鄭超. 計算機研究與發(fā)展. 2014(S2)
[3]大數(shù)據(jù)流式計算:關鍵技術(shù)及系統(tǒng)實例[J]. 孫大為,張廣艷,鄭緯民. 軟件學報. 2014(04)
[4]列存儲數(shù)據(jù)庫關鍵技術(shù)綜述[J]. 李超,張明博,邢春曉,胡勁松. 計算機科學. 2010(12)
[5]流數(shù)據(jù)分析與管理綜述[J]. 金澈清,錢衛(wèi)寧,周傲英. 軟件學報. 2004(08)
本文編號:3033288
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3033288.html
最近更新
教材專著