面向大數(shù)據(jù)流的分布式B+樹(shù)索引構(gòu)建
發(fā)布時(shí)間:2021-02-14 06:42
隨著大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)的產(chǎn)生及其應(yīng)用方式更加多元化。數(shù)據(jù)流是一種特殊的大數(shù)據(jù)形態(tài),具有實(shí)時(shí)性、無(wú)限性、突發(fā)性等特點(diǎn),在眾多領(lǐng)域有著廣泛的應(yīng)用,具有很高的價(jià)值。然而,數(shù)據(jù)流的流速快且數(shù)據(jù)量巨大,其在實(shí)時(shí)處理、存儲(chǔ)和查詢等方面都存在很大的挑戰(zhàn)。對(duì)此,本文提出了一種適用于數(shù)據(jù)流場(chǎng)景的分布式索引結(jié)構(gòu),其能支持?jǐn)?shù)據(jù)流的高效存儲(chǔ)與查詢。本文貢獻(xiàn)如下:1.提出了一種適用于大數(shù)據(jù)流場(chǎng)景的分布式B+樹(shù)索引結(jié)構(gòu):WB-Index。WB-Index是一種雙層的主從索引結(jié)構(gòu),其利用時(shí)間窗口機(jī)制切分?jǐn)?shù)據(jù)流。在每個(gè)時(shí)間窗口內(nèi),根據(jù)流元組內(nèi)容構(gòu)建B+樹(shù)索引作為底層索引,針對(duì)各連續(xù)時(shí)間窗口,以時(shí)間窗口起始時(shí)間戳作為“Key”值,時(shí)間窗口對(duì)應(yīng)底層索引元信息作為“Value”值構(gòu)建頂層B+樹(shù)索引。WB-Index將底層索引分發(fā)到多個(gè)節(jié)點(diǎn)來(lái)減輕索引維護(hù)壓力。WB-Index系統(tǒng)架構(gòu)中,通過(guò)多種節(jié)點(diǎn)類型將流元組存儲(chǔ)、索引構(gòu)建和查詢請(qǐng)求分離,從而滿足數(shù)據(jù)流的高效存儲(chǔ)與查詢。2.針對(duì)WB-Index索引結(jié)構(gòu),提出了高效的索引構(gòu)建方法。由于數(shù)據(jù)流流速快,索引的構(gòu)建效率至關(guān)重要。針對(duì)底層索引,提出基于并行排序的預(yù)裝載B+樹(shù)批量構(gòu)...
【文章來(lái)源】:浙江工業(yè)大學(xué)浙江省
【文章頁(yè)數(shù)】:82 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
不同流元組數(shù)量下排序線程數(shù)量對(duì)排序性能的影響
圖 4-6 不同流元組數(shù)量下排序線程數(shù)量對(duì)排序性能的影響re 4-6. Sort delay vs. the number of threads in different amount of tupl果如圖 4-6 所示,當(dāng)數(shù)據(jù)量較小時(shí),單線程排序性能優(yōu)于多線據(jù)量達(dá)到一定量級(jí)后,并行排序才會(huì)具有優(yōu)勢(shì)。此外,當(dāng)線程后,隨著線程數(shù)量的增加,最終的排序時(shí)間反而會(huì)增加,這是量會(huì)導(dǎo)致最后歸并排序時(shí)長(zhǎng)增加,也會(huì)增加線程切換的時(shí)間開(kāi)節(jié)的理論分析結(jié)論。由實(shí)驗(yàn)結(jié)果可得,當(dāng)數(shù)據(jù)量為 100 萬(wàn)和 1程排序的性能最優(yōu)。 小節(jié)分析可得,底層 B+樹(shù)索引構(gòu)建過(guò)程中,在窗口數(shù)量、排定的情況下,分片數(shù) NSlice會(huì)影響構(gòu)建時(shí)延。本實(shí)驗(yàn)評(píng)估了分樹(shù)索引的構(gòu)建時(shí)延的影響。實(shí)驗(yàn)也對(duì)比了底層索引構(gòu)建過(guò)程中B+樹(shù)骨架構(gòu)建+預(yù)裝載時(shí)間、B+樹(shù)賦值時(shí)間的占比情況。實(shí)驗(yàn) 20 秒,窗口數(shù)據(jù)量為 2000 萬(wàn)條,即模擬的數(shù)據(jù)流平均流速為
浙江工業(yè)大學(xué)碩士學(xué)位論文結(jié)果如圖 4-7 所示,底層索引的構(gòu)建時(shí)延隨著分片數(shù)的增加有著,這符合 4.2 小節(jié)中理論計(jì)算得出的結(jié)論。當(dāng)分片數(shù)量超過(guò) 25構(gòu)建時(shí)延基本穩(wěn)定,且在分片數(shù)為 35 左右時(shí)構(gòu)建時(shí)延達(dá)到最小中,排序時(shí)延占構(gòu)建時(shí)延的 70%~80%的左右,其他階段的時(shí)間固定,這也證明了排序時(shí)延直接決定了構(gòu)建時(shí)延。對(duì)于索引構(gòu)高性能服務(wù)器,通過(guò)提高排序性能來(lái)減少構(gòu)建時(shí)延。流具有波動(dòng)性,每個(gè)時(shí)間窗口的數(shù)據(jù)量存在較大的差異。本實(shí)驗(yàn)速的數(shù)據(jù)流來(lái)考察底層索引的構(gòu)建性能。相比于傳統(tǒng)的 B+樹(shù)批提方法通過(guò)預(yù)排序和增加構(gòu)建并行度的方法來(lái)提高構(gòu)建效率,同數(shù)據(jù)流流速下兩種 B+樹(shù)構(gòu)建方法的性能。實(shí)驗(yàn)中設(shè)置的窗口片數(shù)量設(shè)置為 35。
【參考文獻(xiàn)】:
期刊論文
[1]一種面向HDFS的多層索引技術(shù)[J]. 何龍,陳晉川,杜小勇. 軟件學(xué)報(bào). 2017(03)
[2]面向大數(shù)據(jù)的分布式流處理技術(shù)綜述[J]. 張鵬,李鵬霄,任彥,林海倫,楊嶸,鄭超. 計(jì)算機(jī)研究與發(fā)展. 2014(S2)
[3]大數(shù)據(jù)流式計(jì)算:關(guān)鍵技術(shù)及系統(tǒng)實(shí)例[J]. 孫大為,張廣艷,鄭緯民. 軟件學(xué)報(bào). 2014(04)
[4]列存儲(chǔ)數(shù)據(jù)庫(kù)關(guān)鍵技術(shù)綜述[J]. 李超,張明博,邢春曉,胡勁松. 計(jì)算機(jī)科學(xué). 2010(12)
[5]流數(shù)據(jù)分析與管理綜述[J]. 金澈清,錢(qián)衛(wèi)寧,周傲英. 軟件學(xué)報(bào). 2004(08)
本文編號(hào):3033288
【文章來(lái)源】:浙江工業(yè)大學(xué)浙江省
【文章頁(yè)數(shù)】:82 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
不同流元組數(shù)量下排序線程數(shù)量對(duì)排序性能的影響
圖 4-6 不同流元組數(shù)量下排序線程數(shù)量對(duì)排序性能的影響re 4-6. Sort delay vs. the number of threads in different amount of tupl果如圖 4-6 所示,當(dāng)數(shù)據(jù)量較小時(shí),單線程排序性能優(yōu)于多線據(jù)量達(dá)到一定量級(jí)后,并行排序才會(huì)具有優(yōu)勢(shì)。此外,當(dāng)線程后,隨著線程數(shù)量的增加,最終的排序時(shí)間反而會(huì)增加,這是量會(huì)導(dǎo)致最后歸并排序時(shí)長(zhǎng)增加,也會(huì)增加線程切換的時(shí)間開(kāi)節(jié)的理論分析結(jié)論。由實(shí)驗(yàn)結(jié)果可得,當(dāng)數(shù)據(jù)量為 100 萬(wàn)和 1程排序的性能最優(yōu)。 小節(jié)分析可得,底層 B+樹(shù)索引構(gòu)建過(guò)程中,在窗口數(shù)量、排定的情況下,分片數(shù) NSlice會(huì)影響構(gòu)建時(shí)延。本實(shí)驗(yàn)評(píng)估了分樹(shù)索引的構(gòu)建時(shí)延的影響。實(shí)驗(yàn)也對(duì)比了底層索引構(gòu)建過(guò)程中B+樹(shù)骨架構(gòu)建+預(yù)裝載時(shí)間、B+樹(shù)賦值時(shí)間的占比情況。實(shí)驗(yàn) 20 秒,窗口數(shù)據(jù)量為 2000 萬(wàn)條,即模擬的數(shù)據(jù)流平均流速為
浙江工業(yè)大學(xué)碩士學(xué)位論文結(jié)果如圖 4-7 所示,底層索引的構(gòu)建時(shí)延隨著分片數(shù)的增加有著,這符合 4.2 小節(jié)中理論計(jì)算得出的結(jié)論。當(dāng)分片數(shù)量超過(guò) 25構(gòu)建時(shí)延基本穩(wěn)定,且在分片數(shù)為 35 左右時(shí)構(gòu)建時(shí)延達(dá)到最小中,排序時(shí)延占構(gòu)建時(shí)延的 70%~80%的左右,其他階段的時(shí)間固定,這也證明了排序時(shí)延直接決定了構(gòu)建時(shí)延。對(duì)于索引構(gòu)高性能服務(wù)器,通過(guò)提高排序性能來(lái)減少構(gòu)建時(shí)延。流具有波動(dòng)性,每個(gè)時(shí)間窗口的數(shù)據(jù)量存在較大的差異。本實(shí)驗(yàn)速的數(shù)據(jù)流來(lái)考察底層索引的構(gòu)建性能。相比于傳統(tǒng)的 B+樹(shù)批提方法通過(guò)預(yù)排序和增加構(gòu)建并行度的方法來(lái)提高構(gòu)建效率,同數(shù)據(jù)流流速下兩種 B+樹(shù)構(gòu)建方法的性能。實(shí)驗(yàn)中設(shè)置的窗口片數(shù)量設(shè)置為 35。
【參考文獻(xiàn)】:
期刊論文
[1]一種面向HDFS的多層索引技術(shù)[J]. 何龍,陳晉川,杜小勇. 軟件學(xué)報(bào). 2017(03)
[2]面向大數(shù)據(jù)的分布式流處理技術(shù)綜述[J]. 張鵬,李鵬霄,任彥,林海倫,楊嶸,鄭超. 計(jì)算機(jī)研究與發(fā)展. 2014(S2)
[3]大數(shù)據(jù)流式計(jì)算:關(guān)鍵技術(shù)及系統(tǒng)實(shí)例[J]. 孫大為,張廣艷,鄭緯民. 軟件學(xué)報(bào). 2014(04)
[4]列存儲(chǔ)數(shù)據(jù)庫(kù)關(guān)鍵技術(shù)綜述[J]. 李超,張明博,邢春曉,胡勁松. 計(jì)算機(jī)科學(xué). 2010(12)
[5]流數(shù)據(jù)分析與管理綜述[J]. 金澈清,錢(qián)衛(wèi)寧,周傲英. 軟件學(xué)報(bào). 2004(08)
本文編號(hào):3033288
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3033288.html
最近更新
教材專著