面向日志結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的高效數(shù)據(jù)加載
發(fā)布時(shí)間:2021-01-14 18:24
近年來,隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,無論是互聯(lián)網(wǎng)企業(yè)還是傳統(tǒng)的金融機(jī)構(gòu),用戶量和業(yè)務(wù)處理數(shù)據(jù)量都在快速地增長(zhǎng).傳統(tǒng)的通過增加服務(wù)器并采用基于分庫(kù)分表的方法來解決擴(kuò)展性問題,需要大量的人工維護(hù)成本和硬件開銷.為降低開銷和分庫(kù)分表帶來的各種問題,業(yè)界通常用新型數(shù)據(jù)庫(kù)系統(tǒng)替換原有的系統(tǒng),其中,基于日志結(jié)構(gòu)合并樹存儲(chǔ)的數(shù)據(jù)庫(kù)系統(tǒng)(如OceanBase)被廣泛采用,這類系統(tǒng)磁盤上存儲(chǔ)數(shù)據(jù)塊呈現(xiàn)全局有序的特征.在從傳統(tǒng)數(shù)據(jù)庫(kù)切換到新型數(shù)據(jù)庫(kù)過程中,需要將大量數(shù)據(jù)加載到新數(shù)據(jù)庫(kù)系統(tǒng)中,長(zhǎng)時(shí)間加載的過程中可能出現(xiàn)數(shù)據(jù)庫(kù)節(jié)點(diǎn)宕機(jī).為了減少總加載時(shí)間和故障恢復(fù)時(shí)間,提出了一種負(fù)載均衡且支持高效容錯(cuò)的數(shù)據(jù)加載方法;為了支持負(fù)載均衡的數(shù)據(jù)加載,與預(yù)確定分區(qū)劃分?jǐn)?shù)據(jù)的方法不同,考慮到目標(biāo)系統(tǒng)默認(rèn)存儲(chǔ)塊大小,采用通過基于文件大小和目標(biāo)系統(tǒng)默認(rèn)存儲(chǔ)塊大小預(yù)計(jì)算分區(qū)數(shù)目,并利用分庫(kù)分表的數(shù)據(jù)導(dǎo)出往往已經(jīng)排序的特點(diǎn),采用選取部分采樣塊和等間隔選取樣本的方式確定分區(qū)之間的切分點(diǎn),避免了全局采樣和隨機(jī)或頭部樣本選取方式確定切分點(diǎn)帶來的高開銷;為了加快故障恢復(fù)速度,利用日志結(jié)構(gòu)合并樹存儲(chǔ)系統(tǒng)的多備份減少故障恢復(fù)時(shí)的數(shù)據(jù)量,提出...
【文章來源】:華東師范大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019,(05)北大核心
【文章頁(yè)數(shù)】:16 頁(yè)
【部分圖文】:
圖2?#于戈件的加載過程??Fig.?2?File-based?loading?process??
第5期??�。吆�?面向日志讀構(gòu)化數(shù)掘春儲(chǔ)德高效_振_載??149??而使每個(gè)分區(qū)處理的數(shù)據(jù)童都相對(duì)比較均勻.,獲得比較好的負(fù)載均衡.然而,全局采樣的開??銷通常比較離f本文采用一種選部分塊進(jìn)行采樣的方法,本文稱這種方法為部分采樣.選取??部分?jǐn)?shù)據(jù)塊采樣會(huì)導(dǎo)致確定的切分點(diǎn)不是很精確,進(jìn)而導(dǎo)致每個(gè)分區(qū)實(shí)際處理的數(shù)據(jù)量不??是很均勻,即太小在blockSize左右波動(dòng).在這種情況下,導(dǎo)致有些分,區(qū)處理的數(shù)據(jù)量比較多,??進(jìn)而使該分區(qū)所在的笮點(diǎn)執(zhí)行數(shù)據(jù)格式轉(zhuǎn)換時(shí)需要更長(zhǎng)的執(zhí)行時(shí)間,在加載到存儲(chǔ)系統(tǒng)系??統(tǒng)中時(shí),可能還需要額外的I/O開銷將大分區(qū)的數(shù)據(jù)進(jìn)行分裂;而有些分區(qū)處理的數(shù)據(jù)量比??較少,執(zhí)行完數(shù)據(jù)格式轉(zhuǎn)換任務(wù)需要等待執(zhí)行時(shí)間長(zhǎng)的任務(wù)完成.為了使每個(gè)分區(qū)處理的數(shù)??據(jù)量小于_于blOCkSiZe,本文在第2.1節(jié)設(shè)置分區(qū)數(shù)目的基礎(chǔ)上加上1個(gè)增量值t因此,在??部分采樣下,用公式??_?^?.?.?「fileSize?…??numOiPartition?=?— ̄ ̄—;——十?e?(2)??blockSize??來近似估算分區(qū)數(shù)目,式(2)中,g是一個(gè)比較小的值,e值的大小取決子采樣的精確度,??采樣的塊數(shù)越多,采樣的精確度越高,采樣開銷也越太,所以采樣的塊數(shù)和采樣的精確??性之間存在一個(gè)權(quán)衡.一般采樣的塊數(shù)越多,最終確鉅的切分點(diǎn)越精確,每個(gè)分匡處理的數(shù)??據(jù)也越均勻,因此S的取值就越��;反之,采樣的塊數(shù)越少,確定的切分點(diǎn)相對(duì)就不是糧精確,??就會(huì)導(dǎo)致每個(gè)分區(qū)處理的數(shù)據(jù)董本均勻,出現(xiàn)數(shù)據(jù)量過大或過小的分良則可通過增大s來'??增加分區(qū)的數(shù)目,進(jìn)而在一定程度來減少過大或過小分區(qū)的出現(xiàn),使每個(gè)分區(qū)處理的數(shù)據(jù)鷲??小子等于=
第5期??�。吆�?面向日志讀構(gòu)化數(shù)掘春儲(chǔ)德高效_振_載??155??^采樣?轉(zhuǎn)換?加載??15??.驗(yàn)采樣對(duì)加栽性能影??Fig.?7?Effect?of?partial?sampling?on?loading??表2為在不同采樣比例情況下甚取不同值時(shí)的總加載時(shí)間.從表2中可以看出,隨著采樣??比例的減少,由于減少了采樣開銷,從而提麄了加載的性能.但實(shí)驗(yàn)中發(fā)現(xiàn),當(dāng)采樣比例減少到??一定值時(shí),如1/5,??已經(jīng)裉難得到一個(gè)相對(duì)精確的采樣值,通過增大s值也很難使分謹(jǐn)數(shù)據(jù)相對(duì)??均衡篇小于等于存儲(chǔ)系統(tǒng)默認(rèn)存儲(chǔ)塊大�。送猓瑢�(duì)子^的采樣比例,存在一個(gè)優(yōu)化的g,使得??可以獲得相對(duì)較優(yōu)的加載性能.??圖7為對(duì)應(yīng)部分采樣比例為1/4下最優(yōu)的加載性能與全烏采樣方法(即采樣比例為1).在??從圖6的右圖可珙看出,在不同數(shù)據(jù)量的情況下,采用預(yù)確定分區(qū)數(shù)目的方法設(shè)置分區(qū)??數(shù)目等于f標(biāo)系統(tǒng)存儲(chǔ)智點(diǎn)的數(shù)寶丨即7),而對(duì)寧采用預(yù)計(jì)算分區(qū)數(shù)目的方法設(shè)査分區(qū)數(shù)目??為「ffleSizyblockSize].當(dāng)數(shù)擬漏象小時(shí),如1GB,,「fileSize/bloekSize'(小于?,由:于預(yù)翁走分??區(qū)方法的并行度更魏所以預(yù)確定分區(qū)數(shù)目:方法的加載性能優(yōu)于預(yù)計(jì)算分區(qū)數(shù)但隨鮝數(shù)??據(jù)量的增大,相比采甩預(yù)確定分區(qū)數(shù)目的加載方法,預(yù)計(jì)算分區(qū)數(shù)薛的加載方法由于并行度??更高而獲得更好的加載性能.因此,當(dāng)加載數(shù)華量1:較大時(shí),采用預(yù)計(jì)算分區(qū)數(shù)目的加載方??法性能比采用預(yù)確定分麗數(shù)目的方法更好.??4.3.2劃分切分點(diǎn)對(duì)加載性能的暴響??在前面的實(shí)驗(yàn)中,為了使各個(gè)分區(qū)盡可能比較均衡分區(qū)大小小于等于貝標(biāo)存儲(chǔ)系統(tǒng)??的默認(rèn)存儲(chǔ)塊大小,采用了對(duì)數(shù)據(jù)源進(jìn)行全局
本文編號(hào):2977314
【文章來源】:華東師范大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019,(05)北大核心
【文章頁(yè)數(shù)】:16 頁(yè)
【部分圖文】:
圖2?#于戈件的加載過程??Fig.?2?File-based?loading?process??
第5期??�。吆�?面向日志讀構(gòu)化數(shù)掘春儲(chǔ)德高效_振_載??149??而使每個(gè)分區(qū)處理的數(shù)據(jù)童都相對(duì)比較均勻.,獲得比較好的負(fù)載均衡.然而,全局采樣的開??銷通常比較離f本文采用一種選部分塊進(jìn)行采樣的方法,本文稱這種方法為部分采樣.選取??部分?jǐn)?shù)據(jù)塊采樣會(huì)導(dǎo)致確定的切分點(diǎn)不是很精確,進(jìn)而導(dǎo)致每個(gè)分區(qū)實(shí)際處理的數(shù)據(jù)量不??是很均勻,即太小在blockSize左右波動(dòng).在這種情況下,導(dǎo)致有些分,區(qū)處理的數(shù)據(jù)量比較多,??進(jìn)而使該分區(qū)所在的笮點(diǎn)執(zhí)行數(shù)據(jù)格式轉(zhuǎn)換時(shí)需要更長(zhǎng)的執(zhí)行時(shí)間,在加載到存儲(chǔ)系統(tǒng)系??統(tǒng)中時(shí),可能還需要額外的I/O開銷將大分區(qū)的數(shù)據(jù)進(jìn)行分裂;而有些分區(qū)處理的數(shù)據(jù)量比??較少,執(zhí)行完數(shù)據(jù)格式轉(zhuǎn)換任務(wù)需要等待執(zhí)行時(shí)間長(zhǎng)的任務(wù)完成.為了使每個(gè)分區(qū)處理的數(shù)??據(jù)量小于_于blOCkSiZe,本文在第2.1節(jié)設(shè)置分區(qū)數(shù)目的基礎(chǔ)上加上1個(gè)增量值t因此,在??部分采樣下,用公式??_?^?.?.?「fileSize?…??numOiPartition?=?— ̄ ̄—;——十?e?(2)??blockSize??來近似估算分區(qū)數(shù)目,式(2)中,g是一個(gè)比較小的值,e值的大小取決子采樣的精確度,??采樣的塊數(shù)越多,采樣的精確度越高,采樣開銷也越太,所以采樣的塊數(shù)和采樣的精確??性之間存在一個(gè)權(quán)衡.一般采樣的塊數(shù)越多,最終確鉅的切分點(diǎn)越精確,每個(gè)分匡處理的數(shù)??據(jù)也越均勻,因此S的取值就越��;反之,采樣的塊數(shù)越少,確定的切分點(diǎn)相對(duì)就不是糧精確,??就會(huì)導(dǎo)致每個(gè)分區(qū)處理的數(shù)據(jù)董本均勻,出現(xiàn)數(shù)據(jù)量過大或過小的分良則可通過增大s來'??增加分區(qū)的數(shù)目,進(jìn)而在一定程度來減少過大或過小分區(qū)的出現(xiàn),使每個(gè)分區(qū)處理的數(shù)據(jù)鷲??小子等于=
第5期??�。吆�?面向日志讀構(gòu)化數(shù)掘春儲(chǔ)德高效_振_載??155??^采樣?轉(zhuǎn)換?加載??15??.驗(yàn)采樣對(duì)加栽性能影??Fig.?7?Effect?of?partial?sampling?on?loading??表2為在不同采樣比例情況下甚取不同值時(shí)的總加載時(shí)間.從表2中可以看出,隨著采樣??比例的減少,由于減少了采樣開銷,從而提麄了加載的性能.但實(shí)驗(yàn)中發(fā)現(xiàn),當(dāng)采樣比例減少到??一定值時(shí),如1/5,??已經(jīng)裉難得到一個(gè)相對(duì)精確的采樣值,通過增大s值也很難使分謹(jǐn)數(shù)據(jù)相對(duì)??均衡篇小于等于存儲(chǔ)系統(tǒng)默認(rèn)存儲(chǔ)塊大�。送猓瑢�(duì)子^的采樣比例,存在一個(gè)優(yōu)化的g,使得??可以獲得相對(duì)較優(yōu)的加載性能.??圖7為對(duì)應(yīng)部分采樣比例為1/4下最優(yōu)的加載性能與全烏采樣方法(即采樣比例為1).在??從圖6的右圖可珙看出,在不同數(shù)據(jù)量的情況下,采用預(yù)確定分區(qū)數(shù)目的方法設(shè)置分區(qū)??數(shù)目等于f標(biāo)系統(tǒng)存儲(chǔ)智點(diǎn)的數(shù)寶丨即7),而對(duì)寧采用預(yù)計(jì)算分區(qū)數(shù)目的方法設(shè)査分區(qū)數(shù)目??為「ffleSizyblockSize].當(dāng)數(shù)擬漏象小時(shí),如1GB,,「fileSize/bloekSize'(小于?,由:于預(yù)翁走分??區(qū)方法的并行度更魏所以預(yù)確定分區(qū)數(shù)目:方法的加載性能優(yōu)于預(yù)計(jì)算分區(qū)數(shù)但隨鮝數(shù)??據(jù)量的增大,相比采甩預(yù)確定分區(qū)數(shù)目的加載方法,預(yù)計(jì)算分區(qū)數(shù)薛的加載方法由于并行度??更高而獲得更好的加載性能.因此,當(dāng)加載數(shù)華量1:較大時(shí),采用預(yù)計(jì)算分區(qū)數(shù)目的加載方??法性能比采用預(yù)確定分麗數(shù)目的方法更好.??4.3.2劃分切分點(diǎn)對(duì)加載性能的暴響??在前面的實(shí)驗(yàn)中,為了使各個(gè)分區(qū)盡可能比較均衡分區(qū)大小小于等于貝標(biāo)存儲(chǔ)系統(tǒng)??的默認(rèn)存儲(chǔ)塊大小,采用了對(duì)數(shù)據(jù)源進(jìn)行全局
本文編號(hào):2977314
本文鏈接:http://sikaile.net/jingjilunwen/guojijinrong/2977314.html
最近更新
教材專著