基于關(guān)鍵列分組排序的列存儲(chǔ)結(jié)構(gòu)
本文關(guān)鍵詞:基于關(guān)鍵列分組排序的列存儲(chǔ)結(jié)構(gòu)
更多相關(guān)文章: Hadoop 列存儲(chǔ) 組排序 大數(shù)據(jù)
【摘要】:磁盤(pán)作為海量數(shù)據(jù)的主要存儲(chǔ)介質(zhì),具有容量大、成本低的優(yōu)點(diǎn),但是磁盤(pán)IO帶寬遠(yuǎn)遠(yuǎn)落后于數(shù)據(jù)增長(zhǎng)速度,日益成為大數(shù)據(jù)管理系統(tǒng)的性能瓶頸。因此,優(yōu)化存儲(chǔ)結(jié)構(gòu)、提高讀寫(xiě)效率是大數(shù)據(jù)時(shí)代管理系統(tǒng)面臨的重要挑戰(zhàn)。提出了一種基于關(guān)鍵列分組排序的混合列存儲(chǔ)結(jié)構(gòu)KCGS-Store,根據(jù)關(guān)鍵列分組將關(guān)系表劃分為存儲(chǔ)池,確保池內(nèi)所有記錄在關(guān)鍵列上的取值或取值范圍相同,然后逐列進(jìn)行池合并。合并后的關(guān)鍵列,以池為單位有序排列,執(zhí)行條件查詢時(shí)能夠有效過(guò)濾無(wú)關(guān)列值,減少數(shù)據(jù)讀取量,提升查詢性能。同時(shí)利用池號(hào)索引,以少量時(shí)間空間代價(jià)完成記錄重組。實(shí)驗(yàn)數(shù)據(jù)表明,與ORCFile、Parquet存儲(chǔ)結(jié)構(gòu)相比,KCGS-STORE在存儲(chǔ)空間、數(shù)據(jù)加載、SQL查詢等方面都有不同程度的優(yōu)化。
【作者單位】: 清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系;
【基金】:國(guó)家自然科學(xué)基金(61373025,61303002)
【分類(lèi)號(hào)】:TP311.13;TP333
【正文快照】: 1引言大數(shù)據(jù)時(shí)代,符合關(guān)系模型的結(jié)構(gòu)化數(shù)據(jù)也在不斷增長(zhǎng),達(dá)到PB級(jí)甚至更大規(guī)模。如此龐大的數(shù)據(jù)集很難全部加載到內(nèi)存進(jìn)行處理,建立索引、倒排表等輔助查詢結(jié)構(gòu)的成本也異常昂貴。根據(jù)Jacobs[1]的測(cè)試結(jié)果,8塊15 000RPM SAS硬盤(pán)組成RAID5,順序讀速度為212MB/s,讀取10TB關(guān)系表
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 寇斌;圖在計(jì)算機(jī)中的存儲(chǔ)結(jié)構(gòu)[J];信陽(yáng)農(nóng)業(yè)高等專(zhuān)科學(xué)校學(xué)報(bào);2002年01期
2 尹葉青;三叉樹(shù)存儲(chǔ)結(jié)構(gòu)分析比較[J];廣西民族學(xué)院學(xué)報(bào)(自然科學(xué)版);2003年02期
3 周海巖;三叉樹(shù)的一種新存儲(chǔ)結(jié)構(gòu)[J];太原理工大學(xué)學(xué)報(bào);1999年01期
4 黃橡麗,王威,王兵;樹(shù)的一種新存儲(chǔ)結(jié)構(gòu)[J];天津紡織工學(xué)院學(xué)報(bào);1997年04期
5 范年柏,蔣盛益;一種樹(shù)的存儲(chǔ)結(jié)構(gòu)[J];湖南大學(xué)學(xué)報(bào)(自然科學(xué)版);2000年01期
6 姜文志;柳玉;程紹成;;存儲(chǔ)結(jié)構(gòu)的對(duì)象仿真及其應(yīng)用[J];微計(jì)算機(jī)信息;2006年34期
7 果建民;;存儲(chǔ)結(jié)構(gòu)對(duì)比分析及選型建議[J];廣播電視信息;2010年03期
8 王海文;羅明山;;一種改進(jìn)的圖存儲(chǔ)結(jié)構(gòu)的實(shí)現(xiàn)及性能分析[J];大眾科技;2012年05期
9 宋志平,李應(yīng)紅,屈裕安;大型有向圖的三叉鏈表式存儲(chǔ)結(jié)構(gòu)[J];計(jì)算機(jī)工程與應(yīng)用;2002年21期
10 毛國(guó)君,楊滌非;一種三叉樹(shù)的存儲(chǔ)結(jié)構(gòu)及其基本操作的實(shí)現(xiàn)[J];計(jì)算機(jī)研究與發(fā)展;1994年05期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前3條
1 謝鵬;黃立波;錢(qián)程;王志英;;通用CPU存儲(chǔ)結(jié)構(gòu)的流處理擴(kuò)展設(shè)計(jì)[A];第十六屆計(jì)算機(jī)工程與工藝年會(huì)暨第二屆微處理器技術(shù)論壇論文集[C];2012年
2 謝劍薇;劉濤;;一種基于容器存儲(chǔ)結(jié)構(gòu)的空間柵格數(shù)據(jù)管理方法[A];虛擬運(yùn)營(yíng)與云計(jì)算——第十八屆全國(guó)青年通信學(xué)術(shù)年會(huì)論文集(上冊(cè))[C];2013年
3 李曉光;喬文;宋寶燕;于戈;任永功;;一種高效的基于圖的MLCA求解方法[A];第二十五屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(二)[C];2008年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前1條
1 陳智罡;棧的復(fù)習(xí)要點(diǎn)[N];中國(guó)電腦教育報(bào);2003年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 謝應(yīng)科;SAR高分辨率實(shí)時(shí)成像系統(tǒng)存儲(chǔ)結(jié)構(gòu)研究[D];中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所);2000年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前5條
1 傅立國(guó);面向分布存儲(chǔ)結(jié)構(gòu)的通信生成及代價(jià)評(píng)估技術(shù)研究[D];解放軍信息工程大學(xué);2014年
2 許諾;數(shù)據(jù)分級(jí)存儲(chǔ)結(jié)構(gòu)與算法研究[D];昆明理工大學(xué);2010年
3 王玉;多核處理器下三維片上存儲(chǔ)結(jié)構(gòu)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2011年
4 王炯;SAN存儲(chǔ)結(jié)構(gòu)在網(wǎng)管系統(tǒng)中的應(yīng)用研究[D];重慶大學(xué);2004年
5 馬學(xué)聰;基于閃存的濃縮數(shù)據(jù)立方存儲(chǔ)研究[D];華中科技大學(xué);2011年
,本文編號(hào):1250629
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/1250629.html