面向HTAP的大規(guī)模分布式數(shù)據(jù)庫混合存儲引擎
發(fā)布時(shí)間:2021-04-06 07:15
隨著互聯(lián)網(wǎng)的飛速發(fā)展,業(yè)務(wù)日趨多樣化,應(yīng)用數(shù)據(jù)海量增長,傳統(tǒng)面向聯(lián)機(jī)分析處理(Online Analytical Processing,OLAP)與傳統(tǒng)面向聯(lián)機(jī)事務(wù)處理(Online Transaction Processing,OLTP)的數(shù)據(jù)庫系統(tǒng)由于架構(gòu)差異和數(shù)據(jù)存儲組織方式的不同而彼此獨(dú)立,無法同時(shí)滿足日益復(fù)雜的業(yè)務(wù)需求,面向混合負(fù)載(Hybrid Transaction/Analytical Processing,HTAP)的數(shù)據(jù)庫應(yīng)運(yùn)而生,成為數(shù)據(jù)庫的主要發(fā)展方向之一。傳統(tǒng)面向OLAP或OLTP的數(shù)據(jù)庫采用單一“列存”或“行存”的存儲方案,無法兼顧兩種數(shù)據(jù)存儲格式的優(yōu)勢(列存能高效地實(shí)現(xiàn)復(fù)雜查詢,行存有利于實(shí)現(xiàn)高效的事務(wù)處理)。由于HTAP既要做聯(lián)機(jī)事務(wù)處理也要做聯(lián)機(jī)分析處理,所以如何設(shè)計(jì)面向HTAP的數(shù)據(jù)存儲策略成為熱門研究課題之一。針對HTAP的應(yīng)用場景,本文討論了分布式HTAP數(shù)據(jù)庫系統(tǒng)框架,存儲引擎數(shù)據(jù)組織格式,以及利用機(jī)器學(xué)習(xí)來優(yōu)化存儲引擎中數(shù)據(jù)存儲布局,以更友好地支持HTAP未來的工作負(fù)載,進(jìn)而提升數(shù)據(jù)庫性能。論文主要完成了三個(gè)方面的工作:1)對時(shí)下業(yè)界熱門的分...
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:80 頁
【學(xué)位級別】:碩士
【部分圖文】:
行存存儲模型
電子科技大學(xué)碩士學(xué)位論文6對于僅僅需要獲取record里面一列數(shù)據(jù)或者部分列數(shù)據(jù)的查詢,比如:selectN_NATIONKEYfromNATIONwhereN_NATIONKEY<3,那么對于每次N_NATIONKEY的遍歷,除了會將一些無用的數(shù)據(jù)一起讀入之外,還會造成每次讀取record都可能會引起cachemiss,例如表NATION行式存儲的page與cache如圖2-2所示。圖2-1行存存儲模型圖2-2NSM的page與cache行存的優(yōu)點(diǎn)主要有:一,適合快速的點(diǎn)插入,點(diǎn)更新和點(diǎn)刪除;二,對于需要訪問全部列的查詢非常友好。行存的主要缺點(diǎn):對需要讀取大量數(shù)據(jù)并訪問部分列的場景并不太友好,所以行存更適合用于事物處理,因?yàn)槭聞?wù)數(shù)據(jù)總是完整行寫進(jìn)來,行存多用于OLTP場景,并不適用于OLAP場景。
第二章相關(guān)技術(shù)與系統(tǒng)72.1.2列存DSM列式存儲DSM[22](DecompositionStorageModel)在很早就已經(jīng)被提出來了,最早是在論文Cantor中提出來的。然而,由于當(dāng)時(shí)的硬件條件比較落后,且應(yīng)用場景基本上都是OLTP,所以很多面向OLTP的數(shù)據(jù)庫系統(tǒng)很多都是采用的行式存儲,直到最近幾年OLAP數(shù)據(jù)庫系統(tǒng)的迅速發(fā)展,列存儲才再一次出現(xiàn)在視線中。DSM主要針對OLAP場景,因?yàn)樾枰獙Χ鄠(gè)特定的column進(jìn)行快速掃描分析,DSM當(dāng)然就不適用于需要頻繁隨機(jī)更新的情況,因?yàn)槿魏螌懭,DSM需要將record分開寫入不同的地方,寫開銷會很大。例如表NATION的列式存儲方式如圖2-3所示。圖2-3列式存儲方式不同于NSM,DSM將數(shù)據(jù)按照不同的attributes分別存放到不同的page里面,對于只需要根據(jù)單獨(dú)某一個(gè)attribute進(jìn)行查詢的情況,會直接讀出page,遍歷處理,這個(gè)對cache非常高效友好。但是,如果一個(gè)查詢會涉及到多個(gè)不同的attributes,那么就可能需要多次IO來組合成最終的tuple。同時(shí),對于寫入,DSM因?yàn)闀䦟⒉煌腶ttributes對應(yīng)的數(shù)據(jù)寫到不同的page,也會造成較多的隨機(jī)IO,如圖2-4所示。所以列存的優(yōu)點(diǎn):其一,只讀取部分列時(shí),可以減少IO;其二,更好的編碼和壓縮,因?yàn)槊苛械臄?shù)據(jù)類型相同;其三,更易于實(shí)現(xiàn)向量化執(zhí)行。列存的缺點(diǎn):不適合隨機(jī)的插入、刪除、更新,因?yàn)槎嗔兄g存在拆分和合并的開銷。列式存儲,就是相同屬性列的數(shù)據(jù)存儲一起,如果需要讀取某列的數(shù)據(jù),只需讀取對應(yīng)頁的數(shù)據(jù),以此減少大量I/O操作。除此之外,由于同一屬性列的數(shù)據(jù)類型都相同,所以方便壓縮,通過對數(shù)據(jù)的壓縮來減少存儲空間。由于同一行中不同屬性列的數(shù)據(jù)可能存儲在不同頁中,所以如果在OLTP的應(yīng)用場景下使用行式存儲,會造成大量的I/O開銷。
【參考文獻(xiàn)】:
期刊論文
[1]基于Reactor與非阻塞IO的服務(wù)端框架設(shè)計(jì)與實(shí)現(xiàn)[J]. 包曉安,聶凡杰,徐璐,張娜,吳彪. 浙江理工大學(xué)學(xué)報(bào)(自然科學(xué)版). 2020(04)
[2]基于Kudu的結(jié)構(gòu)化數(shù)據(jù)存儲方案設(shè)計(jì)分析[J]. 李松濤. 數(shù)字技術(shù)與應(yīng)用. 2019(10)
[3]一種基于LSM樹的鍵值存儲系統(tǒng)性能優(yōu)化方法[J]. 王海濤,李戰(zhàn)懷,張曉,趙曉南. 計(jì)算機(jī)研究與發(fā)展. 2019(08)
[4]Expression and significance of PAX8 gene in ovarian cancer based on Oncomine database Meta-analysis[J]. Kun Yan,Hua Yan,Qin Zhou,Min Wan,Yanyan Ge,Jin Lu. Oncology and Translational Medicine. 2019(04)
[5]云計(jì)算架構(gòu)下Cloud TiDB的技術(shù)奧秘[J]. AP. 電腦知識與技術(shù)(經(jīng)驗(yàn)技巧). 2018(05)
[6]RStore:基于BigTable的關(guān)系數(shù)據(jù)模型存儲系統(tǒng)[J]. 魯鵬凱,江大偉,陳珂,壽黎但,陳剛. 計(jì)算機(jī)科學(xué)與探索. 2018(10)
[7]利用優(yōu)化的DenStream算法進(jìn)行空間數(shù)據(jù)流聚類[J]. 樊超,李宏偉. 測繪與空間地理信息. 2017(04)
[8]基于EPOLL的單進(jìn)程事件驅(qū)動(dòng)通信服務(wù)器設(shè)計(jì)與分析[J]. 段翰聰,盧顯良,宋杰. 計(jì)算機(jī)應(yīng)用. 2004(10)
碩士論文
[1]基于布隆過濾器的Parquet優(yōu)化[D]. 車健.華中科技大學(xué) 2018
本文編號:3121023
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:80 頁
【學(xué)位級別】:碩士
【部分圖文】:
行存存儲模型
電子科技大學(xué)碩士學(xué)位論文6對于僅僅需要獲取record里面一列數(shù)據(jù)或者部分列數(shù)據(jù)的查詢,比如:selectN_NATIONKEYfromNATIONwhereN_NATIONKEY<3,那么對于每次N_NATIONKEY的遍歷,除了會將一些無用的數(shù)據(jù)一起讀入之外,還會造成每次讀取record都可能會引起cachemiss,例如表NATION行式存儲的page與cache如圖2-2所示。圖2-1行存存儲模型圖2-2NSM的page與cache行存的優(yōu)點(diǎn)主要有:一,適合快速的點(diǎn)插入,點(diǎn)更新和點(diǎn)刪除;二,對于需要訪問全部列的查詢非常友好。行存的主要缺點(diǎn):對需要讀取大量數(shù)據(jù)并訪問部分列的場景并不太友好,所以行存更適合用于事物處理,因?yàn)槭聞?wù)數(shù)據(jù)總是完整行寫進(jìn)來,行存多用于OLTP場景,并不適用于OLAP場景。
第二章相關(guān)技術(shù)與系統(tǒng)72.1.2列存DSM列式存儲DSM[22](DecompositionStorageModel)在很早就已經(jīng)被提出來了,最早是在論文Cantor中提出來的。然而,由于當(dāng)時(shí)的硬件條件比較落后,且應(yīng)用場景基本上都是OLTP,所以很多面向OLTP的數(shù)據(jù)庫系統(tǒng)很多都是采用的行式存儲,直到最近幾年OLAP數(shù)據(jù)庫系統(tǒng)的迅速發(fā)展,列存儲才再一次出現(xiàn)在視線中。DSM主要針對OLAP場景,因?yàn)樾枰獙Χ鄠(gè)特定的column進(jìn)行快速掃描分析,DSM當(dāng)然就不適用于需要頻繁隨機(jī)更新的情況,因?yàn)槿魏螌懭,DSM需要將record分開寫入不同的地方,寫開銷會很大。例如表NATION的列式存儲方式如圖2-3所示。圖2-3列式存儲方式不同于NSM,DSM將數(shù)據(jù)按照不同的attributes分別存放到不同的page里面,對于只需要根據(jù)單獨(dú)某一個(gè)attribute進(jìn)行查詢的情況,會直接讀出page,遍歷處理,這個(gè)對cache非常高效友好。但是,如果一個(gè)查詢會涉及到多個(gè)不同的attributes,那么就可能需要多次IO來組合成最終的tuple。同時(shí),對于寫入,DSM因?yàn)闀䦟⒉煌腶ttributes對應(yīng)的數(shù)據(jù)寫到不同的page,也會造成較多的隨機(jī)IO,如圖2-4所示。所以列存的優(yōu)點(diǎn):其一,只讀取部分列時(shí),可以減少IO;其二,更好的編碼和壓縮,因?yàn)槊苛械臄?shù)據(jù)類型相同;其三,更易于實(shí)現(xiàn)向量化執(zhí)行。列存的缺點(diǎn):不適合隨機(jī)的插入、刪除、更新,因?yàn)槎嗔兄g存在拆分和合并的開銷。列式存儲,就是相同屬性列的數(shù)據(jù)存儲一起,如果需要讀取某列的數(shù)據(jù),只需讀取對應(yīng)頁的數(shù)據(jù),以此減少大量I/O操作。除此之外,由于同一屬性列的數(shù)據(jù)類型都相同,所以方便壓縮,通過對數(shù)據(jù)的壓縮來減少存儲空間。由于同一行中不同屬性列的數(shù)據(jù)可能存儲在不同頁中,所以如果在OLTP的應(yīng)用場景下使用行式存儲,會造成大量的I/O開銷。
【參考文獻(xiàn)】:
期刊論文
[1]基于Reactor與非阻塞IO的服務(wù)端框架設(shè)計(jì)與實(shí)現(xiàn)[J]. 包曉安,聶凡杰,徐璐,張娜,吳彪. 浙江理工大學(xué)學(xué)報(bào)(自然科學(xué)版). 2020(04)
[2]基于Kudu的結(jié)構(gòu)化數(shù)據(jù)存儲方案設(shè)計(jì)分析[J]. 李松濤. 數(shù)字技術(shù)與應(yīng)用. 2019(10)
[3]一種基于LSM樹的鍵值存儲系統(tǒng)性能優(yōu)化方法[J]. 王海濤,李戰(zhàn)懷,張曉,趙曉南. 計(jì)算機(jī)研究與發(fā)展. 2019(08)
[4]Expression and significance of PAX8 gene in ovarian cancer based on Oncomine database Meta-analysis[J]. Kun Yan,Hua Yan,Qin Zhou,Min Wan,Yanyan Ge,Jin Lu. Oncology and Translational Medicine. 2019(04)
[5]云計(jì)算架構(gòu)下Cloud TiDB的技術(shù)奧秘[J]. AP. 電腦知識與技術(shù)(經(jīng)驗(yàn)技巧). 2018(05)
[6]RStore:基于BigTable的關(guān)系數(shù)據(jù)模型存儲系統(tǒng)[J]. 魯鵬凱,江大偉,陳珂,壽黎但,陳剛. 計(jì)算機(jī)科學(xué)與探索. 2018(10)
[7]利用優(yōu)化的DenStream算法進(jìn)行空間數(shù)據(jù)流聚類[J]. 樊超,李宏偉. 測繪與空間地理信息. 2017(04)
[8]基于EPOLL的單進(jìn)程事件驅(qū)動(dòng)通信服務(wù)器設(shè)計(jì)與分析[J]. 段翰聰,盧顯良,宋杰. 計(jì)算機(jī)應(yīng)用. 2004(10)
碩士論文
[1]基于布隆過濾器的Parquet優(yōu)化[D]. 車健.華中科技大學(xué) 2018
本文編號:3121023
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3121023.html
最近更新
教材專著