增量存儲系統(tǒng)中的高通量并行處理
本文關(guān)鍵詞:增量存儲系統(tǒng)中的高通量并行處理
更多相關(guān)文章: 增量式數(shù)據(jù)存儲 高通量并行數(shù)據(jù)處理 內(nèi)存數(shù)據(jù)索引 混合任務(wù)流 時間連續(xù)性查詢
【摘要】:隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,許多應(yīng)用場景中數(shù)據(jù)產(chǎn)生的速度和規(guī)模都日益上升,以實時股票交易系統(tǒng)為例,每秒鐘都有數(shù)以千計的交易記錄產(chǎn)生,并向數(shù)據(jù)處理系統(tǒng)尋求高效存儲支持;同時,為盡早地檢測并處理潛在的交易風(fēng)險,需要對這些數(shù)據(jù)進(jìn)行實時高效的分析,這也對數(shù)據(jù)處理系統(tǒng)的分析性能提出了更高的要求。除此之外,硬件制造工藝的不斷進(jìn)步從根本上改變了計算機(jī)體系架構(gòu),近年來,配備多核多處理器、大量內(nèi)存的服務(wù)器價格不斷下降,基于NUMA的內(nèi)存訪問機(jī)制也廣泛地應(yīng)用于主流服務(wù)器中。為了應(yīng)對實際應(yīng)用中日益增長的數(shù)據(jù)存儲及處理需求,結(jié)合近年來硬件發(fā)展趨勢,以MonetDB、SAP HANA為例,各類基于內(nèi)存的數(shù)據(jù)處理系統(tǒng)層出不窮,使高效內(nèi)存數(shù)據(jù)處理迅速成為學(xué)術(shù)界和工業(yè)界的研究熱點。盡管已有的大量研究工作都致力于提升集中式內(nèi)存數(shù)據(jù)處理系統(tǒng)的性能,但是由于集中式環(huán)境受限于計算機(jī)有限的處理器數(shù)目及內(nèi)存容量,無法滿足日益增長的海量數(shù)據(jù)分析需求。相較于集中式內(nèi)存數(shù)據(jù)處理系統(tǒng),分布式內(nèi)存數(shù)據(jù)處理系統(tǒng)架構(gòu)于多臺機(jī)器組成的分布式環(huán)境中,享有豐富的計算資源及內(nèi)存空間,無疑更易于滿足日益增長的數(shù)據(jù)分析需求。然而以分布式內(nèi)存數(shù)據(jù)庫為例,在分布式環(huán)境下想要進(jìn)行實時分析必須嚴(yán)格遵循分布式事務(wù)約束,嚴(yán)重制約數(shù)據(jù)分析的性能。本文分析實際應(yīng)用中的數(shù)據(jù)產(chǎn)生模式,專注于研究基于增量式數(shù)據(jù)存儲系統(tǒng)的高通量分布式數(shù)據(jù)處理技術(shù),旨在通過充分利用分布式集群中的各種資源,設(shè)計高通量并行數(shù)據(jù)處理引擎,以提高分布式數(shù)據(jù)處理系統(tǒng)對于混合工作流任務(wù)的處理性能。本文的主要工作及貢獻(xiàn)概括如下:1.在增量式存儲模型下,針對混合工作流任務(wù)(實時數(shù)據(jù)導(dǎo)入、實時時間連續(xù)性查詢分析)設(shè)計提出一種高通量并行數(shù)據(jù)處理引擎,將分布式并發(fā)控制分解為受影響的節(jié)點內(nèi)部集中式并發(fā)控制,降低分布式事務(wù)的處理難度;2.提出新型的分布式內(nèi)存數(shù)據(jù)索引結(jié)構(gòu)ECSB-Trees,用分布式樹簇代替?zhèn)鹘y(tǒng)的集中式樹型索引,通過提高索引結(jié)構(gòu)緩存敏感性、合理組織其內(nèi)部索引鍵值結(jié)點結(jié)構(gòu)、對索引鍵值進(jìn)行壓縮、充分利用計算機(jī)硬件架構(gòu)特性等手段提升索引結(jié)構(gòu)的整體性能,增加引擎數(shù)據(jù)處理吞吐量;3.針對混合工作流任務(wù),引擎通過對底層數(shù)據(jù)索引結(jié)構(gòu)的多版本控制以及copy-on-write式更新,在索引層上實現(xiàn)輕量級并發(fā)控制,從而替代了復(fù)雜的分布式事務(wù);提出維護(hù)不同版本的索引結(jié)構(gòu)的方式來保障時間連續(xù)性查詢結(jié)果集的正確性及完備性,并進(jìn)行沖突可序列化分析,最大化降低混合工作流任務(wù)產(chǎn)生沖突的概率,提高其處理效率;4.規(guī)范化高通量并行數(shù)據(jù)處理引擎頂層提供的任務(wù)接收接口,使其與標(biāo)準(zhǔn)SQL92規(guī)范的SQL解析器實現(xiàn)對接,從而使該處理引擎能夠方便地與現(xiàn)有的分布式數(shù)據(jù)庫系統(tǒng)對接,通過數(shù)據(jù)庫中已有的SQL解析器處理用戶的輸入請求,并將解析結(jié)果發(fā)送給本引擎實現(xiàn)高性能處理;在本文中我們將引擎與分布式內(nèi)存計算原型系統(tǒng)(CLAIMS)集成,作為其數(shù)據(jù)導(dǎo)入及時間連續(xù)性查詢處理模塊。
【學(xué)位授予單位】:華東師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP311.13;TP333
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 章德斌;曹麗君;梁永欣;張忠平;;支持k近鄰查詢的X*樹索引結(jié)構(gòu)[J];計算機(jī)工程與應(yīng)用;2011年05期
2 陳瀟;;SQL Server中索引的建立與分析[J];科技信息;2012年36期
3 汪衛(wèi),謝閩峰,陶春,施伯樂;集合索引結(jié)構(gòu)及其聯(lián)接操作[J];軟件學(xué)報;2004年11期
4 唐繼勇;白新躍;楊峰;何建;;基于DPB~+-Tree的索引復(fù)制策略研究[J];計算機(jī)科學(xué);2005年11期
5 江崇禮,劉天建,董明;一種新的空間數(shù)據(jù)庫索引結(jié)構(gòu)[J];大連理工大學(xué)學(xué)報;2004年05期
6 陳海永;劉良旭;;一種基于公路網(wǎng)絡(luò)的高效更新索引結(jié)構(gòu)[J];杭州電子科技大學(xué)學(xué)報;2008年03期
7 莊毅;莊越挺;吳飛;;一種支持海量跨媒體檢索的集成索引結(jié)構(gòu)[J];軟件學(xué)報;2008年10期
8 劉潤濤;郝忠孝;;一種極小化交疊空間數(shù)據(jù)索引結(jié)構(gòu)[J];哈爾濱工程大學(xué)學(xué)報;2009年08期
9 周學(xué)海,李曦,龔育昌,趙振西,徐海燕;多維向量動態(tài)索引結(jié)構(gòu)研究[J];軟件學(xué)報;2002年04期
10 曹蘇華;Informix-Online中的索引策略[J];中國金融電腦;2002年01期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 汪衛(wèi);王勇;王宇君;施伯樂;;一維動態(tài)區(qū)間索引結(jié)構(gòu)[A];數(shù)據(jù)庫研究進(jìn)展97——第十四屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(上)[C];1997年
2 曹奎;馮玉才;袁芳;;一種支持基于內(nèi)容的圖像檢索的多維索引結(jié)構(gòu)[A];第十八屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2001年
3 劉顯敏;李建中;王宏志;劉雨洋;駱吉洲;;SAJ:以最小化空間代價為目標(biāo)的F&B索引構(gòu)建算法[A];第二十三屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2006年
4 肖偉器;馮玉才;;數(shù)據(jù)庫索引結(jié)構(gòu)的測試技術(shù)[A];第十一屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集[C];1993年
5 謝閩峰;汪衛(wèi);施伯樂;;集合索引結(jié)構(gòu)及其聯(lián)接操作[A];第二十屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2003年
6 張s,
本文編號:1259602
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/1259602.html