【摘要】:信息技術(shù)的發(fā)展日新月異,隨著互聯(lián)網(wǎng)規(guī)模的擴大和PC機、移動設(shè)備、通訊終端的不斷加入,每天產(chǎn)生的數(shù)據(jù)量以TB級甚至PB級的規(guī)模增長,整個世界已經(jīng)進入了“大數(shù)據(jù)時代”。龐大的數(shù)據(jù)量給生產(chǎn)應(yīng)用帶來了新的機遇和挑戰(zhàn),也同時給科研工作者帶來了更多的研究課題,如何對大規(guī)模的數(shù)據(jù)進行有效存儲和快速查詢便是其中的兩個研究熱點。Hadoop作為一種處理大數(shù)據(jù)的開源框架,能夠?qū)崿F(xiàn)海量數(shù)據(jù)的分布式存儲和并行查詢,被擁有大量用戶群體的知名公司廣泛使用,同時也受到了科研工作者的普遍青睞,F(xiàn)有的研究結(jié)果表明,數(shù)據(jù)存儲模型是影響數(shù)據(jù)訪問速度的關(guān)鍵因素,在Hadoop框架下的大數(shù)據(jù)查詢處理中顯得更加重要。目前已有幾種基于Hadoop的分布式數(shù)據(jù)庫系統(tǒng),它們分別使用不同的存儲模型管理不同類型的數(shù)據(jù)。這些存儲模型能夠有效地支持復(fù)雜的數(shù)據(jù)類型,支持半結(jié)構(gòu)化甚至無結(jié)構(gòu)化的數(shù)據(jù)的存儲和查詢,但是對于結(jié)構(gòu)化數(shù)據(jù)的訪問性能反而不如單機下的關(guān)系數(shù)據(jù)庫。最常用的關(guān)系型數(shù)據(jù)存儲模型分為三種:行存儲、列存儲和行列混合存儲。行存儲模型適用于以寫操作為優(yōu)先的事務(wù)型數(shù)據(jù),它的優(yōu)點在于數(shù)據(jù)導(dǎo)入速度快并且不需要元組重構(gòu),缺點是無法避免全表掃描,并且數(shù)據(jù)壓縮性能低下;列存儲模型適用于以讀操作為優(yōu)先的分析型數(shù)據(jù),它的優(yōu)點在于能夠按照查詢需求讀取指定的列,并且具有較高的壓縮性能,缺點在于數(shù)據(jù)導(dǎo)入速度較慢,實時更新效率低下,尤其在Hadoop下的元組重構(gòu)操作將帶來額外的網(wǎng)絡(luò)傳輸開銷;行列混合存儲模型同時吸取了行存儲和列存儲的優(yōu)點,而且回避了這兩種存儲模型的大多數(shù)缺點,雖然在查詢處理方面達到了比較理想的性能,但是它仍然有可以改進之處,例如它無法實現(xiàn)數(shù)據(jù)的快速定位,影響隨機讀寫性能和索引技術(shù)的應(yīng)用。本文設(shè)計了一種Hadoop下的頁式行列混合存儲結(jié)構(gòu)PageFile,并結(jié)合索引技術(shù)、多表連接優(yōu)化技術(shù)和數(shù)據(jù)壓縮技術(shù)進行了深入研究并取得了多方面的研究成果,進一步提升了在分布式環(huán)境下大數(shù)據(jù)的查詢處理性能。本文的研究成果主要包含以下幾個方面:(1)針對Hadoop下現(xiàn)有的行存儲、列存儲以及混合存儲模型各自的優(yōu)缺點,本文提出了一種頁式行列混合存儲模型,以及它在Hadoop下的存儲結(jié)構(gòu)PageFile,并為此設(shè)計了數(shù)據(jù)導(dǎo)入算法和元組重構(gòu)算法,實現(xiàn)了單表查詢功能。該模型繼承了傳統(tǒng)關(guān)系數(shù)據(jù)庫使用頁式存儲的特性,把每個數(shù)據(jù)文件均勻地劃分成固定大小的頁。同時,它又采用了混合存儲模型“先水平劃分成行、后垂直劃分成列”的原則,把關(guān)系表的水平劃分存放在同一個數(shù)據(jù)文件,每個文件內(nèi)部以屬性列的形式垂直劃分。這樣,每個頁的內(nèi)部存放屬于同一列的數(shù)據(jù)。該模型具有頁式存儲的快速定位優(yōu)點,即能根據(jù)頁的編號能夠迅速查找到對應(yīng)數(shù)據(jù)的取值,解決了隨機讀寫的問題,彌補了當(dāng)前hadoop下混合存儲結(jié)構(gòu)無法創(chuàng)建索引的不足;同時,行列混合存儲模型本身的數(shù)據(jù)劃分思想使得它既能夠在查詢時避免掃描與查詢無關(guān)的列,又能夠在元組重構(gòu)時避免額外的網(wǎng)絡(luò)開銷。因此,該存儲模型能夠有效提高查詢處理的速度。實驗結(jié)果顯示,本文的頁式行列混合存儲模型與現(xiàn)有的行列混合存儲模型相比,不但占用更少的數(shù)據(jù)存儲空間,而且數(shù)據(jù)導(dǎo)入速度幾乎不變,具有更優(yōu)的單表查詢性能。(2)使用索引技術(shù)可以跳過無效數(shù)據(jù)的訪問,快速定位到所需要的記錄位置,既節(jié)省了掃描時間又減少了磁盤i/o,從而提高查詢速度。目前hadoop下關(guān)于索引的研究非常少,在僅有的兩個研究成果中,在索引的創(chuàng)建階段都需要預(yù)先知道關(guān)系表之間的連接信息,并且索引的作用域非常小,具有一定的局限性。本文引入了單機下的rb+樹結(jié)構(gòu)和用于范圍查找的哈希桶結(jié)構(gòu),結(jié)合pagefile的頁式分布存儲特性,提出了“多rb+樹索引”和“多范圍哈希索引”的思想,分別實現(xiàn)了它們的創(chuàng)建和查詢算法,并對這些算法的性能進行了理論評估。多索引的思想首先使得任意屬性列上都可以擁有多個rb+樹或者多個范圍查找哈希文件,不再局限于特定的屬性。其次,它在索引創(chuàng)建時把輸入數(shù)據(jù)劃分成多份同時進行創(chuàng)建,在索引查詢時對多個索引同時進行查找,充分發(fā)揮了hadoop并行性的特點。最后,各索引之間互相獨立,當(dāng)關(guān)系表發(fā)生數(shù)據(jù)追加操作時,只需要為對應(yīng)屬性列上的新數(shù)據(jù)創(chuàng)建新索引,不影響已有索引中的內(nèi)容和結(jié)構(gòu),節(jié)省了索引維護的開銷。此外,在多rb+樹索引中,索引的作用域被擴展到文件級,這樣可以跳過掃描與查詢無關(guān)的文件。但是,使用多索引進行查詢需要額外的mapreduce作業(yè),根據(jù)算法性能的理論評估,多索引查詢性能與掃描的索引文件數(shù)目和字節(jié)數(shù)有關(guān),而屬性列的選擇率是其中的根本因素。實驗結(jié)果顯示,當(dāng)選擇率小于5%,甚至是等值查詢時,多rb+樹索引的性能更優(yōu);當(dāng)選擇率大于5%并且小于30%時,多范圍哈希索引性能更優(yōu)。(3)查詢優(yōu)化是提高數(shù)據(jù)處理速度的重要因素,其中多表連接查詢最為常用。在hadoop框架下,一個復(fù)雜的多表連接查詢通常由包含大量i/o操作的多個mapreduce作業(yè)組成或者僅由包含大量網(wǎng)絡(luò)傳輸開銷的單個mapreduce作業(yè)組成,并且查詢產(chǎn)生的中間結(jié)果隨著查詢的結(jié)束而即時刪除,不能被將來的查詢利用。因此,生成合理的查詢執(zhí)行計劃,盡可能地減少作業(yè)數(shù)目和作業(yè)內(nèi)部的操作復(fù)雜度,使得由于重復(fù)讀寫、讀取無效數(shù)據(jù)、網(wǎng)絡(luò)傳輸?shù)乳_銷造成的代價達到最小,是查詢優(yōu)化的目標(biāo)。每個多表連接查詢能夠表示成一個連接關(guān)系圖,根據(jù)圖中頂點和邊的各項屬性值可以把連接查詢類型分為星型連接、鏈?zhǔn)竭B接和混合連接。本文提出了一種基于pagefile的自適應(yīng)的多表連接策略amjo,它包含兩個方面:首先,它能夠根據(jù)不同的連接模式選取不同的連接算法,并把其中復(fù)雜的混合連接模式分解成多個簡單的星型連接模式和鏈?zhǔn)竭B接模式,進而建立代價模型確定最優(yōu)執(zhí)行順序,并以此生成最優(yōu)執(zhí)行計劃。其次,它針對Hadoop下的復(fù)雜查詢需要多個作業(yè)的特點,能夠?qū)σ延械牟樵冎虚g結(jié)果進行重用,并生成最優(yōu)重用方案,簡化復(fù)雜的連接模式,減少作業(yè)數(shù)目和冗余操作。實驗結(jié)果顯示,AMJO生成的查詢執(zhí)行計劃要優(yōu)于Hadoop下的同類產(chǎn)品,并且使用索引技術(shù)能夠在低選擇率的過濾屬性下發(fā)揮巨大的作用,同時使用中間結(jié)果重用方案能夠顯著地節(jié)省查詢時間,提升查詢性能。(4)數(shù)據(jù)壓縮是數(shù)據(jù)庫管理系統(tǒng)中的關(guān)鍵技術(shù),其主要作用是節(jié)省磁盤空間和提高查詢效率,尤其是在分布式環(huán)境下,對大數(shù)據(jù)進行有效的壓縮顯得尤為重要。當(dāng)前Hadoop下的數(shù)據(jù)壓縮方法簡單直接,即使用某種重量級壓縮算法對整個數(shù)據(jù)文件進行壓縮,雖然壓縮性能較高,但是不能直接在壓縮數(shù)據(jù)上進行查詢,并且解壓縮速度較慢,最終影響查詢性能。因此,不同類型的數(shù)據(jù)應(yīng)該適合于不同的壓縮方法,對于同一屬性列中的數(shù)據(jù),其數(shù)據(jù)分布特征也能夠顯著影響壓縮效果。本文研究了現(xiàn)有的輕量級壓縮算法和Hadoop下壓縮技術(shù)的應(yīng)用現(xiàn)狀,提出了一種啟發(fā)式的區(qū)級壓縮策略(HDCE),選擇PageFile下的區(qū)為粒度對數(shù)據(jù)進行壓縮,即根據(jù)區(qū)內(nèi)屬性值的數(shù)據(jù)類型和分布情況選擇合適的輕量級壓縮算法,并且能夠在壓縮數(shù)據(jù)上直接進行查詢操作。在壓縮數(shù)據(jù)的存儲方面,本文詳細(xì)介紹了壓縮數(shù)據(jù)的存儲格式和壓縮數(shù)據(jù)導(dǎo)入時生成HDCE決策樹的過程;在壓縮數(shù)據(jù)的查詢方面,本文具體描述對壓縮數(shù)據(jù)中過濾屬性、連接屬性和選擇屬性的處理算法,包括過濾屬性的直接運算和判斷、連接屬性和選擇屬性的按需實時解壓。實驗結(jié)果顯示,HDCE產(chǎn)生的壓縮數(shù)據(jù)雖然在存儲性能上不如Hadoop下的部分重量級壓縮算法,但是在查詢性能上能夠體現(xiàn)顯著的優(yōu)勢。
[Abstract]:......
【學(xué)位授予單位】:東華大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2015
【分類號】:TP311.13
【相似文獻】
相關(guān)期刊論文 前10條
1 劉峰;紀(jì)鋼;;改進的協(xié)同設(shè)計中間基多版本存儲模型[J];計算機工程與設(shè)計;2011年06期
2 路明哲,陳錦莉,方志良,劉福來,母國光;利用神經(jīng)網(wǎng)絡(luò)優(yōu)化關(guān)聯(lián)存儲模型[J];紅外與毫米波學(xué)報;1993年01期
3 桑大勇,王瑛,劉西洋,蔡希堯;一種多側(cè)面的重用部件存儲模型[J];微電子學(xué)與計算機;1999年06期
4 胡明茂;阮景奎;程耕國;;基于確定性存儲模型的工具管理系統(tǒng)開發(fā)[J];湖北汽車工業(yè)學(xué)院學(xué)報;2007年01期
5 于利勝;張延松;王珊;張倩;;基于行存儲模型的模擬列存儲策略研究[J];計算機研究與發(fā)展;2010年05期
6 夏戈明;黃遵國;;面向集群環(huán)境的高可用分布并行存儲模型研究設(shè)計與實現(xiàn)[J];計算機應(yīng)用研究;2006年07期
7 全少磊,葛成輝;虛擬地球智能數(shù)據(jù)獲取與存儲模型[J];電子科技導(dǎo)報;1999年05期
8 譚帥,倪德明,李磊;基于多代理的異構(gòu)系統(tǒng)存儲模型研究[J];中山大學(xué)學(xué)報(自然科學(xué)版);2004年S1期
9 施光源;張宇;;基于模糊邏輯的數(shù)據(jù)分級存儲模型研究[J];計算機科學(xué);2013年S2期
10 羅宇恒;谷巖;;數(shù)字化應(yīng)急預(yù)案的存儲模型與生成方法的研究[J];廣州大學(xué)學(xué)報(自然科學(xué)版);2013年02期
相關(guān)會議論文 前5條
1 于利勝;張延松;王珊;張倩;;基于行存儲模型的模擬列存儲策略研究[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(A輯)[C];2009年
2 薛倚明;陳振鋒;;隨機需求存儲模型的一個修正[A];第六屆中國青年運籌與管理學(xué)者大會論文集[C];2004年
3 高先鋒;劉奇志;后小亮;檀寶權(quán);;一種新的數(shù)據(jù)流頁面存儲模型[A];第二十五屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(二)[C];2008年
4 何鳳成;劉奎恩;許佳捷;徐懷野;丁治明;;Hestus:一種海量異構(gòu)物聯(lián)網(wǎng)數(shù)據(jù)存儲模型及其實現(xiàn)[A];第29屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)(NDBC2012)[C];2012年
5 黃敏;魏華;;記憶的多重存儲模型與英語教學(xué)[A];首屆農(nóng)林院校教育管理類研究生學(xué)術(shù)論壇論文集[C];2009年
相關(guān)博士學(xué)位論文 前2條
1 李曄鋒;基于Hadoop的行列混合存儲模型研究[D];東華大學(xué);2015年
2 夏軍寶;空間科學(xué)大數(shù)據(jù)存儲模型SP-HDF及應(yīng)用研究[D];中國地質(zhì)大學(xué)(北京);2013年
相關(guān)碩士學(xué)位論文 前10條
1 辛?xí)栽?文檔型數(shù)據(jù)庫的存儲模型設(shè)計和研究[D];中山大學(xué);2015年
2 趙峰;基于閃存的B~+樹文件存儲模型的研究與改進[D];吉林大學(xué);2011年
3 范泉龍;基于秘密共享的多云存儲模型研究[D];華東理工大學(xué);2014年
4 顧誼;基于云計算的海量教學(xué)資源存儲模型的研究與實現(xiàn)[D];南昌大學(xué);2015年
5 李帥;基于同態(tài)加密技術(shù)的云安全存儲模型研究[D];中國礦業(yè)大學(xué);2015年
6 張雷;商品存儲優(yōu)化問題的研究及系統(tǒng)實現(xiàn)[D];吉林大學(xué);2010年
7 鄒華;云計算的數(shù)據(jù)存儲模型研究及應(yīng)用[D];湖南大學(xué);2013年
8 彭欣;基于P2P云存儲模型的研究[D];南昌大學(xué);2014年
9 李林;基于hadoop的海量圖片存儲模型的分析和設(shè)計[D];杭州電子科技大學(xué);2011年
10 吳金朋;一種大數(shù)據(jù)存儲模型的研究與應(yīng)用[D];北京郵電大學(xué);2013年
,
本文編號:
2489904