【摘要】:信息技術(shù)的發(fā)展日新月異,隨著互聯(lián)網(wǎng)規(guī)模的擴(kuò)大和PC機(jī)、移動(dòng)設(shè)備、通訊終端的不斷加入,每天產(chǎn)生的數(shù)據(jù)量以TB級(jí)甚至PB級(jí)的規(guī)模增長(zhǎng),整個(gè)世界已經(jīng)進(jìn)入了“大數(shù)據(jù)時(shí)代”。龐大的數(shù)據(jù)量給生產(chǎn)應(yīng)用帶來(lái)了新的機(jī)遇和挑戰(zhàn),也同時(shí)給科研工作者帶來(lái)了更多的研究課題,如何對(duì)大規(guī)模的數(shù)據(jù)進(jìn)行有效存儲(chǔ)和快速查詢便是其中的兩個(gè)研究熱點(diǎn)。Hadoop作為一種處理大數(shù)據(jù)的開(kāi)源框架,能夠?qū)崿F(xiàn)海量數(shù)據(jù)的分布式存儲(chǔ)和并行查詢,被擁有大量用戶群體的知名公司廣泛使用,同時(shí)也受到了科研工作者的普遍青睞,F(xiàn)有的研究結(jié)果表明,數(shù)據(jù)存儲(chǔ)模型是影響數(shù)據(jù)訪問(wèn)速度的關(guān)鍵因素,在Hadoop框架下的大數(shù)據(jù)查詢處理中顯得更加重要。目前已有幾種基于Hadoop的分布式數(shù)據(jù)庫(kù)系統(tǒng),它們分別使用不同的存儲(chǔ)模型管理不同類(lèi)型的數(shù)據(jù)。這些存儲(chǔ)模型能夠有效地支持復(fù)雜的數(shù)據(jù)類(lèi)型,支持半結(jié)構(gòu)化甚至無(wú)結(jié)構(gòu)化的數(shù)據(jù)的存儲(chǔ)和查詢,但是對(duì)于結(jié)構(gòu)化數(shù)據(jù)的訪問(wèn)性能反而不如單機(jī)下的關(guān)系數(shù)據(jù)庫(kù)。最常用的關(guān)系型數(shù)據(jù)存儲(chǔ)模型分為三種:行存儲(chǔ)、列存儲(chǔ)和行列混合存儲(chǔ)。行存儲(chǔ)模型適用于以寫(xiě)操作為優(yōu)先的事務(wù)型數(shù)據(jù),它的優(yōu)點(diǎn)在于數(shù)據(jù)導(dǎo)入速度快并且不需要元組重構(gòu),缺點(diǎn)是無(wú)法避免全表掃描,并且數(shù)據(jù)壓縮性能低下;列存儲(chǔ)模型適用于以讀操作為優(yōu)先的分析型數(shù)據(jù),它的優(yōu)點(diǎn)在于能夠按照查詢需求讀取指定的列,并且具有較高的壓縮性能,缺點(diǎn)在于數(shù)據(jù)導(dǎo)入速度較慢,實(shí)時(shí)更新效率低下,尤其在Hadoop下的元組重構(gòu)操作將帶來(lái)額外的網(wǎng)絡(luò)傳輸開(kāi)銷(xiāo);行列混合存儲(chǔ)模型同時(shí)吸取了行存儲(chǔ)和列存儲(chǔ)的優(yōu)點(diǎn),而且回避了這兩種存儲(chǔ)模型的大多數(shù)缺點(diǎn),雖然在查詢處理方面達(dá)到了比較理想的性能,但是它仍然有可以改進(jìn)之處,例如它無(wú)法實(shí)現(xiàn)數(shù)據(jù)的快速定位,影響隨機(jī)讀寫(xiě)性能和索引技術(shù)的應(yīng)用。本文設(shè)計(jì)了一種Hadoop下的頁(yè)式行列混合存儲(chǔ)結(jié)構(gòu)PageFile,并結(jié)合索引技術(shù)、多表連接優(yōu)化技術(shù)和數(shù)據(jù)壓縮技術(shù)進(jìn)行了深入研究并取得了多方面的研究成果,進(jìn)一步提升了在分布式環(huán)境下大數(shù)據(jù)的查詢處理性能。本文的研究成果主要包含以下幾個(gè)方面:(1)針對(duì)Hadoop下現(xiàn)有的行存儲(chǔ)、列存儲(chǔ)以及混合存儲(chǔ)模型各自的優(yōu)缺點(diǎn),本文提出了一種頁(yè)式行列混合存儲(chǔ)模型,以及它在Hadoop下的存儲(chǔ)結(jié)構(gòu)PageFile,并為此設(shè)計(jì)了數(shù)據(jù)導(dǎo)入算法和元組重構(gòu)算法,實(shí)現(xiàn)了單表查詢功能。該模型繼承了傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)使用頁(yè)式存儲(chǔ)的特性,把每個(gè)數(shù)據(jù)文件均勻地劃分成固定大小的頁(yè)。同時(shí),它又采用了混合存儲(chǔ)模型“先水平劃分成行、后垂直劃分成列”的原則,把關(guān)系表的水平劃分存放在同一個(gè)數(shù)據(jù)文件,每個(gè)文件內(nèi)部以屬性列的形式垂直劃分。這樣,每個(gè)頁(yè)的內(nèi)部存放屬于同一列的數(shù)據(jù)。該模型具有頁(yè)式存儲(chǔ)的快速定位優(yōu)點(diǎn),即能根據(jù)頁(yè)的編號(hào)能夠迅速查找到對(duì)應(yīng)數(shù)據(jù)的取值,解決了隨機(jī)讀寫(xiě)的問(wèn)題,彌補(bǔ)了當(dāng)前hadoop下混合存儲(chǔ)結(jié)構(gòu)無(wú)法創(chuàng)建索引的不足;同時(shí),行列混合存儲(chǔ)模型本身的數(shù)據(jù)劃分思想使得它既能夠在查詢時(shí)避免掃描與查詢無(wú)關(guān)的列,又能夠在元組重構(gòu)時(shí)避免額外的網(wǎng)絡(luò)開(kāi)銷(xiāo)。因此,該存儲(chǔ)模型能夠有效提高查詢處理的速度。實(shí)驗(yàn)結(jié)果顯示,本文的頁(yè)式行列混合存儲(chǔ)模型與現(xiàn)有的行列混合存儲(chǔ)模型相比,不但占用更少的數(shù)據(jù)存儲(chǔ)空間,而且數(shù)據(jù)導(dǎo)入速度幾乎不變,具有更優(yōu)的單表查詢性能。(2)使用索引技術(shù)可以跳過(guò)無(wú)效數(shù)據(jù)的訪問(wèn),快速定位到所需要的記錄位置,既節(jié)省了掃描時(shí)間又減少了磁盤(pán)i/o,從而提高查詢速度。目前hadoop下關(guān)于索引的研究非常少,在僅有的兩個(gè)研究成果中,在索引的創(chuàng)建階段都需要預(yù)先知道關(guān)系表之間的連接信息,并且索引的作用域非常小,具有一定的局限性。本文引入了單機(jī)下的rb+樹(shù)結(jié)構(gòu)和用于范圍查找的哈希桶結(jié)構(gòu),結(jié)合pagefile的頁(yè)式分布存儲(chǔ)特性,提出了“多rb+樹(shù)索引”和“多范圍哈希索引”的思想,分別實(shí)現(xiàn)了它們的創(chuàng)建和查詢算法,并對(duì)這些算法的性能進(jìn)行了理論評(píng)估。多索引的思想首先使得任意屬性列上都可以擁有多個(gè)rb+樹(shù)或者多個(gè)范圍查找哈希文件,不再局限于特定的屬性。其次,它在索引創(chuàng)建時(shí)把輸入數(shù)據(jù)劃分成多份同時(shí)進(jìn)行創(chuàng)建,在索引查詢時(shí)對(duì)多個(gè)索引同時(shí)進(jìn)行查找,充分發(fā)揮了hadoop并行性的特點(diǎn)。最后,各索引之間互相獨(dú)立,當(dāng)關(guān)系表發(fā)生數(shù)據(jù)追加操作時(shí),只需要為對(duì)應(yīng)屬性列上的新數(shù)據(jù)創(chuàng)建新索引,不影響已有索引中的內(nèi)容和結(jié)構(gòu),節(jié)省了索引維護(hù)的開(kāi)銷(xiāo)。此外,在多rb+樹(shù)索引中,索引的作用域被擴(kuò)展到文件級(jí),這樣可以跳過(guò)掃描與查詢無(wú)關(guān)的文件。但是,使用多索引進(jìn)行查詢需要額外的mapreduce作業(yè),根據(jù)算法性能的理論評(píng)估,多索引查詢性能與掃描的索引文件數(shù)目和字節(jié)數(shù)有關(guān),而屬性列的選擇率是其中的根本因素。實(shí)驗(yàn)結(jié)果顯示,當(dāng)選擇率小于5%,甚至是等值查詢時(shí),多rb+樹(shù)索引的性能更優(yōu);當(dāng)選擇率大于5%并且小于30%時(shí),多范圍哈希索引性能更優(yōu)。(3)查詢優(yōu)化是提高數(shù)據(jù)處理速度的重要因素,其中多表連接查詢最為常用。在hadoop框架下,一個(gè)復(fù)雜的多表連接查詢通常由包含大量i/o操作的多個(gè)mapreduce作業(yè)組成或者僅由包含大量網(wǎng)絡(luò)傳輸開(kāi)銷(xiāo)的單個(gè)mapreduce作業(yè)組成,并且查詢產(chǎn)生的中間結(jié)果隨著查詢的結(jié)束而即時(shí)刪除,不能被將來(lái)的查詢利用。因此,生成合理的查詢執(zhí)行計(jì)劃,盡可能地減少作業(yè)數(shù)目和作業(yè)內(nèi)部的操作復(fù)雜度,使得由于重復(fù)讀寫(xiě)、讀取無(wú)效數(shù)據(jù)、網(wǎng)絡(luò)傳輸?shù)乳_(kāi)銷(xiāo)造成的代價(jià)達(dá)到最小,是查詢優(yōu)化的目標(biāo)。每個(gè)多表連接查詢能夠表示成一個(gè)連接關(guān)系圖,根據(jù)圖中頂點(diǎn)和邊的各項(xiàng)屬性值可以把連接查詢類(lèi)型分為星型連接、鏈?zhǔn)竭B接和混合連接。本文提出了一種基于pagefile的自適應(yīng)的多表連接策略amjo,它包含兩個(gè)方面:首先,它能夠根據(jù)不同的連接模式選取不同的連接算法,并把其中復(fù)雜的混合連接模式分解成多個(gè)簡(jiǎn)單的星型連接模式和鏈?zhǔn)竭B接模式,進(jìn)而建立代價(jià)模型確定最優(yōu)執(zhí)行順序,并以此生成最優(yōu)執(zhí)行計(jì)劃。其次,它針對(duì)Hadoop下的復(fù)雜查詢需要多個(gè)作業(yè)的特點(diǎn),能夠?qū)σ延械牟樵冎虚g結(jié)果進(jìn)行重用,并生成最優(yōu)重用方案,簡(jiǎn)化復(fù)雜的連接模式,減少作業(yè)數(shù)目和冗余操作。實(shí)驗(yàn)結(jié)果顯示,AMJO生成的查詢執(zhí)行計(jì)劃要優(yōu)于Hadoop下的同類(lèi)產(chǎn)品,并且使用索引技術(shù)能夠在低選擇率的過(guò)濾屬性下發(fā)揮巨大的作用,同時(shí)使用中間結(jié)果重用方案能夠顯著地節(jié)省查詢時(shí)間,提升查詢性能。(4)數(shù)據(jù)壓縮是數(shù)據(jù)庫(kù)管理系統(tǒng)中的關(guān)鍵技術(shù),其主要作用是節(jié)省磁盤(pán)空間和提高查詢效率,尤其是在分布式環(huán)境下,對(duì)大數(shù)據(jù)進(jìn)行有效的壓縮顯得尤為重要。當(dāng)前Hadoop下的數(shù)據(jù)壓縮方法簡(jiǎn)單直接,即使用某種重量級(jí)壓縮算法對(duì)整個(gè)數(shù)據(jù)文件進(jìn)行壓縮,雖然壓縮性能較高,但是不能直接在壓縮數(shù)據(jù)上進(jìn)行查詢,并且解壓縮速度較慢,最終影響查詢性能。因此,不同類(lèi)型的數(shù)據(jù)應(yīng)該適合于不同的壓縮方法,對(duì)于同一屬性列中的數(shù)據(jù),其數(shù)據(jù)分布特征也能夠顯著影響壓縮效果。本文研究了現(xiàn)有的輕量級(jí)壓縮算法和Hadoop下壓縮技術(shù)的應(yīng)用現(xiàn)狀,提出了一種啟發(fā)式的區(qū)級(jí)壓縮策略(HDCE),選擇PageFile下的區(qū)為粒度對(duì)數(shù)據(jù)進(jìn)行壓縮,即根據(jù)區(qū)內(nèi)屬性值的數(shù)據(jù)類(lèi)型和分布情況選擇合適的輕量級(jí)壓縮算法,并且能夠在壓縮數(shù)據(jù)上直接進(jìn)行查詢操作。在壓縮數(shù)據(jù)的存儲(chǔ)方面,本文詳細(xì)介紹了壓縮數(shù)據(jù)的存儲(chǔ)格式和壓縮數(shù)據(jù)導(dǎo)入時(shí)生成HDCE決策樹(shù)的過(guò)程;在壓縮數(shù)據(jù)的查詢方面,本文具體描述對(duì)壓縮數(shù)據(jù)中過(guò)濾屬性、連接屬性和選擇屬性的處理算法,包括過(guò)濾屬性的直接運(yùn)算和判斷、連接屬性和選擇屬性的按需實(shí)時(shí)解壓。實(shí)驗(yàn)結(jié)果顯示,HDCE產(chǎn)生的壓縮數(shù)據(jù)雖然在存儲(chǔ)性能上不如Hadoop下的部分重量級(jí)壓縮算法,但是在查詢性能上能夠體現(xiàn)顯著的優(yōu)勢(shì)。
[Abstract]:......
【學(xué)位授予單位】:東華大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2015
【分類(lèi)號(hào)】:TP311.13
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 劉峰;紀(jì)鋼;;改進(jìn)的協(xié)同設(shè)計(jì)中間基多版本存儲(chǔ)模型[J];計(jì)算機(jī)工程與設(shè)計(jì);2011年06期
2 路明哲,陳錦莉,方志良,劉福來(lái),母國(guó)光;利用神經(jīng)網(wǎng)絡(luò)優(yōu)化關(guān)聯(lián)存儲(chǔ)模型[J];紅外與毫米波學(xué)報(bào);1993年01期
3 桑大勇,王瑛,劉西洋,蔡希堯;一種多側(cè)面的重用部件存儲(chǔ)模型[J];微電子學(xué)與計(jì)算機(jī);1999年06期
4 胡明茂;阮景奎;程耕國(guó);;基于確定性存儲(chǔ)模型的工具管理系統(tǒng)開(kāi)發(fā)[J];湖北汽車(chē)工業(yè)學(xué)院學(xué)報(bào);2007年01期
5 于利勝;張延松;王珊;張倩;;基于行存儲(chǔ)模型的模擬列存儲(chǔ)策略研究[J];計(jì)算機(jī)研究與發(fā)展;2010年05期
6 夏戈明;黃遵國(guó);;面向集群環(huán)境的高可用分布并行存儲(chǔ)模型研究設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用研究;2006年07期
7 全少磊,葛成輝;虛擬地球智能數(shù)據(jù)獲取與存儲(chǔ)模型[J];電子科技導(dǎo)報(bào);1999年05期
8 譚帥,倪德明,李磊;基于多代理的異構(gòu)系統(tǒng)存儲(chǔ)模型研究[J];中山大學(xué)學(xué)報(bào)(自然科學(xué)版);2004年S1期
9 施光源;張宇;;基于模糊邏輯的數(shù)據(jù)分級(jí)存儲(chǔ)模型研究[J];計(jì)算機(jī)科學(xué);2013年S2期
10 羅宇恒;谷巖;;數(shù)字化應(yīng)急預(yù)案的存儲(chǔ)模型與生成方法的研究[J];廣州大學(xué)學(xué)報(bào)(自然科學(xué)版);2013年02期
相關(guān)會(huì)議論文 前5條
1 于利勝;張延松;王珊;張倩;;基于行存儲(chǔ)模型的模擬列存儲(chǔ)策略研究[A];第26屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(A輯)[C];2009年
2 薛倚明;陳振鋒;;隨機(jī)需求存儲(chǔ)模型的一個(gè)修正[A];第六屆中國(guó)青年運(yùn)籌與管理學(xué)者大會(huì)論文集[C];2004年
3 高先鋒;劉奇志;后小亮;檀寶權(quán);;一種新的數(shù)據(jù)流頁(yè)面存儲(chǔ)模型[A];第二十五屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(二)[C];2008年
4 何鳳成;劉奎恩;許佳捷;徐懷野;丁治明;;Hestus:一種海量異構(gòu)物聯(lián)網(wǎng)數(shù)據(jù)存儲(chǔ)模型及其實(shí)現(xiàn)[A];第29屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)(NDBC2012)[C];2012年
5 黃敏;魏華;;記憶的多重存儲(chǔ)模型與英語(yǔ)教學(xué)[A];首屆農(nóng)林院校教育管理類(lèi)研究生學(xué)術(shù)論壇論文集[C];2009年
相關(guān)博士學(xué)位論文 前2條
1 李曄鋒;基于Hadoop的行列混合存儲(chǔ)模型研究[D];東華大學(xué);2015年
2 夏軍寶;空間科學(xué)大數(shù)據(jù)存儲(chǔ)模型SP-HDF及應(yīng)用研究[D];中國(guó)地質(zhì)大學(xué)(北京);2013年
相關(guān)碩士學(xué)位論文 前10條
1 辛?xí)栽?文檔型數(shù)據(jù)庫(kù)的存儲(chǔ)模型設(shè)計(jì)和研究[D];中山大學(xué);2015年
2 趙峰;基于閃存的B~+樹(shù)文件存儲(chǔ)模型的研究與改進(jìn)[D];吉林大學(xué);2011年
3 范泉龍;基于秘密共享的多云存儲(chǔ)模型研究[D];華東理工大學(xué);2014年
4 顧誼;基于云計(jì)算的海量教學(xué)資源存儲(chǔ)模型的研究與實(shí)現(xiàn)[D];南昌大學(xué);2015年
5 李帥;基于同態(tài)加密技術(shù)的云安全存儲(chǔ)模型研究[D];中國(guó)礦業(yè)大學(xué);2015年
6 張雷;商品存儲(chǔ)優(yōu)化問(wèn)題的研究及系統(tǒng)實(shí)現(xiàn)[D];吉林大學(xué);2010年
7 鄒華;云計(jì)算的數(shù)據(jù)存儲(chǔ)模型研究及應(yīng)用[D];湖南大學(xué);2013年
8 彭欣;基于P2P云存儲(chǔ)模型的研究[D];南昌大學(xué);2014年
9 李林;基于hadoop的海量圖片存儲(chǔ)模型的分析和設(shè)計(jì)[D];杭州電子科技大學(xué);2011年
10 吳金朋;一種大數(shù)據(jù)存儲(chǔ)模型的研究與應(yīng)用[D];北京郵電大學(xué);2013年
,
本文編號(hào):
2489904