大數(shù)據(jù)存儲結構及查詢優(yōu)化研究
本文關鍵詞:大數(shù)據(jù)存儲結構及查詢優(yōu)化研究 出處:《河北工程大學》2014年碩士論文 論文類型:學位論文
更多相關文章: 大數(shù)據(jù) MapReduce 行列存儲 查詢優(yōu)化 分布式
【摘要】:大數(shù)據(jù)不僅需要海量存儲的系統(tǒng),而且需要高速的數(shù)據(jù)加載、快速的查詢處理、存儲空間的高利用率以及適應動態(tài)高負載。由于傳統(tǒng)關系型數(shù)據(jù)庫在管理大數(shù)據(jù)時遇到各種困難和阻礙,新型分布式系統(tǒng)應運而生。但在大數(shù)據(jù)存儲和查詢仍有不足之處,本文從數(shù)據(jù)存儲結構和MapReduce作業(yè)相關性兩個方面對分布式系統(tǒng)下大數(shù)據(jù)存儲結構及查詢優(yōu)化分析研究。 在分布式系統(tǒng)中,數(shù)據(jù)存儲結構直接影響大數(shù)據(jù)的存儲效率和處理性能。行式存儲結構下,數(shù)據(jù)從本地讀取,加載速度快,但壓縮效率低且加載了多余數(shù)據(jù);列式存儲結構下,數(shù)據(jù)壓縮效率高,但數(shù)據(jù)跨節(jié)點訪問增加了網(wǎng)絡傳輸消耗。針對行式存儲結構和列式存儲結構的特點,提出一種以行列結合的存儲方式,對數(shù)據(jù)存儲結構進行改進。通過理論比較分析,行列結合存儲在數(shù)據(jù)加載速度上略低于行式存儲;在數(shù)據(jù)壓縮效率上,比行式存儲和列式存儲的效率都高。行列結合的存儲結構不僅避免行式存儲的額外磁盤I/O開銷,同時也減少了列式存儲不必要的網(wǎng)絡傳輸,,極大地提高分布式系統(tǒng)對大數(shù)據(jù)存儲效率及處理性能。 現(xiàn)有翻譯方式在復雜SQL查詢時存在的低性能問題,其原因是忽略了MapReduce作業(yè)間的相關性,產(chǎn)生了大量冗余操作,消耗不必要的資源,從而急劇降低了查詢性能。本文從輸入相關性,數(shù)據(jù)轉換相關性,作業(yè)流相關性三個方面對翻譯結果進行優(yōu)化改進,并給出優(yōu)化條件和優(yōu)化規(guī)則,合并冗余的MapReduce作業(yè)以減少不必要的資源消耗,從而提高大數(shù)據(jù)查詢速度。
[Abstract]:Big data need not only mass storage system, but also high speed data loading, fast query processing, high utilization of storage space and dynamic high load. Since the traditional relational database has encountered various difficulties and obstacles in managing large data, the new distributed system emerges as the times require. But there are still some shortcomings in big data storage and query. In this paper, we analyze the storage structure and query optimization of distributed data from two aspects: data storage structure and MapReduce job correlation.
【學位授予單位】:河北工程大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP311.13;TP333
【相似文獻】
相關期刊論文 前10條
1 張權;張志遠;王燕;張濤;;海量氣象水文數(shù)據(jù)存儲結構的研究與實現(xiàn)[J];氣象水文海洋儀器;2010年03期
2 趙尹琛;馬國華;馬傳龍;王婷娟;;基于云計算的安全數(shù)據(jù)存儲結構的研究[J];電腦知識與技術;2013年19期
3 牛鐵龍;;淺析新聞類非線性編輯網(wǎng)絡的主體——數(shù)據(jù)存儲結構[J];中國有線電視;2007年14期
4 姚屏;姚宏;;機械圖形的XML數(shù)據(jù)存儲結構設計[J];廣東技術師范學院學報;2008年06期
5 廖麗瓊;白俊松;羅德安;;基于八叉樹及KD樹的混合型點云數(shù)據(jù)存儲結構[J];計算機系統(tǒng)應用;2012年03期
6 李永奎,李寶筏,胡艷清;信號采集與分析計算機系統(tǒng)中多樣本數(shù)據(jù)存儲結構的設計[J];沈陽農業(yè)大學學報;2002年02期
7 陳衛(wèi)衛(wèi);王艷;;基于NoSQL數(shù)據(jù)庫的通用數(shù)據(jù)存儲結構的設計方案[J];價值工程;2012年26期
8 王守寧,關豐富;對書目元數(shù)據(jù)的探討[J];圖書館學研究;2004年01期
9 張慧玲;寧立;孟金濤;魏彥杰;馮圣中;;大規(guī)模圖處理研究[J];網(wǎng)絡新媒體技術;2014年01期
10 劉利;;基于NAS和SAN技術的校園網(wǎng)數(shù)據(jù)存儲結構策略[J];阜陽師范學院學報(自然科學版);2011年02期
相關會議論文 前2條
1 李永奎;馬成林;;信號計算機檢測與處理系統(tǒng)數(shù)據(jù)存儲結構的設計[A];第三屆全國信息獲取與處理學術會議論文集[C];2005年
2 鄧志勇;;機動車合格證系統(tǒng)業(yè)務分析與關鍵數(shù)據(jù)結構設計[A];創(chuàng)新驅動,加快戰(zhàn)略性新興產(chǎn)業(yè)發(fā)展——吉林省第七屆科學技術學術年會論文集(上)[C];2012年
相關碩士學位論文 前3條
1 周凱東;大數(shù)據(jù)存儲結構及查詢優(yōu)化研究[D];河北工程大學;2014年
2 劉其洪;LED屏顯控制系統(tǒng)設計與數(shù)據(jù)存儲結構研究[D];湖南師范大學;2010年
3 宋仁才;基于SaaS架構的可定制模型的研究[D];吉林大學;2012年
本文編號:1345884
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/1345884.html