基于LSM樹的NoSQL數(shù)據(jù)庫索引研究
本文關(guān)鍵詞:基于LSM樹的NoSQL數(shù)據(jù)庫索引研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著近些年來互聯(lián)網(wǎng)的不斷發(fā)展以及移動互聯(lián)網(wǎng)的慢慢興起,網(wǎng)絡(luò)已近滲透到我們生活的方方面面。每天產(chǎn)生的數(shù)據(jù)量已經(jīng)超過以往任何時期。我們已經(jīng)迎來一個大數(shù)據(jù)的時代。大數(shù)據(jù)的大不僅體現(xiàn)在數(shù)據(jù)量上,還體現(xiàn)在數(shù)據(jù)種類種類繁多和數(shù)據(jù)產(chǎn)生的速度也非常快。而這些數(shù)據(jù)還具有很高的商業(yè)價值。如何存儲并有效利用這些數(shù)據(jù)已經(jīng)成為大數(shù)據(jù)時代下的一大難題。傳統(tǒng)關(guān)系型數(shù)據(jù)庫無法為大數(shù)據(jù)提供行之有效的服務(wù),而另一種完全不同的數(shù)據(jù)庫體系正在興起。這種數(shù)據(jù)庫體系統(tǒng)稱為非關(guān)系型數(shù)據(jù)庫,即No SQL數(shù)據(jù)庫。NoSQL數(shù)據(jù)庫近幾年得到了非常迅猛的發(fā)展,它為數(shù)據(jù)的存儲提供了一種新選擇。索引是數(shù)據(jù)庫研究中最關(guān)鍵的一部分,而B+樹是最常用的數(shù)據(jù)庫索引結(jié)構(gòu)之一,關(guān)系型數(shù)據(jù)庫都采用B+樹作為其索引結(jié)構(gòu)。但是NoSQL數(shù)據(jù)庫并不像關(guān)系型數(shù)據(jù)庫那樣采用表結(jié)構(gòu)進行存儲,它提供了許多不同的數(shù)據(jù)組織方式。因此,傳統(tǒng)的索引方式已經(jīng)無法滿足NoSQL的索引需求。本文對NoSQL數(shù)據(jù)庫索引的現(xiàn)狀進行分析,針對NoSQL數(shù)據(jù)庫索引存在的問題,設(shè)計一種新的索引方案。本文通過對常見索引結(jié)構(gòu)進行調(diào)研,分析不同索引結(jié)構(gòu)的優(yōu)缺點。針對廣泛使用的LSM樹作為研究對象,設(shè)計并實現(xiàn)了一種基于LSM樹的索引結(jié)構(gòu)——iLSM樹。該結(jié)構(gòu)針對LSM樹中存在的不足,即通過犧牲數(shù)據(jù)查詢效率的方式來獲得數(shù)據(jù)寫入效率的大幅度提升。通過分析LSM樹執(zhí)行數(shù)據(jù)查詢的過程發(fā)現(xiàn)在進行數(shù)據(jù)查詢的過程中,LSM樹需要先訪問所有子樹以確定數(shù)據(jù)是否在其中,然后在對存有目標(biāo)數(shù)據(jù)的子樹進行查詢。由于LSM樹中的子樹絕大多數(shù)都存儲在磁盤上,因此,訪問所有子樹這個過程需要耗費大量的時間。本文通過添加對LSM樹中子樹的索引,來減少查詢過程中需要訪問的子樹的數(shù)量,以減少查詢整體需要消耗的時間,達到提高查詢效率的目的。本文在HBase中對這一索引思想進行實現(xiàn),并將新實現(xiàn)的系統(tǒng)與HBase的LSM樹索引進行一系列對比試驗。實驗結(jié)果表明iLSM樹能夠在犧牲少量內(nèi)存空間的前提下大幅度提升查詢性能,同時保證iLSM樹的寫性能與LSM樹基本保持一致。
【關(guān)鍵詞】:NoSQL 索引 LSM樹 HBase
【學(xué)位授予單位】:北京理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP311.13
【目錄】:
- 摘要5-6
- Abstract6-9
- 第1章 緒論9-17
- 1.1 研究背景和意義9-12
- 1.2 國內(nèi)外研究現(xiàn)狀12-14
- 1.2.1 NoSQL研究現(xiàn)狀12-13
- 1.2.2 索引研究現(xiàn)狀13-14
- 1.3 論文研究內(nèi)容14-15
- 1.4 論文章節(jié)安排15-17
- 第2章 相關(guān)研究17-33
- 2.1 索引技術(shù)17-22
- 2.1.1 順序索引17-18
- 2.1.2 散列索引18-19
- 2.1.3 樹型索引19-22
- 2.2 No SQL22-24
- 2.3 HBase24-32
- 2.3.1 HBase基礎(chǔ)架構(gòu)24-28
- 2.3.2 HBase存儲模型28-29
- 2.3.3 HBase索引29-32
- 2.4 本章小結(jié)32-33
- 第3章 iLSM樹索引算法的設(shè)計33-43
- 3.1 設(shè)計思想33
- 3.2 數(shù)據(jù)模型33-36
- 3.3 操作36-42
- 3.3.1 插入36-37
- 3.3.2 查詢37-38
- 3.3.3 樹的合并38-39
- 3.3.4 INDEX的調(diào)整39-42
- 3.4 本章小結(jié)42-43
- 第4章 iLSM樹索引算法的實現(xiàn)和評估43-57
- 4.1 索引算法實現(xiàn)43-51
- 4.1.1 索引結(jié)構(gòu)43-47
- 4.1.2 數(shù)據(jù)寫入47-48
- 4.1.3 數(shù)據(jù)查詢48-51
- 4.2 性能測試51-55
- 4.2.1 點查詢性能對比51-52
- 4.2.2 范圍查詢性能對比52-53
- 4.2.3 隨機插入性能對比53-54
- 4.2.4 內(nèi)存消耗情況對比54-55
- 4.3 本章小結(jié)55-57
- 總結(jié)與展望57-59
- 參考文獻59-62
- 攻讀學(xué)位期間發(fā)表論文與研究成果清單62-63
- 致謝63
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 ;本期廣告商索引表[J];電子與電腦;2000年01期
2 ;本期編輯內(nèi)容產(chǎn)品索引表[J];電子與電腦;2000年02期
3 ;本期廣告商索引表[J];電子與電腦;2000年02期
4 ;本期編輯內(nèi)容產(chǎn)品索引表[J];電子與電腦;2000年04期
5 ;本期廣告商索引表[J];電子與電腦;2000年04期
6 ;本期編輯內(nèi)容產(chǎn)品索引表[J];電子與電腦;2000年11期
7 ;本期廣告商索引表[J];電子與電腦;2000年11期
8 ;本期編輯內(nèi)容產(chǎn)品索引表[J];電子與電腦;1999年05期
9 ;本期編輯內(nèi)容產(chǎn)品索引表[J];電子與電腦;1999年08期
10 ;本期編輯內(nèi)容產(chǎn)品索引表[J];電子與電腦;1999年09期
中國重要會議論文全文數(shù)據(jù)庫 前9條
1 石瑋峰;楊冬青;唐世渭;關(guān)濤;;COBASE的索引管理技術(shù)[A];第十二屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集[C];1994年
2 王彥祥;王廣林;;“索引之星”的研制和索引編制[A];2004年辭書與數(shù)字化研討會論文集[C];2004年
3 王曉輝;王柏;;通過有效使用索引優(yōu)化Oracle應(yīng)用系統(tǒng)性能[A];第九屆全國青年通信學(xué)術(shù)會議論文集[C];2004年
4 孫云峰;陳渝;史元春;張寶鵬;張曦;江文峰;;基于高精度室內(nèi)定位系統(tǒng)的移動物體軌跡索引[A];第二屆和諧人機環(huán)境聯(lián)合學(xué)術(shù)會議(HHME2006)——第2屆中國普適計算學(xué)術(shù)會議(PCC'06)論文集[C];2006年
5 王先勝;喬健;汪衛(wèi);何震瀛;;AX-Tree:基于RDBMS的粒度自適應(yīng)XML數(shù)據(jù)索引[A];第二十五屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(一)[C];2008年
6 邵雄凱;盧炎生;程學(xué)先;;用建立本地廣播索引表的方法改善移動客戶機的性能[A];第二十屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2003年
7 薛巍;李維佳;穆飛;舒繼武;;PDPI:一種面向多核的可擴展并行索引算法[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會論文集(下冊)[C];2007年
8 王鵬飛;洪曉光;;基于XML大文檔的動態(tài)索引[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2004年
9 楊彬;洪曉光;;基于XML大文檔的動態(tài)索引[A];’2004計算機應(yīng)用技術(shù)交流會議論文集[C];2004年
中國重要報紙全文數(shù)據(jù)庫 前1條
1 裘宗燕;輕松做索引[N];中華讀書報;2002年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前3條
1 張帆;搜索引擎中索引表求交和提前停止技術(shù)優(yōu)化研究[D];南開大學(xué);2012年
2 陳旭毅;基于索引云的企業(yè)搜索引擎實現(xiàn)研究[D];武漢大學(xué);2011年
3 余利華;分布式數(shù)據(jù)存儲和處理的若干技術(shù)研究[D];浙江大學(xué);2008年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 周黎明;SYBASE數(shù)據(jù)庫的索引壓縮的設(shè)計與實現(xiàn)[D];上海交通大學(xué);2015年
2 徐康;組學(xué)大數(shù)據(jù)的檢索系統(tǒng)設(shè)計與實現(xiàn)[D];哈爾濱工業(yè)大學(xué);2015年
3 周文輝;基于HBase和內(nèi)存數(shù)據(jù)庫的索引和查詢技術(shù)研究與系統(tǒng)實現(xiàn)[D];南京大學(xué);2014年
4 付佳;基于LSM樹的NoSQL數(shù)據(jù)庫索引研究[D];北京理工大學(xué);2016年
5 王健;DWMS中索引選擇策略的研究與實現(xiàn)[D];東華大學(xué);2010年
6 胡玉樂;列存儲DWMS中的索引關(guān)鍵技術(shù)研究[D];東華大學(xué);2011年
7 張慧;一種基于位立方體的XML索引方式[D];山東大學(xué);2007年
8 王學(xué);面向SaaS應(yīng)用交付平臺的多租戶數(shù)據(jù)索引研究[D];山東大學(xué);2012年
9 石有滴;XML索引關(guān)鍵技術(shù)研究[D];華南理工大學(xué);2011年
10 陳堅強;DB2數(shù)據(jù)庫索引性能調(diào)整與優(yōu)化[D];上海交通大學(xué);2011年
本文關(guān)鍵詞:基于LSM樹的NoSQL數(shù)據(jù)庫索引研究,由筆耕文化傳播整理發(fā)布。
本文編號:343563
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/343563.html