基于HBase的RDF數(shù)據(jù)存儲與查詢研究
發(fā)布時間:2020-10-11 11:40
近年來,隨著語義網(wǎng)技術(shù)的不斷發(fā)展與進步,用來描述語義網(wǎng)資源的資源描述框架(RDF)越來越多地應(yīng)用于各個領(lǐng)域,RDF的廣泛應(yīng)用使得其數(shù)據(jù)量急速增長,如何高效地管理海量RDF數(shù)據(jù)成為一個急待解決的問題。現(xiàn)有的RDF數(shù)據(jù)管理系統(tǒng)大都采用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫來存儲RDF數(shù)據(jù),隨著RDF數(shù)據(jù)的爆炸式增長,這種方式已難以高效地管理海量RDF數(shù)據(jù)。有研究表明關(guān)系型數(shù)據(jù)庫在處理海量RDF數(shù)據(jù)時存儲與查詢效率都比分布式數(shù)據(jù)庫低,越來越多的研究者開始利用分布式系統(tǒng)的海量數(shù)據(jù)存儲與并行計算能力解決海量RDF數(shù)據(jù)管理問題。 海量RDF數(shù)據(jù)管理的研究主要分為兩個方面:第一,如何有效地存儲海量RDF數(shù)據(jù);第二,如何高效地查詢RDF數(shù)據(jù)。本文針對這兩個問題提出一種基于分布式數(shù)據(jù)庫HBase的RDF數(shù)據(jù)存儲模型,設(shè)計并實現(xiàn)該存儲模型上的SPARQL BGP查詢算法。 論文的主要工作如下: (1)提出一種基于分布式數(shù)據(jù)庫HBase的RDF數(shù)據(jù)存儲模型,根據(jù)OWL描述的本體信息,將RDF實例數(shù)據(jù)按類劃分,主語為同一類的三元組數(shù)據(jù)保存在該類的S PO和O PS兩張存儲表中,充分利用HBase提供的Row-key索引,在保證查詢性能的同時有效地減少了存儲開銷。 (2)利用HBase Java API實現(xiàn)該存儲模型上的SPARQL查詢與更新操作,設(shè)計滿足八種形式Triple Pattern的Triple Pattern查詢算法、提供滿足子類、子屬性和逆屬性三種推理關(guān)系的Triple Pattern推理算法以及SPARQL基本圖模式(Basic Graph Pattern, BGP)查詢算法。并且根據(jù)BGP中子句的選擇度、子句之間是否有共享變量以及子句的謂語是否為rdf:type對BGP查詢算法進行優(yōu)化。 (3)采用RDF標(biāo)準(zhǔn)測試數(shù)據(jù)集LUBM分別在單機偽分布式Hadoop系統(tǒng)以及真實的分布式Hadoop集群環(huán)境下對存儲模型與查詢算法進行了實驗評估,實驗對不同大小的數(shù)據(jù)集分別執(zhí)行LUBM提供的14種查詢,驗證了存儲模型和查詢算法的可行性,并且對BGP優(yōu)化前與優(yōu)化后的查詢性能進行了分析與比較。并且與現(xiàn)有的存儲模型與查詢算法進行比較,通過對比實驗證明了本文提出的方案的有效性。
【學(xué)位單位】:南京大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2013
【中圖分類】:TP311.13;TP333
【文章目錄】:
摘要
Abstract
目錄
第一章 緒論
1.1 研究背景及意義
1.2 研究現(xiàn)狀及熱點
1.3 本文研究內(nèi)容
1.4 本文組織機構(gòu)
第二章 相關(guān)技術(shù)綜述
2.1 語義網(wǎng)相關(guān)技術(shù)
2.1.1 RDF
2.1.2 RDF Schema
2.1.3 本體
2.1.4 SPARQL
2.2 分布式計算技術(shù)
2.2.1 MapReduce
2.2.2 Hadoop
2.2.3 HBase
2.3 現(xiàn)有的RDF數(shù)據(jù)存儲模型
2.3.1 集中式關(guān)系型RDF數(shù)據(jù)存儲
2.3.2 分布式RDF數(shù)據(jù)存儲
2.4 本章小結(jié)
第三章 基于HBase的RDF數(shù)據(jù)存儲模型
3.1 本體模型存儲
3.2 RDF實例數(shù)據(jù)存儲
3.3 與其他存儲模型的比較
3.4 本章小結(jié)
第四章 SPARQL查詢與更新算法
4.1 SPARQL查詢算法
4.1.1 SPARQL BGP查詢總體架構(gòu)
4.1.2 Triple Pattern與三元組匹配算法matchTP_T
4.1.3 單個Triple Pattern查詢算法QueryTP
4.1.4 推理算法ReasonTP
4.1.5 BGP查詢算法QueryBGP
4.2 BGP查詢示例
4.3 BGP查詢優(yōu)化
4.4 更新算法
4.5 本章小結(jié)
第五章 實驗結(jié)果與分析
5.1 實驗環(huán)境
5.2 數(shù)據(jù)加載
5.3 實驗結(jié)果分析
5.4 與其他方案實驗對比
5.5 本章小結(jié)
第六章 總結(jié)與展望
6.1 論文總結(jié)
6.2 進一步的研究工作
致謝
參考文獻
【參考文獻】
本文編號:2836544
【學(xué)位單位】:南京大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2013
【中圖分類】:TP311.13;TP333
【文章目錄】:
摘要
Abstract
目錄
第一章 緒論
1.1 研究背景及意義
1.2 研究現(xiàn)狀及熱點
1.3 本文研究內(nèi)容
1.4 本文組織機構(gòu)
第二章 相關(guān)技術(shù)綜述
2.1 語義網(wǎng)相關(guān)技術(shù)
2.1.1 RDF
2.1.2 RDF Schema
2.1.3 本體
2.1.4 SPARQL
2.2 分布式計算技術(shù)
2.2.1 MapReduce
2.2.2 Hadoop
2.2.3 HBase
2.3 現(xiàn)有的RDF數(shù)據(jù)存儲模型
2.3.1 集中式關(guān)系型RDF數(shù)據(jù)存儲
2.3.2 分布式RDF數(shù)據(jù)存儲
2.4 本章小結(jié)
第三章 基于HBase的RDF數(shù)據(jù)存儲模型
3.1 本體模型存儲
3.2 RDF實例數(shù)據(jù)存儲
3.3 與其他存儲模型的比較
3.4 本章小結(jié)
第四章 SPARQL查詢與更新算法
4.1 SPARQL查詢算法
4.1.1 SPARQL BGP查詢總體架構(gòu)
4.1.2 Triple Pattern與三元組匹配算法matchTP_T
4.1.3 單個Triple Pattern查詢算法QueryTP
4.1.4 推理算法ReasonTP
4.1.5 BGP查詢算法QueryBGP
4.2 BGP查詢示例
4.3 BGP查詢優(yōu)化
4.4 更新算法
4.5 本章小結(jié)
第五章 實驗結(jié)果與分析
5.1 實驗環(huán)境
5.2 數(shù)據(jù)加載
5.3 實驗結(jié)果分析
5.4 與其他方案實驗對比
5.5 本章小結(jié)
第六章 總結(jié)與展望
6.1 論文總結(jié)
6.2 進一步的研究工作
致謝
參考文獻
【參考文獻】
相關(guān)期刊論文 前2條
1 杜小勇;王琰;呂彬;;語義Web數(shù)據(jù)管理研究進展[J];軟件學(xué)報;2009年11期
2 鮑文;李冠宇;;本體存儲技術(shù)研究[J];計算機技術(shù)與發(fā)展;2008年01期
本文編號:2836544
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2836544.html
最近更新
教材專著