基于HBase的RDF數(shù)據(jù)存儲與查詢研究

發(fā)布時間：2020-10-11 11:40

　　近年來,隨著語義網(wǎng)技術(shù)的不斷發(fā)展與進(jìn)步,用來描述語義網(wǎng)資源的資源描述框架(RDF)越來越多地應(yīng)用于各個領(lǐng)域,RDF的廣泛應(yīng)用使得其數(shù)據(jù)量急速增長,如何高效地管理海量RDF數(shù)據(jù)成為一個急待解決的問題�，F(xiàn)有的RDF數(shù)據(jù)管理系統(tǒng)大都采用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫來存儲RDF數(shù)據(jù),隨著RDF數(shù)據(jù)的爆炸式增長,這種方式已難以高效地管理海量RDF數(shù)據(jù)。有研究表明關(guān)系型數(shù)據(jù)庫在處理海量RDF數(shù)據(jù)時存儲與查詢效率都比分布式數(shù)據(jù)庫低,越來越多的研究者開始利用分布式系統(tǒng)的海量數(shù)據(jù)存儲與并行計算能力解決海量RDF數(shù)據(jù)管理問題。海量RDF數(shù)據(jù)管理的研究主要分為兩個方面：第一,如何有效地存儲海量RDF數(shù)據(jù)；第二,如何高效地查詢RDF數(shù)據(jù)。本文針對這兩個問題提出一種基于分布式數(shù)據(jù)庫HBase的RDF數(shù)據(jù)存儲模型,設(shè)計并實(shí)現(xiàn)該存儲模型上的SPARQL BGP查詢算法。論文的主要工作如下： (1)提出一種基于分布式數(shù)據(jù)庫HBase的RDF數(shù)據(jù)存儲模型,根據(jù)OWL描述的本體信息,將RDF實(shí)例數(shù)據(jù)按類劃分,主語為同一類的三元組數(shù)據(jù)保存在該類的S PO和O PS兩張存儲表中,充分利用HBase提供的Row-key索引,在保證查詢性能的同時有效地減少了存儲開銷。 (2)利用HBase Java API實(shí)現(xiàn)該存儲模型上的SPARQL查詢與更新操作,設(shè)計滿足八種形式Triple Pattern的Triple Pattern查詢算法、提供滿足子類、子屬性和逆屬性三種推理關(guān)系的Triple Pattern推理算法以及SPARQL基本圖模式(Basic Graph Pattern, BGP)查詢算法。并且根據(jù)BGP中子句的選擇度、子句之間是否有共享變量以及子句的謂語是否為rdf:type對BGP查詢算法進(jìn)行優(yōu)化。 (3)采用RDF標(biāo)準(zhǔn)測試數(shù)據(jù)集LUBM分別在單機(jī)偽分布式Hadoop系統(tǒng)以及真實(shí)的分布式Hadoop集群環(huán)境下對存儲模型與查詢算法進(jìn)行了實(shí)驗(yàn)評估,實(shí)驗(yàn)對不同大小的數(shù)據(jù)集分別執(zhí)行LUBM提供的14種查詢,驗(yàn)證了存儲模型和查詢算法的可行性,并且對BGP優(yōu)化前與優(yōu)化后的查詢性能進(jìn)行了分析與比較。并且與現(xiàn)有的存儲模型與查詢算法進(jìn)行比較,通過對比實(shí)驗(yàn)證明了本文提出的方案的有效性。
【學(xué)位單位】：南京大學(xué)
【學(xué)位級別】：碩士
【學(xué)位年份】：2013
【中圖分類】：TP311.13;TP333
【文章目錄】：
摘要
Abstract
目錄
第一章緒論
    1.1 研究背景及意義
    1.2 研究現(xiàn)狀及熱點(diǎn)
    1.3 本文研究內(nèi)容
    1.4 本文組織機(jī)構(gòu)
第二章相關(guān)技術(shù)綜述
    2.1 語義網(wǎng)相關(guān)技術(shù)
        2.1.1 RDF
        2.1.2 RDF Schema
        2.1.3 本體
        2.1.4 SPARQL
    2.2 分布式計算技術(shù)
        2.2.1 MapReduce
        2.2.2 Hadoop
        2.2.3 HBase
    2.3 現(xiàn)有的RDF數(shù)據(jù)存儲模型
        2.3.1 集中式關(guān)系型RDF數(shù)據(jù)存儲
        2.3.2 分布式RDF數(shù)據(jù)存儲
    2.4 本章小結(jié)
第三章基于HBase的RDF數(shù)據(jù)存儲模型
    3.1 本體模型存儲
    3.2 RDF實(shí)例數(shù)據(jù)存儲
    3.3 與其他存儲模型的比較
    3.4 本章小結(jié)
第四章 SPARQL查詢與更新算法
    4.1 SPARQL查詢算法
        4.1.1 SPARQL BGP查詢總體架構(gòu)
        4.1.2 Triple Pattern與三元組匹配算法matchTP_T
        4.1.3 單個Triple Pattern查詢算法QueryTP
        4.1.4 推理算法ReasonTP
        4.1.5 BGP查詢算法QueryBGP
    4.2 BGP查詢示例
    4.3 BGP查詢優(yōu)化
    4.4 更新算法
    4.5 本章小結(jié)
第五章實(shí)驗(yàn)結(jié)果與分析
    5.1 實(shí)驗(yàn)環(huán)境
    5.2 數(shù)據(jù)加載
    5.3 實(shí)驗(yàn)結(jié)果分析
    5.4 與其他方案實(shí)驗(yàn)對比
    5.5 本章小結(jié)
第六章總結(jié)與展望
    6.1 論文總結(jié)
    6.2 進(jìn)一步的研究工作
致謝
參考文獻(xiàn)

【參考文獻(xiàn)】

相關(guān)期刊論文前2條

1 杜小勇;王琰;呂彬;;語義Web數(shù)據(jù)管理研究進(jìn)展[J];軟件學(xué)報;2009年11期

2 鮑文;李冠宇;;本體存儲技術(shù)研究[J];計算機(jī)技術(shù)與發(fā)展;2008年01期

本文編號：2836544

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2836544.html

上一篇：MC9S08系列MCU的背景調(diào)試方式的研究與開發(fā)
下一篇：對多維數(shù)據(jù)存儲技術(shù)的研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于HBase的RDF數(shù)據(jù)存儲與查詢研究