一種基于Hadoop的RDF數(shù)據(jù)劃分與存儲(chǔ)研究

發(fā)布時(shí)間：2020-07-11 01:38

【摘要】：語義Web是當(dāng)前萬維網(wǎng)的一種擴(kuò)展,通過為萬維網(wǎng)的文檔添加可被計(jì)算機(jī)自動(dòng)識(shí)別的語義信息,促進(jìn)計(jì)算機(jī)之間及其與人之間的協(xié)同工作,實(shí)現(xiàn)數(shù)據(jù)的自動(dòng)化處理,從而提高信息檢索的效率。但隨著語義Web數(shù)據(jù)量的急劇增長(zhǎng),RDF數(shù)據(jù)的存儲(chǔ)和檢索面臨嚴(yán)峻的挑戰(zhàn),幸運(yùn)的是,Hadoop平臺(tái)的MapReduce并行框架和分布式數(shù)據(jù)庫(kù)HBase能夠滿足海量數(shù)據(jù)的查詢與存儲(chǔ)需求,本文基于Hadoop平臺(tái)對(duì)RDF數(shù)據(jù)的存儲(chǔ)以及加載任務(wù)進(jìn)行有益的研究,主要研究工作及成果如下： (1)設(shè)計(jì)一種以HBase為存儲(chǔ)介質(zhì)、基于OWL的RDF數(shù)據(jù)存儲(chǔ)方案。該方案采用HBase作為存儲(chǔ)介質(zhì),基于OWL本體文件中定義的語義信息設(shè)計(jì)多張表以存儲(chǔ)RDF數(shù)據(jù)。首先設(shè)計(jì)NOSClass表和NOSProperty表用于保存OWL語義信息,為推理和查詢優(yōu)化操作提供依據(jù)；接著為本體的每個(gè)類設(shè)計(jì)S PO和O PS兩張表,用以保存該類的所有三元組信息；最后設(shè)計(jì)NOSType表和NOSInstance表用于保存謂語為"rdf:type"的所有三元組數(shù)據(jù)。 (2)設(shè)計(jì)一種高效的并行式解析、劃分和加載RDF數(shù)據(jù)的算法。首先使用一個(gè)MapReduce任務(wù)并行解析RDF數(shù)據(jù)并按三元組的主語所屬于的類進(jìn)行劃分；然后逐個(gè)將劃分的三元組文件轉(zhuǎn)換成相應(yīng)的HFile文件；接著使用Bulk Load命令將HFile文件逐個(gè)加載到HBase集群中；最后在Hadoop平臺(tái)上驗(yàn)證本文提出的并行式解析和加載RDF數(shù)據(jù)算法的有效性。 (3)本文結(jié)合選擇度估值和三元組模式分組兩種查詢優(yōu)化方法的特征,提出一種混合優(yōu)化方法,先使用三元組模式分組方法將輸入的三元組模式劃分到七種類型中,對(duì)每個(gè)類型里的多個(gè)三元組模式使用選擇度估值方法進(jìn)行排序,從而生成查詢執(zhí)行計(jì)劃,最后在Hadoop的單機(jī)偽分布式平臺(tái)上驗(yàn)證本文提出的混合優(yōu)化方法的有效性。
【學(xué)位授予單位】：南京大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2013
【分類號(hào)】：TP333;TP391.1

【參考文獻(xiàn)】

相關(guān)期刊論文前1條

1 葉育鑫;歐陽丹彤;;混合語義約簡(jiǎn)和選擇估值優(yōu)化SPARQL[J];電子學(xué)報(bào);2010年05期

相關(guān)碩士學(xué)位論文前2條

1 沈文南;一個(gè)RDF存儲(chǔ)與查詢系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];東南大學(xué);2006年

2 劉靜;RDF查詢中非強(qiáng)制匹配問題研究[D];河海大學(xué);2007年

本文編號(hào)：2749770

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2749770.html

上一篇：基于中間件技術(shù)的移動(dòng)Agent系統(tǒng)安全模型
下一篇：可穿戴計(jì)算平臺(tái)結(jié)構(gòu)設(shè)計(jì)與實(shí)現(xiàn)研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

一種基于Hadoop的RDF數(shù)據(jù)劃分與存儲(chǔ)研究