一種基于Hadoop的RDF數(shù)據(jù)劃分與存儲(chǔ)研究
發(fā)布時(shí)間:2020-07-11 01:38
【摘要】:語(yǔ)義Web是當(dāng)前萬(wàn)維網(wǎng)的一種擴(kuò)展,通過(guò)為萬(wàn)維網(wǎng)的文檔添加可被計(jì)算機(jī)自動(dòng)識(shí)別的語(yǔ)義信息,促進(jìn)計(jì)算機(jī)之間及其與人之間的協(xié)同工作,實(shí)現(xiàn)數(shù)據(jù)的自動(dòng)化處理,從而提高信息檢索的效率。但隨著語(yǔ)義Web數(shù)據(jù)量的急劇增長(zhǎng),RDF數(shù)據(jù)的存儲(chǔ)和檢索面臨嚴(yán)峻的挑戰(zhàn),幸運(yùn)的是,Hadoop平臺(tái)的MapReduce并行框架和分布式數(shù)據(jù)庫(kù)HBase能夠滿足海量數(shù)據(jù)的查詢與存儲(chǔ)需求,本文基于Hadoop平臺(tái)對(duì)RDF數(shù)據(jù)的存儲(chǔ)以及加載任務(wù)進(jìn)行有益的研究,主要研究工作及成果如下: (1)設(shè)計(jì)一種以HBase為存儲(chǔ)介質(zhì)、基于OWL的RDF數(shù)據(jù)存儲(chǔ)方案。該方案采用HBase作為存儲(chǔ)介質(zhì),基于OWL本體文件中定義的語(yǔ)義信息設(shè)計(jì)多張表以存儲(chǔ)RDF數(shù)據(jù)。首先設(shè)計(jì)NOSClass表和NOSProperty表用于保存OWL語(yǔ)義信息,為推理和查詢優(yōu)化操作提供依據(jù);接著為本體的每個(gè)類設(shè)計(jì)S PO和O PS兩張表,用以保存該類的所有三元組信息;最后設(shè)計(jì)NOSType表和NOSInstance表用于保存謂語(yǔ)為"rdf:type"的所有三元組數(shù)據(jù)。 (2)設(shè)計(jì)一種高效的并行式解析、劃分和加載RDF數(shù)據(jù)的算法。首先使用一個(gè)MapReduce任務(wù)并行解析RDF數(shù)據(jù)并按三元組的主語(yǔ)所屬于的類進(jìn)行劃分;然后逐個(gè)將劃分的三元組文件轉(zhuǎn)換成相應(yīng)的HFile文件;接著使用Bulk Load命令將HFile文件逐個(gè)加載到HBase集群中;最后在Hadoop平臺(tái)上驗(yàn)證本文提出的并行式解析和加載RDF數(shù)據(jù)算法的有效性。 (3)本文結(jié)合選擇度估值和三元組模式分組兩種查詢優(yōu)化方法的特征,提出一種混合優(yōu)化方法,先使用三元組模式分組方法將輸入的三元組模式劃分到七種類型中,對(duì)每個(gè)類型里的多個(gè)三元組模式使用選擇度估值方法進(jìn)行排序,從而生成查詢執(zhí)行計(jì)劃,最后在Hadoop的單機(jī)偽分布式平臺(tái)上驗(yàn)證本文提出的混合優(yōu)化方法的有效性。
【學(xué)位授予單位】:南京大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2013
【分類號(hào)】:TP333;TP391.1
本文編號(hào):2749770
【學(xué)位授予單位】:南京大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2013
【分類號(hào)】:TP333;TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 葉育鑫;歐陽(yáng)丹彤;;混合語(yǔ)義約簡(jiǎn)和選擇估值優(yōu)化SPARQL[J];電子學(xué)報(bào);2010年05期
相關(guān)碩士學(xué)位論文 前2條
1 沈文南;一個(gè)RDF存儲(chǔ)與查詢系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];東南大學(xué);2006年
2 劉靜;RDF查詢中非強(qiáng)制匹配問(wèn)題研究[D];河海大學(xué);2007年
本文編號(hào):2749770
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2749770.html
最近更新
教材專著