海量RDF數(shù)據(jù)存儲與查詢技術(shù)的研究與實(shí)現(xiàn)
本文選題:語義網(wǎng) 切入點(diǎn):RDF 出處:《北京工業(yè)大學(xué)》2013年碩士論文
【摘要】:隨著互聯(lián)網(wǎng)上數(shù)據(jù)規(guī)模的日益增長,人們準(zhǔn)確、快速、全面獲取信息變得越來越困難,語義網(wǎng)(Semantic Web)通過對互聯(lián)網(wǎng)增加語義支持,使機(jī)器能夠理解數(shù)據(jù)的含義,幫助人們快速獲取信息資源。RDF(Resource Description Framework,資源描述框架)是語義網(wǎng)中數(shù)據(jù)交換的標(biāo)準(zhǔn),它以主語,謂詞,賓語三元組的形式描述語義信息。隨著語義網(wǎng)技術(shù)的不斷完善與廣泛應(yīng)用,RDF數(shù)據(jù)規(guī)模也在急劇增加,海量RDF數(shù)據(jù)的涌現(xiàn)給RDF的管理帶來巨大挑戰(zhàn),構(gòu)建可擴(kuò)展的RDF存儲和查詢系統(tǒng)成為語義網(wǎng)領(lǐng)域的研究熱點(diǎn)。 MapReduce是近年來新興的海量數(shù)據(jù)處理技術(shù),Hadoop是MapReduce開源實(shí)現(xiàn)工具,基于Hadoop平臺研究海量數(shù)據(jù)處理問題被廣泛關(guān)注;HBase(HadoopDatabase),是一個(gè)高可靠性、高性能、面向列、可伸縮的分布式存儲系統(tǒng),和Hadoop MapReduce有著完善的集成機(jī)制。通過研究RDF存儲和查詢的原理以及HBase的特點(diǎn),分析HBase存儲RDF的優(yōu)勢,給出了一個(gè)基于HBase的RDF存儲系統(tǒng)設(shè)計(jì)方案,并實(shí)現(xiàn)了RDF存儲原型系統(tǒng),主要包括以下內(nèi)容: 1.根據(jù)RDF存儲和查詢的特點(diǎn),,結(jié)合HBase自身的索引機(jī)制以及行健(HBase RowKey)按字典排序的特性,設(shè)計(jì)了RDF在HBase上的存儲模式。 2.針對海量RDF數(shù)據(jù)的加載問題,給出了一種基于MapReduce的并行加載算法,實(shí)現(xiàn)將RDF數(shù)據(jù)快速加載到HBase的功能。 3.根據(jù)RDF在HBase上的存儲模式,設(shè)計(jì)了三元組模式查詢響應(yīng)策略;采用MapReduce迭代實(shí)現(xiàn)基本圖模式查詢的并行處理,給出了一種以HBase Region為數(shù)據(jù)源的MapReduce并行連接(join)方法。 通過構(gòu)建基于HBase的RDF存儲原型系統(tǒng),采用基準(zhǔn)測試工具對系統(tǒng)的加載性能和查詢性能進(jìn)行了測試和分析,試驗(yàn)表明基于HBase實(shí)現(xiàn)海量RDF數(shù)據(jù)的存儲和查詢系統(tǒng)是一種有效的可選方案。
[Abstract]:With the increasing scale of data on the Internet, it is becoming more and more difficult for people to obtain information accurately, quickly and comprehensively. The semantic Web adds semantic support to the Internet to enable machines to understand the meaning of data. RDF Resource Description Framework (Resource description Framework) is the standard of data exchange in the semantic Web. With the continuous improvement and wide application of semantic Web technology, the scale of RDF data is increasing rapidly, and the emergence of massive RDF data brings great challenges to the management of RDF. The construction of extensible RDF storage and query systems has become a research hotspot in the semantic web. MapReduce is a newly emerging mass data processing technology in recent years. Hadoop is an open source MapReduce implementation tool. The research of mass data processing based on Hadoop platform has been widely concerned. It is a high reliability, high performance, column oriented, scalable distributed storage system. It has perfect integration mechanism with Hadoop MapReduce. By studying the principle of RDF storage and query and the characteristics of HBase, this paper analyzes the advantages of HBase storage RDF, presents a RDF storage system design scheme based on HBase, and implements the RDF storage prototype system. It mainly includes the following:. 1. According to the characteristics of RDF storage and query, combined with the index mechanism of HBase and the dictionary-sorting property of HBase, the storage mode of RDF on HBase is designed. 2. Aiming at the loading problem of massive RDF data, a parallel loading algorithm based on MapReduce is presented, which can load RDF data into HBase quickly. 3. According to the storage mode of RDF on HBase, the query response strategy of triple schema is designed, the parallel processing of basic graph schema query is realized by MapReduce iteration, and a MapReduce parallel join method based on HBase Region is presented. By constructing the RDF storage prototype system based on HBase, the loading performance and query performance of the system are tested and analyzed by using the benchmark tool. The experiment shows that the storage and query system of massive RDF data based on HBase is an effective alternative.
【學(xué)位授予單位】:北京工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2013
【分類號】:TP333
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 宋慶美,周明剛;基于XML的三個(gè)常用元數(shù)據(jù)描述工具的評價(jià)與比較[J];情報(bào)科學(xué);2003年06期
2 梅曉勇,肖政宏;基于XML的排課系統(tǒng)研究與實(shí)現(xiàn)[J];湖南城建高等?茖W(xué)校學(xué)報(bào);2003年03期
3 董愛兵,王小平,曹立明;基于FIPA ACL和RDF的Agent通信語言[J];計(jì)算機(jī)應(yīng)用研究;2005年07期
4 任磊;譚躍生;;基于RDF元數(shù)據(jù)的網(wǎng)格資源統(tǒng)一描述方法[J];內(nèi)蒙古科技大學(xué)學(xué)報(bào);2009年02期
5 任瑞娟;XML對數(shù)字圖書館的影響[J];大學(xué)圖書館學(xué)報(bào);2002年06期
6 張惠文;基于XML的元數(shù)據(jù)架構(gòu)[J];情報(bào)科學(xué);2002年10期
7 張惠文;基于XML的元數(shù)據(jù)架構(gòu)[J];現(xiàn)代情報(bào);2002年07期
8 李曉紅,侯敏;網(wǎng)絡(luò)環(huán)境下元數(shù)據(jù)格式比較研究[J];圖書館學(xué)刊;2003年05期
9 羅三定,廖程鋒;一種新的搜索引擎探討[J];情報(bào)學(xué)報(bào);2004年04期
10 周智昊;;資源描述框架的形式化表示問題研究[J];華中農(nóng)業(yè)大學(xué)學(xué)報(bào)(社會科學(xué)版);2007年04期
相關(guān)會議論文 前10條
1 華雯;王琰;陳躍國;陳晉川;杜小勇;;一個(gè)基于演化聚類的RDF數(shù)據(jù)管理系統(tǒng)[A];NDBC2010第27屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)[C];2010年
2 陶導(dǎo);錢衛(wèi)寧;魏芳;周傲英;;基于關(guān)系數(shù)據(jù)庫的RDF數(shù)據(jù)存儲[A];第二十五屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(一)[C];2008年
3 吳剛;楊夢冬;;RDF數(shù)據(jù)的并行處理及性能評價(jià)[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)[C];2009年
4 李勛龍;郭瑞強(qiáng);丁祥武;樂嘉錦;;基于RDF模式的存儲方法研究[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報(bào)告篇)[C];2004年
5 周斌;雷建國;;一項(xiàng)新型垃圾衍生燃料(RDF)制備工藝系統(tǒng)[A];2010中國環(huán)境科學(xué)學(xué)會學(xué)術(shù)年會論文集(第四卷)[C];2010年
6 黃新艷;姚文琳;徐建良;;基于漢英雙語語料庫的漢英Ontology的建立與管理[A];第七屆青年學(xué)術(shù)會議論文集[C];2005年
7 石翌軼;;基于前向鏈策略的RDF閉包生成技術(shù)研究[A];2008'中國信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(一)[C];2008年
8 王伯春;劉寶林;李代禧;余德洋;;不同條件下水玻璃化過程的模擬[A];第六屆全國低溫生物醫(yī)學(xué)及器械學(xué)術(shù)大會論文集[C];2009年
9 徐慧;劉會芬;肖德寶;熊磊;徐艷;;面向語義網(wǎng)的智能信息檢索研究[A];2007通信理論與技術(shù)新發(fā)展——第十二屆全國青年通信學(xué)術(shù)會議論文集(下冊)[C];2007年
10 王丹;趙榮娟;;P2P系統(tǒng)中一種基于代理的RDF文檔查詢模型[A];2006年全國開放式分布與并行計(jì)算學(xué)術(shù)會議論文集(二)[C];2006年
相關(guān)重要報(bào)紙文章 前10條
1 本報(bào)駐英國記者 劉海英;未來的網(wǎng)絡(luò)知你心[N];科技日報(bào);2011年
2 本報(bào)記者 湯銘;IBM六大舉措助海量產(chǎn)品再爆發(fā)[N];計(jì)算機(jī)世界;2011年
3 本報(bào)記者 霍皓迪;海量時(shí)代是否到來?[N];通信產(chǎn)業(yè)報(bào);2001年
4 本報(bào)記者 武漢;海量處理構(gòu)筑新電信[N];網(wǎng)絡(luò)世界;2001年
5 本報(bào)記者 梁曉亮;三項(xiàng)技術(shù)扮靚江南水鄉(xiāng)[N];經(jīng)濟(jì)日報(bào);2009年
6 ;著眼未來迎接海量處理時(shí)代[N];網(wǎng)絡(luò)世界;2001年
7 本報(bào)記者 劉燕;中國電信數(shù)據(jù)網(wǎng)向光速海量邁進(jìn)[N];中國經(jīng)營報(bào);2002年
8 黃紹平;硬盤打造海量MP3[N];中國電子報(bào);2002年
9 本報(bào)記者 肖春江;海量存儲 海量內(nèi)涵[N];計(jì)算機(jī)世界;2000年
10 本報(bào)記者 汪云;佳杰拓展海量分銷業(yè)務(wù)[N];計(jì)算機(jī)世界;2002年
相關(guān)博士學(xué)位論文 前10條
1 竇平安;電子商務(wù)語義信息共享模式[D];吉林大學(xué);2009年
2 施冬材;基于對等網(wǎng)絡(luò)的語義發(fā)布/訂閱系統(tǒng)的關(guān)鍵技術(shù)研究[D];浙江大學(xué);2007年
3 郭曉君;關(guān)聯(lián)課程數(shù)據(jù)組織及知識管理研究[D];武漢大學(xué);2012年
4 姜贏;維度本體及其應(yīng)用[D];武漢大學(xué);2009年
5 袁遠(yuǎn)明;智慧城市信息系統(tǒng)關(guān)鍵技術(shù)研究[D];武漢大學(xué);2012年
6 謝銘;關(guān)聯(lián)數(shù)據(jù)和知識表示的自動(dòng)語義標(biāo)注技術(shù)[D];武漢大學(xué);2012年
7 尹華罡;基于海量時(shí)空數(shù)據(jù)的路線挖掘與檢索[D];中國科學(xué)技術(shù)大學(xué);2012年
8 楊正益;制造物聯(lián)海量實(shí)時(shí)數(shù)據(jù)處理方法研究[D];重慶大學(xué);2012年
9 田豐林;海量三維模型的交互繪制[D];浙江大學(xué);2010年
10 曹海儐;海量視頻的分布式協(xié)作處理與檢索研究[D];中國科學(xué)技術(shù)大學(xué);2013年
相關(guān)碩士學(xué)位論文 前10條
1 宋紀(jì)成;海量RDF數(shù)據(jù)存儲與查詢技術(shù)的研究與實(shí)現(xiàn)[D];北京工業(yè)大學(xué);2013年
2 楊琴;基于關(guān)系數(shù)據(jù)庫的RDF存儲與查詢的研究與實(shí)現(xiàn)[D];電子科技大學(xué);2010年
3 朱敏;基于HBase的RDF數(shù)據(jù)存儲與查詢研究[D];南京大學(xué);2013年
4 秦冬生;基于云計(jì)算的RDF數(shù)據(jù)存儲系統(tǒng)的研究[D];合肥工業(yè)大學(xué);2013年
5 劉暢;基于大規(guī)模模糊RDF數(shù)據(jù)的推理引擎[D];上海交通大學(xué);2012年
6 曹佳碩;基于RDF的云制造資源數(shù)據(jù)存儲及檢索方法的研究與實(shí)現(xiàn)[D];北京交通大學(xué);2013年
7 郭亨亨;海量RDF數(shù)據(jù)的分布式存儲研究[D];西安建筑科技大學(xué);2010年
8 盧珊;UML類圖模型到RDF(S)的映射方法的研究[D];東北大學(xué);2010年
9 孫博;RDF數(shù)據(jù)管理系統(tǒng)研究[D];天津大學(xué);2010年
10 吳德龍;基于存儲優(yōu)化模型的RDF數(shù)據(jù)查詢機(jī)制研究[D];華中科技大學(xué);2011年
本文編號:1662536
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/1662536.html