面向web規(guī)模RDF數(shù)據(jù)查詢(xún)算法的研究與實(shí)現(xiàn)
本文選題:語(yǔ)義網(wǎng) + RDF數(shù)據(jù); 參考:《東北大學(xué)》2014年碩士論文
【摘要】:目前因特網(wǎng)發(fā)展出現(xiàn)瓶頸的原因之一是由于沒(méi)有賦予網(wǎng)絡(luò)上的全部資源足夠的語(yǔ)義信息。最主要的原因在于,現(xiàn)在的網(wǎng)絡(luò)主要是基于超鏈接實(shí)現(xiàn)的,網(wǎng)絡(luò)只是知道如何顯示資源,卻不清楚資源的實(shí)際含義。而RDF (Resource Description Framework)正是由W3C提出的語(yǔ)義網(wǎng)的標(biāo)準(zhǔn)描述框架。隨著信息提取技術(shù)的發(fā)展和語(yǔ)義網(wǎng)的不斷進(jìn)步,網(wǎng)絡(luò)中涌現(xiàn)出大量的RDF數(shù)據(jù),如何存儲(chǔ)、管理以及檢索如此龐大的RDF數(shù)據(jù)已經(jīng)成為了一項(xiàng)棘手卻亟待解決的問(wèn)題。SPARQL查詢(xún)是W3C提出的對(duì)RDF進(jìn)行查詢(xún)的標(biāo)準(zhǔn)查詢(xún)語(yǔ)言。目前RDF查詢(xún)算法面臨的主要問(wèn)題是:(1)不支持帶有通配符的SPARQL查詢(xún)。(2)不能支持實(shí)時(shí)在線(xiàn)更新。(3)可擴(kuò)展性差。本文基于以上三個(gè)問(wèn)題,提出了基于索引的查詢(xún)算法以及分布式環(huán)境的查詢(xún)算法。針對(duì)以上問(wèn)題,首先在第三章基于索引的查詢(xún)算法中做了如下工作:(1)采取基于圖的模型來(lái)存儲(chǔ)RDF數(shù)據(jù)。具體地講,本文通過(guò)基于索引的鄰接表存儲(chǔ)RDF數(shù)據(jù)。(2)本文在原始RDF圖的基礎(chǔ)上,對(duì)每個(gè)實(shí)體和類(lèi)頂點(diǎn)增加一個(gè)標(biāo)記信息。隨之,提出了一種新的索引結(jié)構(gòu)VS*-tree。它可以對(duì)上述帶有數(shù)字標(biāo)記信息的RDF圖進(jìn)行快速索引,且維護(hù)代價(jià)較低,易于更新。(3)針對(duì)帶有數(shù)字標(biāo)記信息的數(shù)據(jù)圖,本節(jié)提出了一種新的剪枝規(guī)則,這種剪枝規(guī)則可以完美的嵌入到本文提出的查詢(xún)算法中,并且同時(shí)適用于普通SPARQL查詢(xún)和帶有通配符的SPARQL查詢(xún)。其次,本文充分考慮了RDF數(shù)據(jù)本身的特點(diǎn),在第四章分布式環(huán)境的算法中(1)提出了一種擴(kuò)展性強(qiáng)的RDF數(shù)據(jù)系統(tǒng),該系統(tǒng)可以通過(guò)Hadoop框架可以直接利用任何現(xiàn)有集中式算法。(2)提出的數(shù)據(jù)分割技術(shù)和存儲(chǔ)技術(shù)可以顯著的降低查詢(xún)過(guò)程中的數(shù)據(jù)通信量。(3)給出了一種可以自動(dòng)將查詢(xún)分解成可并行執(zhí)行片段的算法,使得大量獨(dú)立執(zhí)行片段可以在不進(jìn)行通信的前提下,在數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)獨(dú)立獲得查詢(xún)子結(jié)果,進(jìn)一步提高了算法的可擴(kuò)展性。在本文的最后,通過(guò)大量實(shí)驗(yàn)驗(yàn)證了本文算法的有效性及高效性。
[Abstract]:One of the reasons for the bottleneck in the development of the Internet is that it does not give sufficient semantic information to all the resources on the network.The main reason is that the current network is mainly based on hyperlinks, the network only knows how to display resources, but not the actual meaning of resources.RDF Resource Description Framework is the standard description framework of semantic Web proposed by W3C.With the development of information extraction technology and the continuous progress of semantic web, a large number of RDF data emerge in the network, how to store,Managing and retrieving such huge RDF data has become a thorny and urgent problem. Sparql query is a standard query language proposed by W3C to query RDF.At present, the main problem of RDF query algorithm is that SPARQL query with wildcard character is not supported by SPARQL query.Based on the above three problems, this paper proposes an index-based query algorithm and a distributed environment query algorithm.In order to solve the above problems, we first do the following work in the third chapter indexing based query algorithm: 1) using graph based model to store RDF data.Specifically, this paper stores RDF data through an index-based adjacency table.) on the basis of the original RDF graph, this paper adds a marker information to each entity and class vertex.Then, a new index structure, VS- tree, is proposed.This section proposes a new pruning rule for data graphs with digital tag information, which can be indexed quickly and easily updated with low maintenance cost.This pruning rule can be perfectly embedded into the query algorithm proposed in this paper and can be applied to both normal SPARQL queries and SPARQL queries with wildcard characters.Secondly, this paper takes the characteristics of RDF data into full consideration, and in chapter 4, the algorithm of distributed environment, we propose a kind of RDF data system with strong expansibility.The system can directly use any existing centralized algorithm. The data segmentation technology and the storage technology can significantly reduce the data traffic in the query process through the Hadoop framework.An algorithm that decomposes into parallel execution fragments,A large number of independent execution fragments can obtain query sub-results independently in the data storage node without communication, which further improves the scalability of the algorithm.At the end of this paper, the effectiveness and efficiency of the proposed algorithm are verified by a large number of experiments.
【學(xué)位授予單位】:東北大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類(lèi)號(hào)】:TP393.4
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 張麗紅;;查詢(xún)算法的優(yōu)化設(shè)計(jì)[J];職大學(xué)報(bào);2009年02期
2 陳富強(qiáng);奚建清;;商覆蓋立方體中下掘與上卷操作的查詢(xún)算法設(shè)計(jì)[J];信息技術(shù);2011年04期
3 李英女,鄭國(guó)雄;鐵路客運(yùn)信息查詢(xún)算法[J];鐵路計(jì)算機(jī)應(yīng)用;2000年02期
4 徐紅波;郝忠孝;;一種基于Z曲線(xiàn)近似k-最近對(duì)查詢(xún)算法[J];計(jì)算機(jī)研究與發(fā)展;2008年02期
5 劉平;陳旭燦;李思昆;;嵌入式空間數(shù)據(jù)庫(kù)綜合查詢(xún)算法[J];計(jì)算機(jī)工程;2008年17期
6 趙智慧;;基于對(duì)象方向方位的連續(xù)方向查詢(xún)算法[J];齊齊哈爾大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年04期
7 徐紅波;韓啟龍;潘海為;;空間數(shù)據(jù)庫(kù)最優(yōu)位置查詢(xún)算法研究[J];計(jì)算機(jī)工程與應(yīng)用;2011年18期
8 杜左強(qiáng);基于對(duì)象的空間數(shù)據(jù)庫(kù)的方位查詢(xún)算法[J];信息技術(shù);2004年07期
9 徐紅波;郝忠孝;;一種采用Z曲線(xiàn)高維空間范圍查詢(xún)算法[J];小型微型計(jì)算機(jī)系統(tǒng);2009年10期
10 高靜波,李新友,唐澤圣,周曉輝;半動(dòng)態(tài)矩形交查詢(xún)算法[J];軟件學(xué)報(bào);1997年08期
相關(guān)會(huì)議論文 前10條
1 洪潤(rùn)秋;金文;陳鋼;王能斌;;迭代查詢(xún)子查詢(xún)算法的研究[A];第十一屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集[C];1993年
2 常珂;劉辰;楊正球;;基于樹(shù)狀結(jié)構(gòu)的查詢(xún)算法的設(shè)計(jì)與實(shí)現(xiàn)[A];中國(guó)通信學(xué)會(huì)第六屆學(xué)術(shù)年會(huì)論文集(中)[C];2009年
3 孫煥良;劉江秀;許景科;;基于楔的時(shí)間序列流雙向封裝過(guò)濾查詢(xún)算法[A];第二十五屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(二)[C];2008年
4 李江波;周強(qiáng);陳祖舜;;漢語(yǔ)詞典快速查詢(xún)算法研究[A];第二屆全國(guó)學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2004年
5 董科;王國(guó)仁;寧博;毛克明;趙相國(guó);;基于壓縮葉子流的XML Twig查詢(xún)[A];第二十三屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2006年
6 劉旭輝;馮建華;洪親;;一種支持更新的圖可達(dá)性查詢(xún)算法[A];第二十四屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2007年
7 劉怡;郝云飛;;一種有效的復(fù)調(diào)音樂(lè)查詢(xún)算法[A];第三屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2007)論文集[C];2007年
8 黃海;侯穎;朱圣平;;一種多維向量并行查詢(xún)算法[A];2010年全國(guó)開(kāi)放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集[C];2010年
9 徐忠華;張剡;陳玲;柏文陽(yáng);;基于星型模型的輪廓連接查詢(xún)算法[A];第26屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(A輯)[C];2009年
10 陳冬霞;吉根林;武志峰;;一種基于簽名的XML查詢(xún)算法[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2004年
相關(guān)博士學(xué)位論文 前7條
1 徐紅波;基于空間填充曲線(xiàn)高維空間查詢(xún)算法研究[D];哈爾濱理工大學(xué);2010年
2 劉潤(rùn)濤;基于序的空間數(shù)據(jù)索引及查詢(xún)算法研究[D];哈爾濱理工大學(xué);2009年
3 季長(zhǎng)清;云計(jì)算環(huán)境下的大規(guī)模空間近鄰查詢(xún)算法研究[D];大連海事大學(xué);2014年
4 鄒磊;圖數(shù)據(jù)庫(kù)中的子圖查詢(xún)算法研究[D];華中科技大學(xué);2009年
5 謝鯤;布魯姆過(guò)濾器查詢(xún)算法及其應(yīng)用研究[D];湖南大學(xué);2007年
6 劉艷;基于主存的高維空間連接及查詢(xún)算法研究[D];哈爾濱理工大學(xué);2011年
7 田小梅;多布魯姆過(guò)濾器查詢(xún)算法及其應(yīng)用研究[D];湖南大學(xué);2013年
相關(guān)碩士學(xué)位論文 前10條
1 黃海龍;大規(guī)模圖的圖查詢(xún)算法研究[D];燕山大學(xué);2015年
2 李青;分布式計(jì)算環(huán)境下海量RDF數(shù)據(jù)的skyline查詢(xún)研究[D];鄭州大學(xué);2015年
3 鄧育;空間近似關(guān)鍵字反遠(yuǎn)鄰查詢(xún)方法研究[D];安徽工業(yè)大學(xué);2015年
4 于世龍;信息物理融合系統(tǒng)資源索引與查詢(xún)技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2013年
5 郭巖;實(shí)時(shí)數(shù)據(jù)流相似性查詢(xún)算法的研究[D];華北電力大學(xué);2015年
6 鐘麗娟;時(shí)間序列數(shù)據(jù)相似性與聚合top-k查詢(xún)算法研究與應(yīng)用[D];浙江大學(xué);2016年
7 李海莉;面向高速骨干網(wǎng)的網(wǎng)絡(luò)流量測(cè)量關(guān)鍵技術(shù)研究[D];解放軍信息工程大學(xué);2014年
8 孟凡帥;基于HDFS的時(shí)空數(shù)據(jù)共享與查詢(xún)隱私保護(hù)的研究與實(shí)現(xiàn)[D];東北大學(xué);2014年
9 劉增蘭;同構(gòu)發(fā)布/訂閱系統(tǒng)的系統(tǒng)最優(yōu)化與并行查詢(xún)算法的研究與實(shí)現(xiàn)[D];東北大學(xué);2014年
10 葉向東;面向web規(guī)模RDF數(shù)據(jù)查詢(xún)算法的研究與實(shí)現(xiàn)[D];東北大學(xué);2014年
,本文編號(hào):1751622
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1751622.html