分布式環(huán)境下的RDF子圖匹配方法研究
發(fā)布時(shí)間:2021-02-15 09:49
如今,隨著知識(shí)圖譜的興起,越來(lái)越多的數(shù)據(jù)集采用資源描述框架(RDF)的格式發(fā)布和維護(hù)數(shù)據(jù),由于RDF數(shù)據(jù)天然的圖結(jié)構(gòu)模型,可以將SPARQL檢索RDF數(shù)據(jù)問(wèn)題轉(zhuǎn)換為大圖上的子圖匹配問(wèn)題。大量RDF數(shù)據(jù)的發(fā)布,使得利用SPARQL查詢進(jìn)行RDF數(shù)據(jù)的檢索超出了單機(jī)處理能力的限制,基于分布式的圖匹配方法日益受到關(guān)注。在分布式RDF查詢處理中,由于查詢圖的規(guī)模與復(fù)雜度的不斷增長(zhǎng),其復(fù)雜的結(jié)構(gòu)使得查詢優(yōu)化面臨著查詢準(zhǔn)確性和性能的雙重挑戰(zhàn)。針對(duì)以上問(wèn)題,本文通過(guò)比較當(dāng)前主流的分布式RDF圖查詢優(yōu)化方案的優(yōu)缺點(diǎn),經(jīng)過(guò)理論分析與實(shí)驗(yàn)驗(yàn)證,提出了一種由結(jié)構(gòu)主導(dǎo)的分布式子圖匹配優(yōu)化方法。本課題研究期間的主要工作如下:首先,對(duì)于數(shù)據(jù)進(jìn)行預(yù)處理。通過(guò)Jena2將OWL本體數(shù)據(jù)集進(jìn)行數(shù)據(jù)抽取處理,得到便于處理的NT格式的RDF元數(shù)據(jù),利用字典編碼技術(shù)將冗長(zhǎng)的元數(shù)據(jù)信息以整數(shù)id形式進(jìn)行壓縮存儲(chǔ);提出了本文的摘要統(tǒng)計(jì)圖模式,利用基于類型的數(shù)據(jù)統(tǒng)計(jì)方式對(duì)本文提出的代價(jià)模型計(jì)算所需要的相關(guān)數(shù)據(jù)進(jìn)行預(yù)收集與統(tǒng)計(jì);提出了針對(duì)圖探索策略所制定的數(shù)據(jù)圖的分區(qū)方式及基于內(nèi)存的數(shù)據(jù)存儲(chǔ)索引結(jié)構(gòu),將壓縮之后的整形三元組數(shù)據(jù)依據(jù)整...
【文章來(lái)源】:大連海事大學(xué)遼寧省 211工程院校
【文章頁(yè)數(shù)】:61 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景及意義
1.2 問(wèn)題描述與研究?jī)?nèi)容
1.3 國(guó)內(nèi)外研究現(xiàn)狀
1.4 論文組織結(jié)構(gòu)
2 相關(guān)概念及關(guān)鍵技術(shù)
2.1 RDF數(shù)據(jù)模型和SPARQL查詢模型
2.1.1 RDF數(shù)據(jù)模型
2.1.2 SPARQL查詢模型
2.2 鍵值對(duì)存儲(chǔ)和倒排索引
2.2.1 鍵值對(duì)存儲(chǔ)
2.2.2 倒排索引
2.3 圖探索策略
2.4 推遲笛卡爾積
2.5 本章小結(jié)
3 系統(tǒng)框架及數(shù)據(jù)預(yù)處理
3.1 SDSM框架
3.1.1 SDSM的IPO流程
3.1.2 SDSM框架概述
3.2 RDF數(shù)據(jù)圖預(yù)處理
3.2.1 字典編碼
3.2.2 數(shù)據(jù)的分區(qū)劃分及存儲(chǔ)模式
3.2.3 基于類型的統(tǒng)計(jì)概要
3.3 本章小結(jié)
4 基于結(jié)構(gòu)分解的RDF并行子圖匹配模型
4.1 查詢預(yù)處理
4.1.1 CPM查詢圖分解模型
4.1.2 查詢計(jì)劃生成
4.2 查詢執(zhí)行
4.2.1 將查詢圖轉(zhuǎn)化為查詢計(jì)劃樹(shù)
4.2.2 高并發(fā)的子路徑匹配連接算法
4.3 本章小結(jié)
5 綜合實(shí)驗(yàn)分析
5.1 實(shí)驗(yàn)環(huán)境與數(shù)據(jù)集
5.2 實(shí)驗(yàn)對(duì)比及分析
5.2.1 查詢效率對(duì)比
5.2.2 可擴(kuò)展性評(píng)估
5.2.3 實(shí)驗(yàn)結(jié)論
5.3 本章小結(jié)
總結(jié)與展望
參考文獻(xiàn)
致謝
作者簡(jiǎn)歷及攻讀碩士學(xué)位期間的科研成果
【參考文獻(xiàn)】:
期刊論文
[1]分布式RDF數(shù)據(jù)管理綜述[J]. 鄒磊,彭鵬. 計(jì)算機(jī)研究與發(fā)展. 2017(06)
本文編號(hào):3034616
【文章來(lái)源】:大連海事大學(xué)遼寧省 211工程院校
【文章頁(yè)數(shù)】:61 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景及意義
1.2 問(wèn)題描述與研究?jī)?nèi)容
1.3 國(guó)內(nèi)外研究現(xiàn)狀
1.4 論文組織結(jié)構(gòu)
2 相關(guān)概念及關(guān)鍵技術(shù)
2.1 RDF數(shù)據(jù)模型和SPARQL查詢模型
2.1.1 RDF數(shù)據(jù)模型
2.1.2 SPARQL查詢模型
2.2 鍵值對(duì)存儲(chǔ)和倒排索引
2.2.1 鍵值對(duì)存儲(chǔ)
2.2.2 倒排索引
2.3 圖探索策略
2.4 推遲笛卡爾積
2.5 本章小結(jié)
3 系統(tǒng)框架及數(shù)據(jù)預(yù)處理
3.1 SDSM框架
3.1.1 SDSM的IPO流程
3.1.2 SDSM框架概述
3.2 RDF數(shù)據(jù)圖預(yù)處理
3.2.1 字典編碼
3.2.2 數(shù)據(jù)的分區(qū)劃分及存儲(chǔ)模式
3.2.3 基于類型的統(tǒng)計(jì)概要
3.3 本章小結(jié)
4 基于結(jié)構(gòu)分解的RDF并行子圖匹配模型
4.1 查詢預(yù)處理
4.1.1 CPM查詢圖分解模型
4.1.2 查詢計(jì)劃生成
4.2 查詢執(zhí)行
4.2.1 將查詢圖轉(zhuǎn)化為查詢計(jì)劃樹(shù)
4.2.2 高并發(fā)的子路徑匹配連接算法
4.3 本章小結(jié)
5 綜合實(shí)驗(yàn)分析
5.1 實(shí)驗(yàn)環(huán)境與數(shù)據(jù)集
5.2 實(shí)驗(yàn)對(duì)比及分析
5.2.1 查詢效率對(duì)比
5.2.2 可擴(kuò)展性評(píng)估
5.2.3 實(shí)驗(yàn)結(jié)論
5.3 本章小結(jié)
總結(jié)與展望
參考文獻(xiàn)
致謝
作者簡(jiǎn)歷及攻讀碩士學(xué)位期間的科研成果
【參考文獻(xiàn)】:
期刊論文
[1]分布式RDF數(shù)據(jù)管理綜述[J]. 鄒磊,彭鵬. 計(jì)算機(jī)研究與發(fā)展. 2017(06)
本文編號(hào):3034616
本文鏈接:http://sikaile.net/shoufeilunwen/benkebiyelunwen/3034616.html
最近更新
教材專著