基于語義元數(shù)據(jù)的分布式存儲技術(shù)研究及應用
發(fā)布時間:2017-12-20 08:02
本文關(guān)鍵詞:基于語義元數(shù)據(jù)的分布式存儲技術(shù)研究及應用 出處:《貴州大學》2016年碩士論文 論文類型:學位論文
更多相關(guān)文章: 大數(shù)據(jù) 分布式存儲 語義網(wǎng) RDF語義元數(shù)據(jù) HBase
【摘要】:隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)存儲以及快速準確獲取自己想要的信息變得越來越困難。語義網(wǎng)和Hadoop分布式平臺的出現(xiàn)能有效解決數(shù)據(jù)存儲及獲取數(shù)據(jù)的困境,但伴隨而來的便是大規(guī)模語義元數(shù)據(jù)的出現(xiàn),這也使得數(shù)據(jù)的管理面臨巨大的挑戰(zhàn),所以構(gòu)建一個實用的語義元數(shù)據(jù)分布式存儲系統(tǒng)對推進大數(shù)據(jù)的分析與應用變得愈來愈重要。論文首先介紹了語義網(wǎng)與RDF語義元數(shù)據(jù)存儲技術(shù)的研究背景及研究現(xiàn)狀,討論了課題研究的重要性及意義,并在此基礎上闡述了語義元數(shù)據(jù)、資源描述框架RDF、Hadoop及HBase等相關(guān)技術(shù);其次,分析了RDF語義數(shù)據(jù)存儲存在的問題,并提出一種基于HBase的RDF語義元數(shù)據(jù)存儲策略,該存儲策略主要是針對HBase中Rowkey字段的數(shù)據(jù)存放提出一種優(yōu)化方法,即充分綜合數(shù)據(jù)加載、數(shù)據(jù)去重存儲以及數(shù)據(jù)查詢響應等因素,將RDF數(shù)據(jù)的謂語進行散列計算后,將該值與謂語存放于Rowkey中;第三,論文在優(yōu)化后的RDF數(shù)據(jù)存儲策略基礎上提出了數(shù)據(jù)加載、數(shù)據(jù)去重及數(shù)據(jù)查詢算法。其中,數(shù)據(jù)加載算法主要是利用HBase自帶的數(shù)據(jù)加載工具完成,數(shù)據(jù)去重算法是利用模糊C均值聚類算法實現(xiàn)模糊聚類,并通過掃描謂語表來進行優(yōu)化,進而獲取初始聚類中心值,而數(shù)據(jù)查詢方法是通過將RDF數(shù)據(jù)的三個分量分別抽象化,借鑒基本圖模式查詢方法,通過判斷查詢條件找到相關(guān)節(jié)點及邊,在為節(jié)點進行打分的基礎上對節(jié)點進行排序,找出最佳的前k個值為最終結(jié)果輸出;最后,論文利用當前最常用的語義網(wǎng)數(shù)據(jù)測試集LUBM在小型集群中進行測試,通過對各評價指標的實驗結(jié)果分析,證明了論文提出的存儲策略及算法是可行的。
【學位授予單位】:貴州大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP333
,
本文編號:1311330
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/1311330.html
最近更新
教材專著