基于關(guān)聯(lián)特征的多維元數(shù)據(jù)組織方法研究
發(fā)布時間:2019-09-16 13:28
【摘要】:隨著云計算、云存儲時代的到來,信息存儲系統(tǒng)中數(shù)據(jù)規(guī)模正在不斷擴大,信息的存儲、檢索、分析和處理也變得越來越困難。在海量存儲系統(tǒng)中想要高效的查找和管理文件,必須依賴文件元數(shù)據(jù)完成一些復(fù)雜查詢。文件系統(tǒng)的多維元數(shù)據(jù)信息,如文件大小、文件類型、訪問時間和修改時間等,是存儲系統(tǒng)中非常重要的信息。通過分析并利用多維元數(shù)據(jù)之間存在的關(guān)聯(lián)特征,能夠更好的對其進行管理,并支持高效復(fù)雜的元數(shù)據(jù)查詢。 在海量存儲系統(tǒng)中,關(guān)聯(lián)特征是指文件數(shù)據(jù)在屬性空間中的聚集效果,在一定程度上反映了文件數(shù)據(jù)之間的相關(guān)性。目前在大多數(shù)元數(shù)據(jù)管理系統(tǒng)中基于關(guān)聯(lián)性特征的分析主要集中在單一的時間或空間維度上,缺少針對多維度屬性特征的分析和研究,并且對單一維度的關(guān)聯(lián)特征分析造成各維度之間結(jié)合不夠緊密,使得這些系統(tǒng)無法有效的支持復(fù)雜元數(shù)據(jù)查詢。因此采用簡單、快速的方法同時對元數(shù)據(jù)的多維屬性進行分析、感知和識別,,并利用多維度之間的關(guān)聯(lián)特征進行元數(shù)據(jù)的管理,將直接影響元數(shù)據(jù)的訪問效率。 利用元數(shù)據(jù)之間多維度的關(guān)聯(lián)特征,實現(xiàn)了一個基于關(guān)聯(lián)特征組織元數(shù)據(jù)的查詢系統(tǒng)。該系統(tǒng)以局部靈敏哈希算法為基礎(chǔ),高效組織并建立元數(shù)據(jù)索引,通過一定方法將具有關(guān)聯(lián)特征的元數(shù)據(jù)信息聚集至同一分組中,在查詢到來時能夠在極短時間內(nèi)定位到其相關(guān)性較高的分組中并預(yù)取結(jié)果,以提供快速、準確、可擴展的復(fù)雜元數(shù)據(jù)查詢服務(wù)。 實驗結(jié)果表明,利用關(guān)聯(lián)特征組織并實現(xiàn)的元數(shù)據(jù)查詢系統(tǒng)能夠快速、準確的響應(yīng)用戶提出的復(fù)雜元數(shù)據(jù)查詢請求,為海量存儲系統(tǒng)元數(shù)據(jù)訪問提供了多種查詢支持,并且具有良好的可擴展性。
【圖文】:
37圖 4.2 合成-trace 參數(shù) R 對查詢效率的影響測試結(jié)果表明,對于不同的數(shù)據(jù)集,在一定范圍內(nèi)的參數(shù) R 值其查詢性能接受的;而其他范圍內(nèi)的參數(shù) R 值其查詢性能明顯比最優(yōu)性能要慢 10 倍至右;本文提出的基于采樣預(yù)評估的參數(shù) R 的選取方法在 LANL-trace 數(shù)據(jù)集的最優(yōu) R 值分別為 112,165 和 89;在合成-trace 數(shù)據(jù)集中估算出的最優(yōu) R 1452 和 2679;針對不同負載特征的數(shù)據(jù)集,基本都能大致估算出參數(shù) R ,因此該方法是可行的。在確定了最優(yōu)參數(shù) R 之后,系統(tǒng)會根據(jù)用戶對查詢準確率的要求自動計算
圖 4.3 參數(shù) k 對查詢效率的影響測試結(jié)果表明,查詢性能隨著參數(shù) k 的變化而變化,呈現(xiàn)出中間低兩頭高而本文 3.3.2 小節(jié)中從算法上保證了選取的 k 值為樣本查詢的最優(yōu)值,而由算的不確定性,因此該組參數(shù)在實際查詢時能保證其查詢時間在最優(yōu)值附近 查詢性能測試本節(jié)主要對單 MDS 節(jié)點上的查詢性能做對比測試,測試的對比對象為 DBysql v14.14),使用到的數(shù)據(jù)集為 LANL trace 中共約 100 萬條元數(shù)據(jù)信息。選取了一組性能較優(yōu)的分組參數(shù)(k=4,L=1,w=400,index_size=4000)對行了分組索引,接下來從點查詢、KNN 查詢、范圍查詢?nèi)矫鏈y試查詢性率。.1 點查詢性能測試
【學(xué)位授予單位】:華中科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2013
【分類號】:TP333
本文編號:2536211
【圖文】:
37圖 4.2 合成-trace 參數(shù) R 對查詢效率的影響測試結(jié)果表明,對于不同的數(shù)據(jù)集,在一定范圍內(nèi)的參數(shù) R 值其查詢性能接受的;而其他范圍內(nèi)的參數(shù) R 值其查詢性能明顯比最優(yōu)性能要慢 10 倍至右;本文提出的基于采樣預(yù)評估的參數(shù) R 的選取方法在 LANL-trace 數(shù)據(jù)集的最優(yōu) R 值分別為 112,165 和 89;在合成-trace 數(shù)據(jù)集中估算出的最優(yōu) R 1452 和 2679;針對不同負載特征的數(shù)據(jù)集,基本都能大致估算出參數(shù) R ,因此該方法是可行的。在確定了最優(yōu)參數(shù) R 之后,系統(tǒng)會根據(jù)用戶對查詢準確率的要求自動計算
圖 4.3 參數(shù) k 對查詢效率的影響測試結(jié)果表明,查詢性能隨著參數(shù) k 的變化而變化,呈現(xiàn)出中間低兩頭高而本文 3.3.2 小節(jié)中從算法上保證了選取的 k 值為樣本查詢的最優(yōu)值,而由算的不確定性,因此該組參數(shù)在實際查詢時能保證其查詢時間在最優(yōu)值附近 查詢性能測試本節(jié)主要對單 MDS 節(jié)點上的查詢性能做對比測試,測試的對比對象為 DBysql v14.14),使用到的數(shù)據(jù)集為 LANL trace 中共約 100 萬條元數(shù)據(jù)信息。選取了一組性能較優(yōu)的分組參數(shù)(k=4,L=1,w=400,index_size=4000)對行了分組索引,接下來從點查詢、KNN 查詢、范圍查詢?nèi)矫鏈y試查詢性率。.1 點查詢性能測試
【學(xué)位授予單位】:華中科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2013
【分類號】:TP333
【參考文獻】
相關(guān)期刊論文 前1條
1 王強,劉東波,王建新;數(shù)據(jù)倉庫元數(shù)據(jù)標準研究[J];計算機工程;2002年12期
本文編號:2536211
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2536211.html
最近更新
教材專著