海量存儲(chǔ)系統(tǒng)中數(shù)據(jù)分級存儲(chǔ)的關(guān)鍵技術(shù)研究
發(fā)布時(shí)間:2020-10-24 23:59
海量數(shù)據(jù)的應(yīng)用導(dǎo)致分布式文件系統(tǒng)并發(fā)訪問量的猛增,而文件讀寫壓力變大必然需要考慮文件I/O帶來的系統(tǒng)瓶頸?紤]到不同存儲(chǔ)設(shè)備性能和成本不同,而且數(shù)據(jù)訪問具有時(shí)間和空間局部性,因此需要進(jìn)行分級存儲(chǔ),使經(jīng)常被訪問到的數(shù)據(jù)傾向存放到高性能設(shè)備,最近訪問時(shí)間內(nèi)不經(jīng)常被讀寫的數(shù)據(jù)放置到低性能設(shè)備。考慮到數(shù)據(jù)存在著周期性的變化規(guī)律,數(shù)據(jù)訪問的熱度是變化的,海量存儲(chǔ)系統(tǒng)中相當(dāng)大比例的數(shù)據(jù)靜止不動(dòng),而且高性能存儲(chǔ)設(shè)備有限,因此基于分級存儲(chǔ)技術(shù)進(jìn)行數(shù)據(jù)遷移。 典型的基于文件級的價(jià)值判定和遷移體系結(jié)構(gòu)需要不斷完善和補(bǔ)充,目前對數(shù)據(jù)的價(jià)值進(jìn)行判定的因素有很多,需要權(quán)衡它們的優(yōu)劣;谖募壍膬r(jià)值判定需要完善以更好的適應(yīng)存儲(chǔ)設(shè)備對讀寫的要求。針對實(shí)際應(yīng)用中的數(shù)據(jù)訪問高峰期應(yīng)用場景,亟待提出好的數(shù)據(jù)遷移策略,來優(yōu)化對存儲(chǔ)設(shè)備的讀寫延遲。 針對以上存在的問題,本文提出了一個(gè)基于文件級的價(jià)值判定和遷移體系結(jié)構(gòu),用三個(gè)指標(biāo)來權(quán)衡價(jià)值評定方法的優(yōu)劣,為了更好的適應(yīng)存儲(chǔ)設(shè)備讀寫,對已有的文件級價(jià)值評定進(jìn)行模型改進(jìn)。對當(dāng)前的適用的典型場景進(jìn)行分析后,基于改進(jìn)后的價(jià)值評定模型提出基于文件級的數(shù)據(jù)遷移算法。針對并發(fā)訪問讀寫壓力變大之后對數(shù)據(jù)進(jìn)行遷移的場景,用web并發(fā)訪問測試工具來對數(shù)據(jù)遷移之后的硬件讀寫進(jìn)行評估,經(jīng)過對web服務(wù)器并發(fā)訪問響應(yīng)時(shí)間的測試驗(yàn)證,與常規(guī)遷移方法相比該算法的確改進(jìn)了系統(tǒng)的性能。
【學(xué)位單位】:國防科學(xué)技術(shù)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2011
【中圖分類】:TP333
【部分圖文】:
國防科學(xué)技術(shù)大學(xué)研究生碩士學(xué)位論文增長,數(shù)據(jù)價(jià)值在時(shí)間和空間上的變化,需要不斷完善和發(fā)展分,來滿足日益增長的海量數(shù)據(jù)更高的存儲(chǔ)需求。級存儲(chǔ)的設(shè)計(jì)目標(biāo)是盡可能發(fā)揮各存儲(chǔ)介質(zhì)的存儲(chǔ)能力,使得存能最大化。存儲(chǔ)系統(tǒng)的分級存儲(chǔ)結(jié)構(gòu)是將性能、可靠性和價(jià)格不成倒金字塔結(jié)構(gòu),如圖 1.1 所示,訪問延遲越來越低、可用的存
最大可使用容量 55TB 275TB 550TB最大性能(TB/hr)Deduplication running 1.5 2.1 4.3Standard compression 2.3 4.1 8.2Direct Tape Creation Speed(TB/hr) 0.9 1.5 3.0式進(jìn)行分層存儲(chǔ),將不同類別的數(shù)據(jù)分配到不同類型率。據(jù)行業(yè)調(diào)查分析顯示,在存儲(chǔ)系統(tǒng)中,無論何時(shí)都不動(dòng)的[6]。將不同類別的數(shù)據(jù)部署到不同類型的存儲(chǔ)介如果不進(jìn)行合理的優(yōu)化配置,比如沒有及時(shí)將大量訪能設(shè)備向低性能設(shè)備轉(zhuǎn)移,則將會(huì)造成大量不經(jīng)常訪狀態(tài),降低系統(tǒng)使用效率。因此,基于多級存儲(chǔ)進(jìn)行足大規(guī)模存儲(chǔ)系統(tǒng)日益增長的需求。如 IBM 采用讀寫硬盤 SSD(Solid State Disk)和存儲(chǔ)介質(zhì) HDD 進(jìn)行分的數(shù)據(jù),在高性能設(shè)備與低性能設(shè)備之間用智能分層技 1.2 所示。
Extent 的尺寸范圍在 16MB 至 8GB 之間。IBM Easy Tier 以 自 為核心設(shè)計(jì)理念,能夠自動(dòng)分析系統(tǒng)中的數(shù)據(jù)訪問頻率的差異,只把訪高的數(shù)據(jù)保存到固態(tài)硬盤上,其他的數(shù)據(jù)放在普通的硬盤上就能夠達(dá)到足能。當(dāng)存儲(chǔ)設(shè)備中頻繁訪問的數(shù)據(jù)量較少時(shí),自動(dòng)分層技術(shù)可最大化的發(fā)揮作y Tier 自動(dòng)地在系統(tǒng)里判斷這個(gè)卷是不是熱點(diǎn)卷,即,訪問頻率高的卷,同以智能的把一個(gè)大的邏輯卷分成很多小的子卷,同時(shí)可以再判斷這個(gè)子卷熱點(diǎn)卷,如果是熱點(diǎn)數(shù)據(jù)將其自動(dòng)遷移到固態(tài)盤,同時(shí)把固態(tài)盤的非熱點(diǎn)回到光纖盤,此過程完全是自動(dòng)的,不需要用戶過多的干預(yù)就能夠自動(dòng)的層。Easy Tier 只支持兩個(gè)存儲(chǔ)層:SSD 一層,硬盤驅(qū)動(dòng)器一層。IBM 的 Er 自動(dòng)將各種類型的硬盤驅(qū)動(dòng)器都劃為較低的那一層。IBM Almaden 研究中心基于多級存儲(chǔ)的體系結(jié)構(gòu)提出了基于云環(huán)境的面向質(zhì)的數(shù)據(jù)遷移,基本的遷移模型將遷移過程分為三個(gè)階段[20]:一,了解判數(shù)據(jù)階段。二,數(shù)據(jù)遷移階段。三,優(yōu)化階段。圖 2.2 為 IBM Almaden 研對三個(gè)階段系統(tǒng)的響應(yīng)時(shí)間所做的測試圖。
【共引文獻(xiàn)】
本文編號:2855151
【學(xué)位單位】:國防科學(xué)技術(shù)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2011
【中圖分類】:TP333
【部分圖文】:
國防科學(xué)技術(shù)大學(xué)研究生碩士學(xué)位論文增長,數(shù)據(jù)價(jià)值在時(shí)間和空間上的變化,需要不斷完善和發(fā)展分,來滿足日益增長的海量數(shù)據(jù)更高的存儲(chǔ)需求。級存儲(chǔ)的設(shè)計(jì)目標(biāo)是盡可能發(fā)揮各存儲(chǔ)介質(zhì)的存儲(chǔ)能力,使得存能最大化。存儲(chǔ)系統(tǒng)的分級存儲(chǔ)結(jié)構(gòu)是將性能、可靠性和價(jià)格不成倒金字塔結(jié)構(gòu),如圖 1.1 所示,訪問延遲越來越低、可用的存
最大可使用容量 55TB 275TB 550TB最大性能(TB/hr)Deduplication running 1.5 2.1 4.3Standard compression 2.3 4.1 8.2Direct Tape Creation Speed(TB/hr) 0.9 1.5 3.0式進(jìn)行分層存儲(chǔ),將不同類別的數(shù)據(jù)分配到不同類型率。據(jù)行業(yè)調(diào)查分析顯示,在存儲(chǔ)系統(tǒng)中,無論何時(shí)都不動(dòng)的[6]。將不同類別的數(shù)據(jù)部署到不同類型的存儲(chǔ)介如果不進(jìn)行合理的優(yōu)化配置,比如沒有及時(shí)將大量訪能設(shè)備向低性能設(shè)備轉(zhuǎn)移,則將會(huì)造成大量不經(jīng)常訪狀態(tài),降低系統(tǒng)使用效率。因此,基于多級存儲(chǔ)進(jìn)行足大規(guī)模存儲(chǔ)系統(tǒng)日益增長的需求。如 IBM 采用讀寫硬盤 SSD(Solid State Disk)和存儲(chǔ)介質(zhì) HDD 進(jìn)行分的數(shù)據(jù),在高性能設(shè)備與低性能設(shè)備之間用智能分層技 1.2 所示。
Extent 的尺寸范圍在 16MB 至 8GB 之間。IBM Easy Tier 以 自 為核心設(shè)計(jì)理念,能夠自動(dòng)分析系統(tǒng)中的數(shù)據(jù)訪問頻率的差異,只把訪高的數(shù)據(jù)保存到固態(tài)硬盤上,其他的數(shù)據(jù)放在普通的硬盤上就能夠達(dá)到足能。當(dāng)存儲(chǔ)設(shè)備中頻繁訪問的數(shù)據(jù)量較少時(shí),自動(dòng)分層技術(shù)可最大化的發(fā)揮作y Tier 自動(dòng)地在系統(tǒng)里判斷這個(gè)卷是不是熱點(diǎn)卷,即,訪問頻率高的卷,同以智能的把一個(gè)大的邏輯卷分成很多小的子卷,同時(shí)可以再判斷這個(gè)子卷熱點(diǎn)卷,如果是熱點(diǎn)數(shù)據(jù)將其自動(dòng)遷移到固態(tài)盤,同時(shí)把固態(tài)盤的非熱點(diǎn)回到光纖盤,此過程完全是自動(dòng)的,不需要用戶過多的干預(yù)就能夠自動(dòng)的層。Easy Tier 只支持兩個(gè)存儲(chǔ)層:SSD 一層,硬盤驅(qū)動(dòng)器一層。IBM 的 Er 自動(dòng)將各種類型的硬盤驅(qū)動(dòng)器都劃為較低的那一層。IBM Almaden 研究中心基于多級存儲(chǔ)的體系結(jié)構(gòu)提出了基于云環(huán)境的面向質(zhì)的數(shù)據(jù)遷移,基本的遷移模型將遷移過程分為三個(gè)階段[20]:一,了解判數(shù)據(jù)階段。二,數(shù)據(jù)遷移階段。三,優(yōu)化階段。圖 2.2 為 IBM Almaden 研對三個(gè)階段系統(tǒng)的響應(yīng)時(shí)間所做的測試圖。
【共引文獻(xiàn)】
相關(guān)期刊論文 前6條
1 宋麗娜;戴華東;任怡;;基于海量數(shù)據(jù)存儲(chǔ)系統(tǒng)多級存儲(chǔ)介質(zhì)的熱點(diǎn)數(shù)據(jù)區(qū)分方法[J];計(jì)算機(jī)研究與發(fā)展;2012年S1期
2 張菁;任怡;廖湘科;;多級存儲(chǔ)數(shù)據(jù)價(jià)值評定研究[J];計(jì)算機(jī)研究與發(fā)展;2012年S1期
3 呂帥;劉光明;徐凱;劉欣;;海量信息分級存儲(chǔ)數(shù)據(jù)遷移策略研究[J];計(jì)算機(jī)工程與科學(xué);2009年S1期
4 ZHANG GuangYan;QIU JianPing;SHU JiWu;ZHENG WeiMin;;AIP:a tool for flexible and transparent data management[J];Science China(Information Sciences);2013年05期
5 索傳軍;王濤;付光宇;;國內(nèi)外信息生命周期管理研究綜述[J];圖書館雜志;2008年07期
6 徐寶宇;廖濤;;分層存儲(chǔ)中數(shù)據(jù)遷移時(shí)間的設(shè)計(jì)[J];計(jì)算機(jī)工程與設(shè)計(jì);2013年02期
本文編號:2855151
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2855151.html
最近更新
教材專著