海量存儲系統(tǒng)中數據分級存儲的關鍵技術研究
發(fā)布時間:2020-10-24 23:59
海量數據的應用導致分布式文件系統(tǒng)并發(fā)訪問量的猛增,而文件讀寫壓力變大必然需要考慮文件I/O帶來的系統(tǒng)瓶頸?紤]到不同存儲設備性能和成本不同,而且數據訪問具有時間和空間局部性,因此需要進行分級存儲,使經常被訪問到的數據傾向存放到高性能設備,最近訪問時間內不經常被讀寫的數據放置到低性能設備?紤]到數據存在著周期性的變化規(guī)律,數據訪問的熱度是變化的,海量存儲系統(tǒng)中相當大比例的數據靜止不動,而且高性能存儲設備有限,因此基于分級存儲技術進行數據遷移。 典型的基于文件級的價值判定和遷移體系結構需要不斷完善和補充,目前對數據的價值進行判定的因素有很多,需要權衡它們的優(yōu)劣。基于文件級的價值判定需要完善以更好的適應存儲設備對讀寫的要求。針對實際應用中的數據訪問高峰期應用場景,亟待提出好的數據遷移策略,來優(yōu)化對存儲設備的讀寫延遲。 針對以上存在的問題,本文提出了一個基于文件級的價值判定和遷移體系結構,用三個指標來權衡價值評定方法的優(yōu)劣,為了更好的適應存儲設備讀寫,對已有的文件級價值評定進行模型改進。對當前的適用的典型場景進行分析后,基于改進后的價值評定模型提出基于文件級的數據遷移算法。針對并發(fā)訪問讀寫壓力變大之后對數據進行遷移的場景,用web并發(fā)訪問測試工具來對數據遷移之后的硬件讀寫進行評估,經過對web服務器并發(fā)訪問響應時間的測試驗證,與常規(guī)遷移方法相比該算法的確改進了系統(tǒng)的性能。
【學位單位】:國防科學技術大學
【學位級別】:碩士
【學位年份】:2011
【中圖分類】:TP333
【部分圖文】:
國防科學技術大學研究生碩士學位論文增長,數據價值在時間和空間上的變化,需要不斷完善和發(fā)展分,來滿足日益增長的海量數據更高的存儲需求。級存儲的設計目標是盡可能發(fā)揮各存儲介質的存儲能力,使得存能最大化。存儲系統(tǒng)的分級存儲結構是將性能、可靠性和價格不成倒金字塔結構,如圖 1.1 所示,訪問延遲越來越低、可用的存
最大可使用容量 55TB 275TB 550TB最大性能(TB/hr)Deduplication running 1.5 2.1 4.3Standard compression 2.3 4.1 8.2Direct Tape Creation Speed(TB/hr) 0.9 1.5 3.0式進行分層存儲,將不同類別的數據分配到不同類型率。據行業(yè)調查分析顯示,在存儲系統(tǒng)中,無論何時都不動的[6]。將不同類別的數據部署到不同類型的存儲介如果不進行合理的優(yōu)化配置,比如沒有及時將大量訪能設備向低性能設備轉移,則將會造成大量不經常訪狀態(tài),降低系統(tǒng)使用效率。因此,基于多級存儲進行足大規(guī)模存儲系統(tǒng)日益增長的需求。如 IBM 采用讀寫硬盤 SSD(Solid State Disk)和存儲介質 HDD 進行分的數據,在高性能設備與低性能設備之間用智能分層技 1.2 所示。
Extent 的尺寸范圍在 16MB 至 8GB 之間。IBM Easy Tier 以 自 為核心設計理念,能夠自動分析系統(tǒng)中的數據訪問頻率的差異,只把訪高的數據保存到固態(tài)硬盤上,其他的數據放在普通的硬盤上就能夠達到足能。當存儲設備中頻繁訪問的數據量較少時,自動分層技術可最大化的發(fā)揮作y Tier 自動地在系統(tǒng)里判斷這個卷是不是熱點卷,即,訪問頻率高的卷,同以智能的把一個大的邏輯卷分成很多小的子卷,同時可以再判斷這個子卷熱點卷,如果是熱點數據將其自動遷移到固態(tài)盤,同時把固態(tài)盤的非熱點回到光纖盤,此過程完全是自動的,不需要用戶過多的干預就能夠自動的層。Easy Tier 只支持兩個存儲層:SSD 一層,硬盤驅動器一層。IBM 的 Er 自動將各種類型的硬盤驅動器都劃為較低的那一層。IBM Almaden 研究中心基于多級存儲的體系結構提出了基于云環(huán)境的面向質的數據遷移,基本的遷移模型將遷移過程分為三個階段[20]:一,了解判數據階段。二,數據遷移階段。三,優(yōu)化階段。圖 2.2 為 IBM Almaden 研對三個階段系統(tǒng)的響應時間所做的測試圖。
【共引文獻】
本文編號:2855151
【學位單位】:國防科學技術大學
【學位級別】:碩士
【學位年份】:2011
【中圖分類】:TP333
【部分圖文】:
國防科學技術大學研究生碩士學位論文增長,數據價值在時間和空間上的變化,需要不斷完善和發(fā)展分,來滿足日益增長的海量數據更高的存儲需求。級存儲的設計目標是盡可能發(fā)揮各存儲介質的存儲能力,使得存能最大化。存儲系統(tǒng)的分級存儲結構是將性能、可靠性和價格不成倒金字塔結構,如圖 1.1 所示,訪問延遲越來越低、可用的存
最大可使用容量 55TB 275TB 550TB最大性能(TB/hr)Deduplication running 1.5 2.1 4.3Standard compression 2.3 4.1 8.2Direct Tape Creation Speed(TB/hr) 0.9 1.5 3.0式進行分層存儲,將不同類別的數據分配到不同類型率。據行業(yè)調查分析顯示,在存儲系統(tǒng)中,無論何時都不動的[6]。將不同類別的數據部署到不同類型的存儲介如果不進行合理的優(yōu)化配置,比如沒有及時將大量訪能設備向低性能設備轉移,則將會造成大量不經常訪狀態(tài),降低系統(tǒng)使用效率。因此,基于多級存儲進行足大規(guī)模存儲系統(tǒng)日益增長的需求。如 IBM 采用讀寫硬盤 SSD(Solid State Disk)和存儲介質 HDD 進行分的數據,在高性能設備與低性能設備之間用智能分層技 1.2 所示。
Extent 的尺寸范圍在 16MB 至 8GB 之間。IBM Easy Tier 以 自 為核心設計理念,能夠自動分析系統(tǒng)中的數據訪問頻率的差異,只把訪高的數據保存到固態(tài)硬盤上,其他的數據放在普通的硬盤上就能夠達到足能。當存儲設備中頻繁訪問的數據量較少時,自動分層技術可最大化的發(fā)揮作y Tier 自動地在系統(tǒng)里判斷這個卷是不是熱點卷,即,訪問頻率高的卷,同以智能的把一個大的邏輯卷分成很多小的子卷,同時可以再判斷這個子卷熱點卷,如果是熱點數據將其自動遷移到固態(tài)盤,同時把固態(tài)盤的非熱點回到光纖盤,此過程完全是自動的,不需要用戶過多的干預就能夠自動的層。Easy Tier 只支持兩個存儲層:SSD 一層,硬盤驅動器一層。IBM 的 Er 自動將各種類型的硬盤驅動器都劃為較低的那一層。IBM Almaden 研究中心基于多級存儲的體系結構提出了基于云環(huán)境的面向質的數據遷移,基本的遷移模型將遷移過程分為三個階段[20]:一,了解判數據階段。二,數據遷移階段。三,優(yōu)化階段。圖 2.2 為 IBM Almaden 研對三個階段系統(tǒng)的響應時間所做的測試圖。
【共引文獻】
相關期刊論文 前6條
1 宋麗娜;戴華東;任怡;;基于海量數據存儲系統(tǒng)多級存儲介質的熱點數據區(qū)分方法[J];計算機研究與發(fā)展;2012年S1期
2 張菁;任怡;廖湘科;;多級存儲數據價值評定研究[J];計算機研究與發(fā)展;2012年S1期
3 呂帥;劉光明;徐凱;劉欣;;海量信息分級存儲數據遷移策略研究[J];計算機工程與科學;2009年S1期
4 ZHANG GuangYan;QIU JianPing;SHU JiWu;ZHENG WeiMin;;AIP:a tool for flexible and transparent data management[J];Science China(Information Sciences);2013年05期
5 索傳軍;王濤;付光宇;;國內外信息生命周期管理研究綜述[J];圖書館雜志;2008年07期
6 徐寶宇;廖濤;;分層存儲中數據遷移時間的設計[J];計算機工程與設計;2013年02期
本文編號:2855151
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2855151.html
最近更新
教材專著