異構(gòu)平臺下基于HDFS的數(shù)據(jù)動態(tài)分配策略研究
發(fā)布時(shí)間:2021-01-05 13:58
隨著信息化社會的快速發(fā)展,互聯(lián)網(wǎng)中的數(shù)據(jù)量急速增長。由于傳統(tǒng)存儲模式難以突破其存儲限制,分布式存儲系統(tǒng)便越來越受歡迎,其中HDFS(Hadoop Distributed File System)是目前應(yīng)用比較廣泛的一個(gè)分布式文件存儲系統(tǒng)。隨著先進(jìn)存儲設(shè)備的發(fā)展,具有高讀寫性能的SSD和普通磁盤等異構(gòu)設(shè)備作為目前主流的存儲介質(zhì),已被廣泛應(yīng)用于HDFS系統(tǒng)中。HDFS有效解決了大數(shù)據(jù)處理面臨的海量數(shù)據(jù)存儲問題,并通過提供不同的數(shù)據(jù)存儲策略和相應(yīng)的存儲接口來對冷熱度不同的數(shù)據(jù)進(jìn)行存放,這樣開發(fā)人員就可以利用這些接口實(shí)現(xiàn)對數(shù)據(jù)的分類存儲。然而,如何精確地對HDFS系統(tǒng)中的冷數(shù)據(jù)和熱數(shù)據(jù)進(jìn)行分配成為當(dāng)前最為關(guān)鍵的問題。經(jīng)過研究與分析發(fā)現(xiàn),在對HDFS系統(tǒng)中數(shù)據(jù)進(jìn)行分配時(shí),現(xiàn)階段通常采用的分配算法是首先為所有數(shù)據(jù)統(tǒng)一分配存儲策略,然后根據(jù)數(shù)據(jù)的訪問頻率去動態(tài)調(diào)整其存儲策略,從而實(shí)現(xiàn)對冷熱數(shù)據(jù)的分配。但是采用傳統(tǒng)算法對HDFS系統(tǒng)中的數(shù)據(jù)進(jìn)行分配時(shí),存在以卜問題:一方面,一些冷數(shù)據(jù)可能被存儲在SSD上,導(dǎo)致系統(tǒng)中SSD的命中率不高,無法充分發(fā)揮SSD作用,造成SSD硬件資源的浪費(fèi),影響HDFS的性能...
【文章來源】:北方工業(yè)大學(xué)北京市
【文章頁數(shù)】:61 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2-1?HDFS體系結(jié)構(gòu)示意圖??在HDFS中,對義件的基本訪問過程是:??1.川戶的應(yīng)川程序通過HDFS?Client程序?qū)⑺TL問的文件名發(fā)送至??
2.2.2客戶端寫入數(shù)據(jù)過程??當(dāng)客戶端寫入一個(gè)HDFS文件時(shí),Namenode和Datanode也都會參與到整個(gè)??交互過程中,如圖2-4所示。??和讀取數(shù)據(jù)相比,寫入數(shù)據(jù)過程比較復(fù)雜,主要過程如下。??1??首先,客戶端會調(diào)用DistributedFileSystem類的create()方法在HDFS文??件系統(tǒng)中創(chuàng)建一個(gè)新的空文件,該類經(jīng)過一系列的底層調(diào)用后,會返回??一個(gè)DFSOutputStream數(shù)據(jù)流給客戶端,即真正進(jìn)行數(shù)據(jù)塊寫入操作??的是?DFSOutputStream?對象。??2.
第三章HDFS數(shù)據(jù)動態(tài)分配策略的設(shè)計(jì)與實(shí)現(xiàn)??BP調(diào)整文件熱度值的處理流程如圖3-3所示。算法1描述了?BP的具體實(shí)??現(xiàn)。??輸入層丨nput?隱藏層丨丨iddcn?輸出層Output??accesses??type?/?'V?V'.-'V'7?Ho(Valuc(current)??一??sumtvpe?///??圖3-3?BP調(diào)整流程圖??/if算法1中,第1-2行描述了整個(gè)BP祌經(jīng)網(wǎng)絡(luò)的“輸入”和“輸出”!拜??入”是前而提到的五個(gè)因素,把它們表示為-個(gè)五元組??〈accesses,accesses/size,type,sumtype,sumtype/size>;?“輸出”是被訪問文件的當(dāng)前??熱度值。??第3-9行設(shè)置了?BP神經(jīng)網(wǎng)絡(luò)的-些參數(shù):因?yàn)椤拜斎搿笔且粋(gè)五元組和“輸??丨丨r只冇.個(gè)元素,所以設(shè)置輸入節(jié)點(diǎn)數(shù)=5,隱藏層節(jié)點(diǎn)數(shù)=4,輸出層節(jié)點(diǎn)數(shù)=1,??學(xué)習(xí)半>0.?5。參數(shù)Wij表示隱藏層中.元j到輸入層單元i?(或輸出層單元j到隱藏??層單元i)的連接權(quán)重。該算法設(shè)置激活函數(shù)為Sigmoid函數(shù),并設(shè)置了?一個(gè)目??標(biāo)函數(shù)F(0〇用T?汁算被訪問義件的期望熱度位。在BP中,使川真實(shí)的文件訪??問次數(shù)來計(jì)算文件的當(dāng)前熱度值。例如:在規(guī)定一個(gè)特定的時(shí)間段,收集在該時(shí)??間段內(nèi)訪問最頻繁和訪問敁+頻繁的文件
【參考文獻(xiàn)】:
期刊論文
[1]HDFS異構(gòu)集群中的分級存儲調(diào)度機(jī)制[J]. 楊冬菊,李青,鄧崇彬. 小型微型計(jì)算機(jī)系統(tǒng). 2017(01)
[2]HDFS下海量小文件高效存儲與索引方法[J]. 肖玉澤,張利軍,潘巍,張小芳,李戰(zhàn)懷. 小型微型計(jì)算機(jī)系統(tǒng). 2015(10)
[3]HDFS中高效存儲小文件的方法[J]. 尹穎,林慶,林涵陽. 計(jì)算機(jī)工程與設(shè)計(jì). 2015(02)
[4]云計(jì)算環(huán)境下的分布存儲關(guān)鍵技術(shù)[J]. 王意潔,孫偉東,周松,裴曉強(qiáng),李小勇. 軟件學(xué)報(bào). 2012(04)
[5]基于trace的網(wǎng)絡(luò)存儲系統(tǒng)評測研究[J]. 趙曉南,李戰(zhàn)懷,張曉,曾雷杰. 計(jì)算機(jī)科學(xué). 2010(02)
碩士論文
[1]面向HDFS的訪問控制與小文件存儲策略的研究與實(shí)現(xiàn)[D]. 李蒙.哈爾濱工業(yè)大學(xué) 2017
[2]基于HDFS的云存儲系統(tǒng)的實(shí)現(xiàn)與優(yōu)化[D]. 鄒振宇.中國科學(xué)技術(shù)大學(xué) 2016
[3]基于HDFS的分布式存儲系統(tǒng)的研究與實(shí)現(xiàn)[D]. 崔園.電子科技大學(xué) 2016
[4]HDFS分布式文件系統(tǒng)存儲策略研究[D]. 周小玉.電子科技大學(xué) 2015
[5]基于HDFS的分布式文件系統(tǒng)存儲研究與優(yōu)化[D]. 黎斌.電子科技大學(xué) 2015
本文編號:2958794
【文章來源】:北方工業(yè)大學(xué)北京市
【文章頁數(shù)】:61 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2-1?HDFS體系結(jié)構(gòu)示意圖??在HDFS中,對義件的基本訪問過程是:??1.川戶的應(yīng)川程序通過HDFS?Client程序?qū)⑺TL問的文件名發(fā)送至??
2.2.2客戶端寫入數(shù)據(jù)過程??當(dāng)客戶端寫入一個(gè)HDFS文件時(shí),Namenode和Datanode也都會參與到整個(gè)??交互過程中,如圖2-4所示。??和讀取數(shù)據(jù)相比,寫入數(shù)據(jù)過程比較復(fù)雜,主要過程如下。??1??首先,客戶端會調(diào)用DistributedFileSystem類的create()方法在HDFS文??件系統(tǒng)中創(chuàng)建一個(gè)新的空文件,該類經(jīng)過一系列的底層調(diào)用后,會返回??一個(gè)DFSOutputStream數(shù)據(jù)流給客戶端,即真正進(jìn)行數(shù)據(jù)塊寫入操作??的是?DFSOutputStream?對象。??2.
第三章HDFS數(shù)據(jù)動態(tài)分配策略的設(shè)計(jì)與實(shí)現(xiàn)??BP調(diào)整文件熱度值的處理流程如圖3-3所示。算法1描述了?BP的具體實(shí)??現(xiàn)。??輸入層丨nput?隱藏層丨丨iddcn?輸出層Output??accesses??type?/?'V?V'.-'V'7?Ho(Valuc(current)??一??sumtvpe?///??圖3-3?BP調(diào)整流程圖??/if算法1中,第1-2行描述了整個(gè)BP祌經(jīng)網(wǎng)絡(luò)的“輸入”和“輸出”!拜??入”是前而提到的五個(gè)因素,把它們表示為-個(gè)五元組??〈accesses,accesses/size,type,sumtype,sumtype/size>;?“輸出”是被訪問文件的當(dāng)前??熱度值。??第3-9行設(shè)置了?BP神經(jīng)網(wǎng)絡(luò)的-些參數(shù):因?yàn)椤拜斎搿笔且粋(gè)五元組和“輸??丨丨r只冇.個(gè)元素,所以設(shè)置輸入節(jié)點(diǎn)數(shù)=5,隱藏層節(jié)點(diǎn)數(shù)=4,輸出層節(jié)點(diǎn)數(shù)=1,??學(xué)習(xí)半>0.?5。參數(shù)Wij表示隱藏層中.元j到輸入層單元i?(或輸出層單元j到隱藏??層單元i)的連接權(quán)重。該算法設(shè)置激活函數(shù)為Sigmoid函數(shù),并設(shè)置了?一個(gè)目??標(biāo)函數(shù)F(0〇用T?汁算被訪問義件的期望熱度位。在BP中,使川真實(shí)的文件訪??問次數(shù)來計(jì)算文件的當(dāng)前熱度值。例如:在規(guī)定一個(gè)特定的時(shí)間段,收集在該時(shí)??間段內(nèi)訪問最頻繁和訪問敁+頻繁的文件
【參考文獻(xiàn)】:
期刊論文
[1]HDFS異構(gòu)集群中的分級存儲調(diào)度機(jī)制[J]. 楊冬菊,李青,鄧崇彬. 小型微型計(jì)算機(jī)系統(tǒng). 2017(01)
[2]HDFS下海量小文件高效存儲與索引方法[J]. 肖玉澤,張利軍,潘巍,張小芳,李戰(zhàn)懷. 小型微型計(jì)算機(jī)系統(tǒng). 2015(10)
[3]HDFS中高效存儲小文件的方法[J]. 尹穎,林慶,林涵陽. 計(jì)算機(jī)工程與設(shè)計(jì). 2015(02)
[4]云計(jì)算環(huán)境下的分布存儲關(guān)鍵技術(shù)[J]. 王意潔,孫偉東,周松,裴曉強(qiáng),李小勇. 軟件學(xué)報(bào). 2012(04)
[5]基于trace的網(wǎng)絡(luò)存儲系統(tǒng)評測研究[J]. 趙曉南,李戰(zhàn)懷,張曉,曾雷杰. 計(jì)算機(jī)科學(xué). 2010(02)
碩士論文
[1]面向HDFS的訪問控制與小文件存儲策略的研究與實(shí)現(xiàn)[D]. 李蒙.哈爾濱工業(yè)大學(xué) 2017
[2]基于HDFS的云存儲系統(tǒng)的實(shí)現(xiàn)與優(yōu)化[D]. 鄒振宇.中國科學(xué)技術(shù)大學(xué) 2016
[3]基于HDFS的分布式存儲系統(tǒng)的研究與實(shí)現(xiàn)[D]. 崔園.電子科技大學(xué) 2016
[4]HDFS分布式文件系統(tǒng)存儲策略研究[D]. 周小玉.電子科技大學(xué) 2015
[5]基于HDFS的分布式文件系統(tǒng)存儲研究與優(yōu)化[D]. 黎斌.電子科技大學(xué) 2015
本文編號:2958794
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2958794.html
最近更新
教材專著