基于節(jié)點(diǎn)狀態(tài)的分布式文件系統(tǒng)存儲(chǔ)副本分發(fā)策略的研究
本文選題:HDFS文件系統(tǒng) 切入點(diǎn):節(jié)點(diǎn)選擇算法 出處:《吉林大學(xué)》2013年碩士論文 論文類(lèi)型:學(xué)位論文
【摘要】:如今的信息快速膨脹,人們從以前的尋找信息到現(xiàn)在的檢索信息、篩選信息,這無(wú)不印證著信息量的龐大。對(duì)于企業(yè)和生產(chǎn)環(huán)境而言,雖然每天產(chǎn)生龐大的數(shù)據(jù),但也要對(duì)這些大量的數(shù)據(jù)進(jìn)行存儲(chǔ),用于以后的數(shù)據(jù)挖掘,因?yàn)橥诰虺鰜?lái)的數(shù)據(jù)分析,最后在生產(chǎn)和營(yíng)銷(xiāo)環(huán)節(jié)并產(chǎn)生價(jià)值--這就是大數(shù)據(jù)的價(jià)值。在云計(jì)算大行其道的環(huán)境下,因?yàn)樵朴?jì)算獨(dú)特的服務(wù)提供模式,會(huì)在云端產(chǎn)生大量的大數(shù)據(jù)以及用戶(hù)數(shù)據(jù),這也使得如何可靠和安全的保存這些大數(shù)據(jù)而帶來(lái)了巨大的挑戰(zhàn)。本文以云計(jì)算的大環(huán)境開(kāi)始介紹,并研究學(xué)習(xí)主流的分布式存儲(chǔ)平臺(tái),提出了基于節(jié)點(diǎn)狀態(tài)的分布式存儲(chǔ)副本分發(fā)策略(Node status based replication distribuion-NSRD策略);诠(jié)點(diǎn)狀態(tài)的分布式存儲(chǔ)副本分發(fā)策略從節(jié)點(diǎn)的狀態(tài)出發(fā),分析節(jié)點(diǎn)的CPU使用率、磁盤(pán)吞吐使用率、內(nèi)存使用率、網(wǎng)絡(luò)帶寬使用率以及磁盤(pán)容量使用率出發(fā),,闡述了給每個(gè)節(jié)點(diǎn)打分的機(jī)制(KPI),并以此KPI為基準(zhǔn),給文件系統(tǒng)寫(xiě)入的客戶(hù)端進(jìn)行合理的節(jié)點(diǎn)推薦。為了更好的闡述基于節(jié)點(diǎn)狀態(tài)的分布式存儲(chǔ)副本分發(fā)策略,本文把此策略抽象成模型,并分成三個(gè)服務(wù)來(lái)進(jìn)行闡述。這三個(gè)服務(wù)有節(jié)點(diǎn)狀態(tài)獲取服務(wù)、狀態(tài)信息轉(zhuǎn)發(fā)服務(wù)、目標(biāo)節(jié)點(diǎn)選擇服務(wù)。 為了更好的闡述組成基于節(jié)點(diǎn)狀態(tài)的分布式存儲(chǔ)副本分發(fā)策略的三個(gè)服務(wù),本文結(jié)合HDFS文件系統(tǒng),并在HDFS上的工作原理為依據(jù)闡述了基于節(jié)點(diǎn)狀態(tài)的分布式存儲(chǔ)副本分發(fā)策略的必要性。通過(guò)在第3章和第4章中的分析研究得知,先今流行的分布式文件系統(tǒng)都不約而同的選擇了把大文件分片存儲(chǔ)的方式,在做分片存儲(chǔ)時(shí)每個(gè)文件系統(tǒng)的控制節(jié)點(diǎn)需要給客戶(hù)端提供目標(biāo)節(jié)點(diǎn)的推薦。但是控制節(jié)點(diǎn)在給客戶(hù)端推薦集群中的存儲(chǔ)節(jié)點(diǎn)時(shí)往往采用了Roun-Ronbin隨機(jī)抽選策略。雖然這種策略簡(jiǎn)單易實(shí)現(xiàn),但是因?yàn)闆](méi)有充分考慮的整個(gè)集群中節(jié)點(diǎn)的CPU使用、內(nèi)存使用率、磁盤(pán)吞吐使用率、網(wǎng)絡(luò)帶寬使用和磁盤(pán)空間使用率,會(huì)導(dǎo)致尋找的目標(biāo)節(jié)點(diǎn)負(fù)載過(guò)高、磁盤(pán)容量吃緊的負(fù)面作用。 為了更好的解決上述問(wèn)題,基于節(jié)點(diǎn)狀態(tài)的分布式存儲(chǔ)副本分發(fā)策略通過(guò)節(jié)點(diǎn)狀態(tài)獲取服務(wù)讓存儲(chǔ)節(jié)點(diǎn)準(zhǔn)確實(shí)時(shí)的獲取自己的狀態(tài),并通過(guò)狀態(tài)信息轉(zhuǎn)發(fā)服務(wù)轉(zhuǎn)發(fā)給集群中的控制節(jié)點(diǎn),最后控制節(jié)點(diǎn)通過(guò)目標(biāo)節(jié)點(diǎn)選擇服務(wù)進(jìn)行對(duì)每個(gè)節(jié)點(diǎn)的打分,最終把KPI值最高的節(jié)點(diǎn)信息返回給客戶(hù)端。 為了證明NSRD策略的可實(shí)現(xiàn)性,本文通過(guò)改進(jìn)HDFS文件系統(tǒng)的副本分發(fā)策略,并將NSRD的節(jié)點(diǎn)狀態(tài)獲取服務(wù)、狀態(tài)信息轉(zhuǎn)發(fā)服務(wù)、目標(biāo)節(jié)點(diǎn)選擇服務(wù)三個(gè)服務(wù)集成到HDFS文件系統(tǒng)中,并對(duì)其進(jìn)行分不同場(chǎng)景下的實(shí)驗(yàn)。在實(shí)驗(yàn)室的環(huán)境下無(wú)法模擬出大規(guī)模的集群環(huán)境,所以本文通過(guò)MATLAB來(lái)仿真模擬的NSRD策略和HDFS自帶的默認(rèn)策略進(jìn)行比較,分析其傳輸效率以及傳輸穩(wěn)定性。 由于分布式文件系統(tǒng)的分發(fā)機(jī)制還處于研究階段,很多分布式文件系統(tǒng)都沒(méi)有集成智能的分發(fā)機(jī)制,所以本以拋磚引玉的方式,提出通過(guò)節(jié)點(diǎn)狀態(tài)來(lái)決定最終的存儲(chǔ)目標(biāo)節(jié)點(diǎn)的方法。因?yàn)楸疚闹懈鱾(gè)Node的KPI值估值算法里的權(quán)值是通過(guò)一種實(shí)驗(yàn)方式獲得并確定,所以需要在今后的工作中使用多種不同的實(shí)驗(yàn)來(lái)使權(quán)值更加精確。在日后的工作中如有完整的數(shù)據(jù)節(jié)點(diǎn)評(píng)分?jǐn)?shù)據(jù)集時(shí)也可以考慮加入機(jī)器學(xué)習(xí)以及預(yù)測(cè)的方法來(lái)使節(jié)點(diǎn)選擇策略更加的全面。
[Abstract]:Today, the rapid expansion of information, people find information from now to retrieve information, screening information previously, which confirms the huge amount of information for enterprises and production environment, although the huge amount of data generated every day, but also to a large number of these data are stored for subsequent data mining, because of dig out the data, finally in the production and marketing process and produce value -- this is the value of big data. In the popular cloud computing environment, because cloud computing unique service mode, will be a lot of big data and user data in the cloud, and it also brings great challenge to the big data storage how reliable and safe. Based on the cloud computing environment began to introduce and study the distributed storage platform mainstream, is proposed based on the distributed node state storage copies thereof (Node status based replication strategy distribuion-NSRD strategy). Distributed storage replica node state starting from node distribution strategy based on state analysis, node CPU usage, disk throughput usage, memory usage, network bandwidth usage and disk capacity utilization, and expounded the mechanism to each node (KPI). And the KPI is used as a benchmark, to write the file system client node reasonable recommendation. In order to explain the distributed storage replica node based on the state of distribution strategy, the strategy of abstract model, and divided into three service to carry on the elaboration. The three service node status obtain service state information forwarding service, the target node selection service.
In order to explain the composition of the three service delivery strategy of distributed storage replica nodes based on state, combined with the HDFS file system, and the working principle of HDFS as the basis for the necessity of distribution strategy of distributed storage replica nodes based on state. Through the analysis in the third and fourth chapter that distributed file the system now popular are invariably chose to file slice storage way in control node slice storage when each file system needs to provide the client the target node's recommendation. But the control node in the recommendation to the client storage nodes in the cluster are often used Roun-Ronbin random selection strategy. Although this the strategy is simple and easy to implement, but because did not fully consider the entire node in the cluster CPU, memory usage, disk throughput rate, network bandwidth The use of and disk space usage can lead to the negative effect of the overloading of the target node and the tight disk capacity.
In order to solve the above problems, distributed storage replica node state distribution strategy to obtain services through the node status for the storage node accurate real-time access to the state based on the state information and the forwarding service is transmitted to the control nodes in the cluster, finally the control node selects a service to each node by scoring the target node, the KPI the highest returns the node information to the client.
In order to prove that the implementation of NSRD strategy, this paper improved the HDFS file system copy distribution strategy, and node state NSRD access service, information forwarding service, the target node selection service three services are integrated into the HDFS file system, and not the same scenario experiments to simulate clusters on it. The large-scale environment in the laboratory environment, so this paper uses MATLAB to simulate the default strategy NSRD strategy and HDFS own comparison, analysis of stability of the transmission and transmission efficiency.
The distribution mechanism of distributed file system is still in the research stage, many distributed file systems are not integrated the intelligentdistribution mechanism, so the way to start, put forward methods to determine the final storage destination node by node state. Because each Node the KPI value valuation algorithm weights is through an experiment to obtain and identify, so we need to work in the future to use a variety of different experimental weight more accurate. In the days after work if the data nodes complete score data set can also be considered when adding machine learning and prediction method to the node selection strategy is more comprehensive.
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2013
【分類(lèi)號(hào)】:TP333;TP316.4
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 華清;黃林鵬;;基于分片、松耦合的分布式文件系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];微電子學(xué)與計(jì)算機(jī);2006年10期
2 張子鵬;劉海濤;管海兵;;采用信任管理的分布式文件系統(tǒng)TrustFs[J];計(jì)算機(jī)工程;2009年01期
3 陳建榮;傅黎;;Novell網(wǎng)絡(luò)環(huán)境下分布式文件系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];海軍工程大學(xué)學(xué)報(bào);1993年03期
4 李相娜;曹強(qiáng);趙旺;魏沁祺;;加快分布式文件系統(tǒng)元數(shù)據(jù)訪問(wèn)的研究與實(shí)現(xiàn)[J];微處理機(jī);2008年02期
5 劉偉;劉露;陳犖;鐘志農(nóng);;海量遙感影像數(shù)據(jù)存儲(chǔ)技術(shù)研究[J];計(jì)算機(jī)工程;2009年05期
6 何公明;張?jiān)獫?;面向數(shù)字媒體的高性能分布式存儲(chǔ)系統(tǒng)的研究與應(yīng)用[J];廣播電視信息;2009年10期
7 周建強(qiáng);薛行;徐希豪;楊培根;孫鐘秀;;分布式文件系統(tǒng)NDFS的設(shè)計(jì)和實(shí)現(xiàn)[J];計(jì)算機(jī)研究與發(fā)展;1990年07期
8 許春聰;黃小猛;吳諾;孫寧偉;楊廣文;;分布式文件系統(tǒng)存儲(chǔ)介質(zhì)評(píng)測(cè)與分析[J];計(jì)算機(jī)學(xué)報(bào);2010年10期
9 李桂萍;;云計(jì)算的兩大特性:虛擬化、分布式[J];通信世界;2011年16期
10 張維慶,袁宏春;基于E-mail的分布式文件系統(tǒng)(MDFS)[J];福建電腦;2004年07期
相關(guān)會(huì)議論文 前10條
1 王波;周曉光;蘇志遠(yuǎn);;基于節(jié)點(diǎn)狀態(tài)的P2P流量識(shí)別系統(tǒng)[A];中國(guó)電子學(xué)會(huì)第十五屆信息論學(xué)術(shù)年會(huì)暨第一屆全國(guó)網(wǎng)絡(luò)編碼學(xué)術(shù)年會(huì)論文集(下冊(cè))[C];2008年
2 王波;周曉光;蘇志遠(yuǎn);;基于節(jié)點(diǎn)狀態(tài)的P2P流量識(shí)別系統(tǒng)[A];2008通信理論與技術(shù)新發(fā)展——第十三屆全國(guó)青年通信學(xué)術(shù)會(huì)議論文集(下)[C];2008年
3 華清;黃林鵬;;基于分片、松耦合的分布式文件系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];2006年全國(guó)開(kāi)放式分布與并行計(jì)算學(xué)術(shù)會(huì)議論文集(二)[C];2006年
4 邢海韜;黃孜祺;肖健;;應(yīng)用動(dòng)態(tài)管理技術(shù)優(yōu)化海量數(shù)據(jù)管理[A];廣西計(jì)算機(jī)學(xué)會(huì)2008年年會(huì)論文集[C];2008年
5 洪穗;;微軟WINDOWS Server 2003 R2分布式文件系統(tǒng)解決方案分析[A];中國(guó)新聞技術(shù)工作者聯(lián)合會(huì)2008年學(xué)術(shù)年會(huì)論文集(上)[C];2008年
6 王志穎;;飛行器電子系統(tǒng)地面測(cè)控軟件設(shè)計(jì)[A];中國(guó)工程物理研究院科技年報(bào)(2001)[C];2001年
7 王振旗;王賀;肖柏旭;;狀態(tài)緩存機(jī)制在結(jié)構(gòu)化P2P系統(tǒng)中的應(yīng)用[A];2006年全國(guó)開(kāi)放式分布與并行計(jì)算學(xué)術(shù)會(huì)議論文集(二)[C];2006年
8 周偉東;;OpenVMS平臺(tái)下自動(dòng)SHUTDOWN軟件的編制[A];中國(guó)造船工程學(xué)會(huì)’04 MIS/S&A學(xué)術(shù)交流會(huì)學(xué)術(shù)論文集[C];2004年
9 薛航;程良倫;;基于時(shí)間異步模式的無(wú)線傳感器網(wǎng)絡(luò)目標(biāo)跟蹤動(dòng)態(tài)成簇算法[A];中國(guó)自動(dòng)化學(xué)會(huì)中南六。▍^(qū))2010年第28屆年會(huì)·論文集[C];2010年
10 楊凱博;;礦井安全監(jiān)控系統(tǒng)節(jié)點(diǎn)管理及信息處理[A];煤礦自動(dòng)化與信息化——第19屆全國(guó)煤礦自動(dòng)化與信息化學(xué)術(shù)會(huì)議暨中國(guó)礦業(yè)大學(xué)(北京)百年校慶學(xué)術(shù)會(huì)議論文集[C];2009年
相關(guān)重要報(bào)紙文章 前10條
1 ;分布式文件系統(tǒng)一瞥[N];網(wǎng)絡(luò)世界;2002年
2 王春海 劉立;分布式文件系統(tǒng)在網(wǎng)絡(luò)中的應(yīng)用[N];電腦報(bào);2004年
3 顧仁達(dá);營(yíng)業(yè)執(zhí)照副本(網(wǎng)絡(luò)版)的原理及使用[N];中國(guó)工商報(bào);2000年
4 記者 劉賦 李俊;大多坦然亮副本[N];重慶商報(bào);2000年
5 容若 譯;美學(xué)者在英發(fā)現(xiàn)海地《獨(dú)立宣言》唯一已知印刷副本[N];中國(guó)檔案報(bào);2010年
6 李延峰;網(wǎng)“助”云計(jì)算[N];計(jì)算機(jī)世界;2010年
7 本報(bào)記者 于翔;“大數(shù)據(jù)”的大承諾[N];網(wǎng)絡(luò)世界;2010年
8 王家壩守堤者;尋找失落的世界[N];中國(guó)電腦教育報(bào);2004年
9 北京市石景山區(qū)地稅局 王圓圓;營(yíng)業(yè)執(zhí)照正副本是否應(yīng)納印花稅[N];中國(guó)財(cái)經(jīng)報(bào);2002年
10 江西財(cái)經(jīng)大學(xué)國(guó)際經(jīng)貿(mào)學(xué)院 王善論;單據(jù)的頁(yè)數(shù)與附件、正本與副本[N];國(guó)際商報(bào);2003年
相關(guān)博士學(xué)位論文 前10條
1 趙鐵柱;分布式文件系統(tǒng)性能建模及應(yīng)用研究[D];華南理工大學(xué);2011年
2 林琳;基于網(wǎng)格數(shù)據(jù)交換區(qū)的網(wǎng)格作業(yè)性能優(yōu)化[D];吉林大學(xué);2011年
3 楊永全;飲食健康中的食物體積估算云計(jì)算技術(shù)研究[D];中國(guó)海洋大學(xué);2013年
4 馮軍煥;移動(dòng)Ad Hoc網(wǎng)絡(luò)媒體接入控制研究[D];西南交通大學(xué);2008年
5 李彭軍;醫(yī)學(xué)影像云服務(wù)平臺(tái)基礎(chǔ)架構(gòu)研究與實(shí)踐[D];南方醫(yī)科大學(xué);2011年
6 劉敏華;基于SDG模型的故障診斷及應(yīng)用研究[D];清華大學(xué);2005年
7 劉曉茜;云計(jì)算數(shù)據(jù)中心結(jié)構(gòu)及其調(diào)度機(jī)制研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2011年
8 戴楊;耦合時(shí)滯復(fù)雜網(wǎng)絡(luò)的同步性研究[D];上海交通大學(xué);2009年
9 秦懷峰;面向感知網(wǎng)的上下文敏感計(jì)算技術(shù)研究[D];西北工業(yè)大學(xué);2006年
10 魏青松;大規(guī)模分布式存儲(chǔ)技術(shù)研究[D];電子科技大學(xué);2004年
相關(guān)碩士學(xué)位論文 前10條
1 權(quán)一男;基于節(jié)點(diǎn)狀態(tài)的分布式文件系統(tǒng)存儲(chǔ)副本分發(fā)策略的研究[D];吉林大學(xué);2013年
2 魯薇;P2P網(wǎng)絡(luò)中基于節(jié)點(diǎn)狀態(tài)的激勵(lì)機(jī)制研究[D];西南大學(xué);2010年
3 王春芳;自治域系統(tǒng)節(jié)點(diǎn)狀態(tài)獨(dú)立性研究[D];清華大學(xué);2004年
4 王敬軒;分布式文件系統(tǒng)存儲(chǔ)效率優(yōu)化研究[D];華中科技大學(xué);2013年
5 葉為民;分布式文件系統(tǒng)自適應(yīng)負(fù)載調(diào)度研究[D];華中科技大學(xué);2013年
6 匡士杰;云存儲(chǔ)環(huán)境下分布式文件系統(tǒng)的副本策略研究[D];電子科技大學(xué);2013年
7 龔高晟;通用分布式文件系統(tǒng)的研究與改進(jìn)[D];華南理工大學(xué);2010年
8 李書(shū)鵬;分布式文件系統(tǒng)在云存儲(chǔ)環(huán)境下的若干問(wèn)題研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2011年
9 周昶;基于對(duì)象分布式文件系統(tǒng)的存儲(chǔ)緩存研究[D];杭州電子科技大學(xué);2011年
10 許敏;分布式文件系統(tǒng)容錯(cuò)機(jī)制的研究與實(shí)現(xiàn)[D];電子科技大學(xué);2012年
本文編號(hào):1571316
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/1571316.html