Hadoop中數(shù)據(jù)放置優(yōu)化機(jī)制的研究與實(shí)現(xiàn)
【學(xué)位單位】:東南大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2018
【中圖分類】:TP333;TP311.13
【部分圖文】:
圖 1 - 2 Hadoop 分布式文件系統(tǒng)原理Hadoop 分布式文件系統(tǒng)的冗余方式是靜態(tài)的復(fù)制策略,即數(shù)據(jù)存儲時(shí)有三個(gè)副本且運(yùn)行過程中不再改變。但靜態(tài)復(fù)制策略卻不能依據(jù)環(huán)境的變化做出動態(tài)的調(diào)整,同時(shí)三副本策略的存儲效率僅為 33%,易造成存儲資源的浪費(fèi)。另一方面,大數(shù)據(jù)的訪問過程同樣遵循著 80/20 原則[14],即大部分應(yīng)用在其訪問情況中,80%的訪問對象都固定地訪問 20%的存儲數(shù)據(jù)。同時(shí),大數(shù)據(jù)的數(shù)據(jù)量浩大,而訪問請求只集中在小部分的數(shù)據(jù)上,其余數(shù)據(jù)只有較少的訪問請求。這些被高頻請求的小部分?jǐn)?shù)據(jù)被稱為熱數(shù)據(jù),請求量稀少的大部分?jǐn)?shù)據(jù)被稱為冷數(shù)據(jù)。經(jīng)統(tǒng)計(jì)分析發(fā)現(xiàn),大部分 Hadoop 集群數(shù)據(jù)塊的訪問具有較強(qiáng)的規(guī)律性,數(shù)據(jù)均表現(xiàn)出明顯的冷熱屬性。文獻(xiàn)[15]通過對 Yahoo!公司 HDFS 集群內(nèi)部數(shù)據(jù)塊訪問日志分析得出,90.26%的數(shù)據(jù)塊都會在其上傳 2 天內(nèi)進(jìn)行第一次訪問,89.61%的數(shù)據(jù)塊都會在其上傳后的 10 天內(nèi)進(jìn)行最后一次訪問,40%的數(shù)據(jù)塊最后一次讀取時(shí)間到最后刪除的時(shí)間跨度都不會超過 20 天。因此,對于一個(gè)數(shù)據(jù)中心,在當(dāng)前這種大部分都是冷數(shù)據(jù)的情況下,如果所有的數(shù)據(jù)都采用靜態(tài)三副本策略實(shí)現(xiàn)冗余
算法[29] 高讀寫可用性e-Like 算法[30] 負(fù)載均衡P 算法[31] 減小平均響應(yīng)時(shí)間糾刪碼的放置策略碼源于通信及其相關(guān)學(xué)科,主要解決了數(shù)據(jù)傳輸中的檢錯和糾錯問用到存儲系統(tǒng)中,并且其根據(jù)存儲系統(tǒng)應(yīng)用的特點(diǎn)逐步得到相應(yīng)的統(tǒng)中,糾刪碼技術(shù)[32]主要是利用編碼算法將原始數(shù)據(jù)轉(zhuǎn)化為冗余據(jù)和冗余數(shù)據(jù)一起存儲起來進(jìn)行容錯。如圖 2 - 1 所示,其基本思路即矩陣數(shù)據(jù) D,通過相應(yīng)的編碼計(jì)算(乘以矩陣數(shù)據(jù) B),得到 k 。對于這 n = m + k 個(gè)編碼后元素,如果任意的 k 個(gè)元素出錯(包據(jù)出錯)時(shí),原始的 m 個(gè)數(shù)據(jù)都可以通過對應(yīng)的重構(gòu)編碼算法計(jì)算式冗余會增加 200%的存儲開銷,而糾刪碼的冗余方式具有冗余度幅度節(jié)約存儲空間等優(yōu)點(diǎn),這對于不經(jīng)常訪問的冷數(shù)據(jù)具有非常重
東南大學(xué)碩士學(xué)位論文( ) = ( ) 其中 表示點(diǎn) 在第 i 維的值,同理 。從上述定義可以知道歐式距離適合是“匹配”的距離計(jì)算,即每一點(diǎn)都有另一對應(yīng),而對于計(jì)算時(shí)間序列的距離來說,兩個(gè)時(shí)間序列的長度是不一定相等文使用 DTW 距離來度量兩個(gè)時(shí)間序列的距離,從而得到其相似程度。DTW 表示 DynamicTimeWarping,其原理是找到兩個(gè)時(shí)間序列“對應(yīng)”的相似通過計(jì)算這些點(diǎn)的距離和來表示兩個(gè)時(shí)間序列的相似程度。這里的“對應(yīng)”僅的意思,即一個(gè)點(diǎn)可以對應(yīng)多個(gè)點(diǎn),點(diǎn)與點(diǎn)之間存在著一對多、多對一、一對映射關(guān)系。從時(shí)間維度上將點(diǎn)扭曲(Warping)得到序列總體的最小距離稱為 D如圖 3 - 1 所示,該圖展示了歐式距離和 DTW 距離的區(qū)別。
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 古仙;UUCP網(wǎng)分析與移植通過鑒定[J];計(jì)算機(jī)應(yīng)用研究;1988年01期
2 萬天明,孟志青;一種基于C/S的分布式PowerBuilder數(shù)據(jù)傳送方法[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2000年04期
3 趙學(xué)華;網(wǎng)絡(luò)數(shù)據(jù)傳送方法[J];廣西氣象;1999年03期
4 劉念君,許向東,范強(qiáng);運(yùn)用網(wǎng)絡(luò)技術(shù)實(shí)現(xiàn)無線數(shù)據(jù)傳送[J];水運(yùn)工程;2000年04期
5 李一武,李樂民;單跳波分復(fù)用網(wǎng)絡(luò)中的優(yōu)化數(shù)據(jù)傳送策略[J];通信學(xué)報(bào);1998年10期
6 趙郁森;;SD2003系統(tǒng)數(shù)據(jù)傳送軟件包[J];中國原子能科學(xué)研究院年報(bào);1986年00期
7 謝峰;;ASP.NET頁面間數(shù)據(jù)傳送方法研究[J];科技信息;2012年08期
8 董慧如;SCSI—2的高速數(shù)據(jù)傳送技術(shù)與進(jìn)展[J];電子計(jì)算機(jī)外部設(shè)備;1994年04期
9 羅詩星;淺談數(shù)據(jù)傳送過程中的“數(shù)據(jù)頭”[J];中國有線電視;2001年20期
10 莊哲民;提高單片機(jī)數(shù)據(jù)傳送速度的新方法[J];自動化儀表;1999年08期
相關(guān)博士學(xué)位論文 前5條
1 林路;基于面向數(shù)據(jù)的智慧園區(qū)體系結(jié)構(gòu)關(guān)鍵技術(shù)研究[D];成都理工大學(xué);2018年
2 吳禮華;基于手機(jī)記錄數(shù)據(jù)的城市空間感知及應(yīng)用研究[D];武漢大學(xué);2016年
3 陳靖;帶實(shí)時(shí)的傳值與移動系統(tǒng)研究[D];中國科學(xué)院研究生院(軟件研究所);2003年
4 董贊強(qiáng);基于網(wǎng)絡(luò)編碼的數(shù)據(jù)通信技術(shù)研究[D];南京郵電大學(xué);2013年
5 王海勇;無線傳感器網(wǎng)絡(luò)數(shù)據(jù)可靠傳輸關(guān)鍵技術(shù)研究[D];南京郵電大學(xué);2016年
相關(guān)碩士學(xué)位論文 前10條
1 王熊;網(wǎng)絡(luò)空間國家大數(shù)據(jù)主權(quán)安全危機(jī)治理研究[D];南京師范大學(xué);2018年
2 杜瑤;Hadoop中數(shù)據(jù)放置優(yōu)化機(jī)制的研究與實(shí)現(xiàn)[D];東南大學(xué);2018年
3 閔少穎;云數(shù)據(jù)精確修復(fù)方法研究[D];武漢科技大學(xué);2018年
4 張沁馨;基于PXIe高速接口的高速數(shù)據(jù)傳輸平臺的設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2018年
5 宋秉華;車聯(lián)網(wǎng)大數(shù)據(jù)處理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];中國科學(xué)院大學(xué)(中國科學(xué)院工程管理與信息技術(shù)學(xué)院);2017年
6 馬力;面向高頻證券大數(shù)據(jù)的流式處理框架及關(guān)鍵技術(shù)研究[D];西北大學(xué);2017年
7 董淮南;新型數(shù)據(jù)傳送協(xié)議及其實(shí)現(xiàn)驗(yàn)證[D];西安電子科技大學(xué);2006年
8 蔡龍;掃描電鏡圖像數(shù)據(jù)采集傳輸系統(tǒng)的設(shè)計(jì)[D];南京師范大學(xué);2014年
9 余尚仁;基于Web的數(shù)據(jù)截獲分析與網(wǎng)絡(luò)攻擊技術(shù)研究[D];武漢工程大學(xué);2017年
10 徐超;基于分片技術(shù)的無線傳感網(wǎng)數(shù)據(jù)隱私保護(hù)算法研究[D];南京郵電大學(xué);2017年
本文編號:2837811
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2837811.html