天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于HDFS的小文件存儲(chǔ)方法的研究與應(yīng)用

發(fā)布時(shí)間:2017-09-21 09:20

  本文關(guān)鍵詞:基于HDFS的小文件存儲(chǔ)方法的研究與應(yīng)用


  更多相關(guān)文章: HDFS 小文件 MySQL 索引 索引預(yù)取


【摘要】:隨著科學(xué)技術(shù)的不斷發(fā)展,傳統(tǒng)的存儲(chǔ)方法已經(jīng)無(wú)法滿足當(dāng)前海量數(shù)據(jù)的存取需求,海量數(shù)據(jù)的存儲(chǔ)和處理成為當(dāng)下研究的一個(gè)新課題。分布式計(jì)算平臺(tái)Hadoop因其開(kāi)源的優(yōu)良特性,高吞吐量、高可靠性和伸縮性等優(yōu)點(diǎn),已經(jīng)廣泛的應(yīng)用在云計(jì)算領(lǐng)域。Hadoop核心技術(shù)之一的分布式文件系統(tǒng)HDFS,對(duì)計(jì)算機(jī)的硬件要求低,并具有高容錯(cuò)性,現(xiàn)已廣泛應(yīng)用于存儲(chǔ)大規(guī)模的數(shù)據(jù)文件。然而,HDFS的設(shè)計(jì)是針對(duì)海量的大規(guī)模數(shù)據(jù)文件,在存取小文件方面性能還不夠高效。本文針對(duì)HDFS在小文件存儲(chǔ)方面的低效問(wèn)題,結(jié)合公安實(shí)用云存儲(chǔ)平臺(tái)的系統(tǒng)要求,提出可行的小文件存儲(chǔ)方案來(lái)提升整個(gè)系統(tǒng)性能。首先,為了解決HDFS存儲(chǔ)大量小文件對(duì)Name Node造成的內(nèi)存資源耗費(fèi)的問(wèn)題,在對(duì)HDFS自帶的小文件存儲(chǔ)方法進(jìn)行分析之后,設(shè)計(jì)了一個(gè)獨(dú)立的小文件處理模塊,將海量小文件在上傳HDFS之前進(jìn)行預(yù)合并,減輕Name Node內(nèi)存的存儲(chǔ)壓力,提高存儲(chǔ)效率。其次,為了滿足公安系統(tǒng)高安全性的需求,提出通過(guò)在集群中添加一臺(tái)數(shù)據(jù)服務(wù)器對(duì)小文件的元數(shù)據(jù)進(jìn)行備份,來(lái)減少當(dāng)Name Node出現(xiàn)故障時(shí)可能出現(xiàn)的信息丟失情況,提高系統(tǒng)的安全性。為了實(shí)現(xiàn)合并后小文件的快速訪問(wèn),提出在數(shù)據(jù)服務(wù)器上創(chuàng)建My Sql數(shù)據(jù)庫(kù),保存小文件的索引信息,為訪問(wèn)小文件提供索引;同時(shí)根據(jù)公安系統(tǒng)中數(shù)據(jù)的相關(guān)性,提出了小文件索引信息預(yù)取方案,提高小文件的讀取速度。最后,通過(guò)模擬實(shí)驗(yàn),對(duì)優(yōu)化后的算法和HDFS自帶的算法在小文件存儲(chǔ)和訪問(wèn)兩面的性能進(jìn)行比較,驗(yàn)證優(yōu)化后的算法的可行性和有效性。
【關(guān)鍵詞】:HDFS 小文件 MySQL 索引 索引預(yù)取
【學(xué)位授予單位】:燕山大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP333
【目錄】:
  • 摘要5-6
  • Abstract6-10
  • 第1章 緒論10-16
  • 1.1 研究背景10-11
  • 1.2 國(guó)內(nèi)外研究現(xiàn)狀11-14
  • 1.2.1 Hadoop技術(shù)的新要求11-12
  • 1.2.2 相關(guān)解決方法的理論研究12-14
  • 1.3 本文研究?jī)?nèi)容14-15
  • 1.4 本文組織結(jié)構(gòu)15-16
  • 第2章 相關(guān)技術(shù)研究16-25
  • 2.1 Hadoop分布式平臺(tái)介紹16-20
  • 2.1.1 Hadoop概述16
  • 2.1.2 分布式文件系統(tǒng)HDFS16-18
  • 2.1.3 分布式編程模型Map Reduce18-20
  • 2.2 Hadoop處理小文件時(shí)存在的問(wèn)題20-22
  • 2.2.1 存儲(chǔ)問(wèn)題21-22
  • 2.2.2 讀寫(xiě)問(wèn)題22
  • 2.3 Hadoop安全問(wèn)題22-23
  • 2.4 本章小結(jié)23-25
  • 第3章 基于Sequence File的小文件合并算法及優(yōu)化25-35
  • 3.1 Hadoop自帶的決方案25-28
  • 3.1.1 Hadoop Archive25-26
  • 3.1.2 Sequence File26-27
  • 3.1.3 Combine File Input Format27-28
  • 3.2 系統(tǒng)總體結(jié)構(gòu)的設(shè)計(jì)與實(shí)現(xiàn)28-32
  • 3.2.1 系統(tǒng)總體結(jié)構(gòu)的設(shè)計(jì)28
  • 3.2.2 系統(tǒng)總體結(jié)構(gòu)的實(shí)現(xiàn)28-32
  • 3.3 Sequence File合并算法的優(yōu)化32-34
  • 3.3.1 元數(shù)據(jù)結(jié)構(gòu)的優(yōu)化32-33
  • 3.3.2 小文件合并優(yōu)化算法33-34
  • 3.4 本章小結(jié)34-35
  • 第4章 小文件合并后訪問(wèn)算法35-48
  • 4.1 系統(tǒng)架構(gòu)設(shè)計(jì)35-36
  • 4.2 基于Mysql索引的基本結(jié)構(gòu)36
  • 4.3 基于Map Reduce生成的My Sql索引結(jié)構(gòu)36-40
  • 4.3.1 創(chuàng)建Map Reduce與數(shù)據(jù)庫(kù)的數(shù)據(jù)交互36-37
  • 4.3.2 基于Map Reduce生成索引算法37-39
  • 4.3.3 重寫(xiě)數(shù)據(jù)輸出接39-40
  • 4.4 單個(gè)小文件訪問(wèn)算法及優(yōu)化40-47
  • 4.4.1 基于My SQL的小文件查詢與搜索算法40-42
  • 4.4.2 查找小文件算法42-45
  • 4.4.3 預(yù)取小文件索引算法45
  • 4.4.4 單個(gè)文件下載算法及優(yōu)化45-47
  • 4.5 本章小結(jié)47-48
  • 第5章 系統(tǒng)測(cè)試與分析48-59
  • 5.1 實(shí)驗(yàn)?zāi)康?/span>48
  • 5.2 實(shí)驗(yàn)環(huán)境和數(shù)據(jù)48-50
  • 5.3 測(cè)試的項(xiàng)目與目標(biāo)50-58
  • 5.3.1 實(shí)驗(yàn)用到的Java程序50
  • 5.3.2 上傳文件測(cè)試50-53
  • 5.3.3 訪問(wèn)小文件測(cè)試53-58
  • 5.4 本章小結(jié)58-59
  • 結(jié)論59-60
  • 參考文獻(xiàn)60-63
  • 攻讀碩士學(xué)位期間承擔(dān)的科研任務(wù)與主要成果63-64
  • 致謝64-65
  • 作者簡(jiǎn)介65

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前6條

1 欒亞建;黃爛,

本文編號(hào):893657


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/893657.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶ede40***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com