天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 計(jì)算機(jī)論文 >

基于Hadoop的云存儲系統(tǒng)的研究與應(yīng)用

發(fā)布時(shí)間:2017-04-25 15:51

  本文關(guān)鍵詞:基于Hadoop的云存儲系統(tǒng)的研究與應(yīng)用,由筆耕文化傳播整理發(fā)布。


【摘要】:近年來,云計(jì)算和軟件即服務(wù)(SaaS)的受關(guān)注度越來越高,云存儲成為信息存儲領(lǐng)域的一個(gè)研究熱點(diǎn)。大多數(shù)現(xiàn)有的云存儲系統(tǒng)是建立在分布式文件系統(tǒng)之上的,其中以HDFS分布式文件系統(tǒng)最被行業(yè)所接受,因?yàn)榭梢栽谄浯鎯Φ暮A繑?shù)據(jù)上應(yīng)用MapReduce編程模型進(jìn)行數(shù)據(jù)挖掘,從而更好地發(fā)現(xiàn)數(shù)據(jù)中蘊(yùn)含的潛在價(jià)值的信息。但是,目前HDFS分布式文件系統(tǒng)中存在著NameNode單點(diǎn)故障、備份節(jié)點(diǎn)數(shù)等問題,從而影響云存儲系統(tǒng)的高可用性;并且關(guān)聯(lián)規(guī)則挖掘算法中的并行化實(shí)現(xiàn)也有待進(jìn)一步改進(jìn)和優(yōu)化。因此,針對以上問題,本文主要完成了以下工作:分析HDFS中NameNode相關(guān)的源碼,并研究其工作流程和工作機(jī)制,提出基于Heartbeat+Avatar Node的HDFS高可用性方案,該方案具有熱備和自動切換的特點(diǎn)。并分析AvatarNode的primary和standby角色相關(guān)源碼,研究其工作流程和工作機(jī)制,提出SecondaryAvatarNode方案,從而增加一個(gè)輕量級備份節(jié)點(diǎn),進(jìn)一步提高云存儲系統(tǒng)的高可用性。基于CLOSET+算法對PFP算法在挖掘閉頻繁項(xiàng)集方面的不足之處進(jìn)行優(yōu)化,主要包括:對集群分組方法進(jìn)行優(yōu)化使得每個(gè)事務(wù)組分配得到的事務(wù)盡可能的平均,從而使每個(gè)并行的任務(wù)達(dá)到負(fù)載均衡;在挖掘的每一次遞歸過程中,針對稀疏、稠密數(shù)據(jù)集投影不同的FP-Tree結(jié)構(gòu),采用自底向上和由上向下相結(jié)合的方法,提高挖掘閉頻繁項(xiàng)集的效率;通過使用超集檢查的性質(zhì),提出基于滑動窗口的方式過濾局部的閉頻繁項(xiàng)集,從而得到完備的閉頻繁項(xiàng)集。通過搭建Hadoop集群實(shí)驗(yàn)平臺,驗(yàn)證基于Heartbeat+AvatarNode的高可用性方案和SecondaryAvatarNode方案的有效性,同時(shí)分析基于CLOSET+算法對PFP算法在挖掘閉頻繁項(xiàng)集方面進(jìn)行改進(jìn)和優(yōu)化后的算法的效率,驗(yàn)證其基于Hadoop架構(gòu)的挖掘閉頻繁項(xiàng)集算法具有良好的擴(kuò)展性。
【關(guān)鍵詞】:HDFS 高可用性 MapReduce 閉頻繁項(xiàng)集
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP311.13;TP333
【目錄】:
  • 摘要5-6
  • ABSTRACT6-11
  • 第一章 緒論11-18
  • 1.1 研究背景及意義11-13
  • 1.2 國內(nèi)外研究現(xiàn)狀13-15
  • 1.3 研究內(nèi)容15-16
  • 1.4 論文結(jié)構(gòu)16-18
  • 第二章 云存儲及挖掘頻繁項(xiàng)集相關(guān)技術(shù)18-33
  • 2.1 云計(jì)算18-20
  • 2.1.1 云存儲技術(shù)18-20
  • 2.1.2 海量數(shù)據(jù)處理技術(shù)20
  • 2.2 HADOOP介紹20-23
  • 2.2.1 HDFS分布式文件系統(tǒng)21-22
  • 2.2.2 MAPREDUCE編程模型22-23
  • 2.3 高可用性的HDFS23-24
  • 2.3.1 可用性23-24
  • 2.3.2 HDFS的高可用性24
  • 2.4 HDFS的元數(shù)據(jù)分析24-27
  • 2.4.1 內(nèi)存元數(shù)據(jù)結(jié)構(gòu)25-26
  • 2.4.2 磁盤元數(shù)據(jù)文件26-27
  • 2.5 挖掘頻繁項(xiàng)集27-32
  • 2.5.1 數(shù)據(jù)挖掘27-28
  • 2.5.2 關(guān)聯(lián)規(guī)則中的挖掘閉頻繁項(xiàng)集28
  • 2.5.3 關(guān)FP-GROWTH算法及其并行化28-32
  • 2.6 本章小結(jié)32-33
  • 第三章 基于HEARTBEAT與AVATARNODE的HDFS高可用性方案33-47
  • 3.1 現(xiàn)有解決方案的比較33
  • 3.2 AVATARNODE的方案分析及存在的問題33-39
  • 3.2.1 NAMENODE的啟動流程34-36
  • 3.2.2 PRIMARY AVATARNODE的啟動流程36-37
  • 3.2.3 STANDBY AVATARNODE的啟動流程37
  • 3.2.4 元數(shù)據(jù)的一致性37-38
  • 3.2.4.1 元數(shù)據(jù)目錄樹信息37-38
  • 3.2.4.2 DATANODE與BLOCK數(shù)據(jù)塊映射信息38
  • 3.2.5 切換流程38
  • 3.2.6 存在的問題38-39
  • 3.3 基于HEARTBEAT與AVATARNODE的HDFS高可用性方案39-46
  • 3.3.1 熱備自動切換方案39-44
  • 3.3.1.1 HEARTBEAT介紹39-40
  • 3.3.1.2 基于HEARTBEAT與AVATARNODE的高可用性方案40-42
  • 3.3.1.3 實(shí)驗(yàn)分析42-44
  • 3.3.2 SECONDARYAVATARNODE方案44-46
  • 3.4 本章小結(jié)46-47
  • 第四章 基于CLOSET+算法對PFP算法的改進(jìn)與優(yōu)化47-67
  • 4.1 PFP算法介紹47-50
  • 4.2 PFP算法在挖掘閉頻繁項(xiàng)集時(shí)存在的問題50-51
  • 4.3 對集群分組方法的改進(jìn)51-55
  • 4.3.1 不均勻分組51-52
  • 4.3.2 不均勻分組的步驟描述52-53
  • 4.3.3 測試結(jié)果53-55
  • 4.4 基于CLOSET+算法的優(yōu)化55-59
  • 4.4.1 由上而下的投影策略55-58
  • 4.4.2 優(yōu)化后的算法描述58-59
  • 4.5 對挖掘結(jié)果過濾的改進(jìn)59-65
  • 4.5.1 基于滑動窗.的過濾方式59-64
  • 4.5.2 基于滑動窗.的過濾算法的描述64-65
  • 4.6 本章小結(jié)65-67
  • 第五章 實(shí)驗(yàn)測試與分析67-72
  • 5.1 實(shí)驗(yàn)數(shù)據(jù)67
  • 5.2 實(shí)驗(yàn)環(huán)境67-68
  • 5.3 實(shí)驗(yàn)結(jié)果分析68-71
  • 5.3.1 與PFP算法的比較68-69
  • 5.3.2 加速比對比實(shí)驗(yàn)69-71
  • 5.4 本章小結(jié)71-72
  • 第六章 總結(jié)與展望72-74
  • 6.1 本文總結(jié)72
  • 6.2 未來的工作72-74
  • 致謝74-75
  • 參考文獻(xiàn)75-79

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前1條

1 陳光鵬;楊育彬;高陽;商琳;;一種基于MapReduce的頻繁閉項(xiàng)集挖掘算法[J];模式識別與人工智能;2012年02期


  本文關(guān)鍵詞:基于Hadoop的云存儲系統(tǒng)的研究與應(yīng)用,由筆耕文化傳播整理發(fā)布。

,

本文編號:326536

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/326536.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶82cbc***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com