基于Hadoop平臺的Map-Reduce應(yīng)用研究

發(fā)布時間：2022-10-29 12:08

　　隨著互聯(lián)網(wǎng)和3G的迅猛發(fā)展,其數(shù)據(jù)具有海量、多樣、異構(gòu)、動態(tài)變化等特性。面對這些海量數(shù)據(jù),常常陷入“數(shù)據(jù)豐富,信息貧乏”的尷尬境地。如何高效地從這些海量數(shù)據(jù)中挖掘有效信息已成為一個重要的研究內(nèi)容。在分析常見的分布式系統(tǒng)模型以及并行計算等相關(guān)技術(shù)的基礎(chǔ)上,結(jié)合MapReduce編程模型和Hadoop平臺的集群技術(shù),提出了基于Hadoop集群平臺的MapReduce編程模型的并行編程框架,該編程框架的特點是借助開源技術(shù)和當(dāng)前流行的分布式技術(shù)滿足算法并行執(zhí)行的需求,用該框架改進(jìn)Canopy-Kmeans算法,使Canopy-Kmeans算法執(zhí)行效率得到提高。同時該框架適用于大量其它算法。 Canopy-Kmeans算法對傳統(tǒng)Kmeans算法的改進(jìn)體現(xiàn)在兩個方面:利用Canopy算法選出初始的K個聚類中心有利于消除孤立點,提高聚類的準(zhǔn)確性;再次就是將數(shù)據(jù)進(jìn)行Canopy有覆蓋劃分,在計算點離哪個聚類中心最近時不必計算其到所有聚類中心的距離,只要計算和它在同一個Canopy下的聚類中心的最短距離,大大提高效率。 Hadoop平臺具有成本低,易維護,可擴展,開發(fā)應(yīng)用程序簡單等優(yōu)...

【文章頁數(shù)】：77 頁

【學(xué)位級別】：碩士

【文章目錄】：
致謝
摘要
Abstract
1 引論
    1.1 研究背景及研究意義
    1.2 云計算概述
        1.2.1 云計算的原理
        1.2.2 云計算的形式
    1.3 本文的主要工作
2 分布式相關(guān)技術(shù)介紹
    2.1 分布式系統(tǒng)模型簡介
        2.1.1 IBM Blue-Cloud
        2.1.2 Google File System
        2.1.3 Hadoop of Apache
        2.1.4 Google AppEngine
    2.2 并行計算概述
        2.2.1 并行編程模型
        2.2.2 并行計算主要體系結(jié)構(gòu)
        2.2.3 并行算法舉例
    2.3 分布式系統(tǒng)關(guān)鍵技術(shù)
        2.3.1 MapReduce 編程模型
        2.3.2 分布式存儲系統(tǒng)
    2.4 本章小結(jié)
3 Hadoop 的架構(gòu)分析
    3.1 Hadoop 核心組件
        3.1.1 Hadoop Mapreduce
        3.1.2 Hadoop HDFS 文件系統(tǒng)
    3.2 HDFS-Hadoop 分布式文件系統(tǒng)
        3.2.1 目標(biāo)及假設(shè)
        3.2.2 文件系統(tǒng)命名空間
        3.2.3 持久保存文件系統(tǒng)元數(shù)據(jù)
        3.2.4 名字節(jié)點和數(shù)據(jù)節(jié)點
        3.2.5 數(shù)據(jù)復(fù)制
        3.2.6 通信協(xié)議
        3.2.7 數(shù)據(jù)健壯性
        3.2.8 數(shù)據(jù)組織
        3.2.9 空間回收利用
    3.3 基于 Hadoop 的 MapReduce 并行編程模型
        3.3.1 MapReduce 執(zhí)行流程
        3.3.2 Hadoop MapReduce
    3.4 本章小結(jié)
4 基于 MapReduce 的 Canopy-Kmeans 多核機群聚類算法
    4.1 基于 MapReduce 的并行編程架構(gòu)
    4.2 canopy 聚類算法
        4.2.1 Canopy 聚類應(yīng)用背景
        4.2.2 Canopy 聚類算法
    4.3 K-means 聚類算法
        4.3.1 K－means 算法描述
    4.4 基于 MapReduce 的 CanopyKmeans 聚類算法
        4.4.1 算法思想
        4.4.2 算法流程
        4.4.3 算法復(fù)雜性分析
    4.5 本章小結(jié)
5 算法實現(xiàn)及評測
    5.1 集群環(huán)境平臺的構(gòu)建
        5.1.1 硬件環(huán)境
        5.1.2 軟件環(huán)境
        5.1.3 Hadoop 平臺的安裝部署
    5.2 Canopy-Kmeans 聚類算法實現(xiàn)及試驗結(jié)果分析
        5.2.1 Canopy-Kmeans 算法的Hadoop 集群執(zhí)行
        5.2.2 試驗結(jié)果分析
    5.3 本章小結(jié)
6 總結(jié)與展望
    6.1 總結(jié)
    6.2 今后的研究改進(jìn)方向
參考文獻(xiàn)
作者簡歷
學(xué)位論文數(shù)據(jù)集
詳細(xì)摘要

【參考文獻(xiàn)】：
期刊論文
[1]多核處理器大規(guī)模并行系統(tǒng)中的任務(wù)分配問題及算法[J]. 劉軼,張昕,李鶴,錢德沛.  小型微型計算機系統(tǒng). 2008(05)
[2]MapReduce模型的調(diào)度及容錯機制研究[J]. 孫廣中,肖鋒,熊曦.  微電子學(xué)與計算機. 2007(09)
[3]基于聚類模式的多數(shù)據(jù)源記錄匹配算法[J]. 唐懿芳,鐘達(dá)夫,嚴(yán)小衛(wèi).  小型微型計算機系統(tǒng). 2005(09)
[4]基于聚類模式的數(shù)據(jù)清洗技術(shù)[J]. 唐懿芳,鐘達(dá)夫,嚴(yán)小衛(wèi).  計算機應(yīng)用. 2004(05)

碩士論文
[1]基于MapReduce模型的并行計算平臺的設(shè)計與實現(xiàn)[D]. 萬至臻.浙江大學(xué) 2008
[2]基于Hadoop的海量數(shù)據(jù)處理模型研究和應(yīng)用[D]. 朱珠.北京郵電大學(xué) 2008

本文編號：3697659

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/jisuanjikexuelunwen/3697659.html

上一篇：云計算中動態(tài)數(shù)據(jù)遷移的關(guān)鍵技術(shù)研究
下一篇：一種基于機器人的IDC資源自動識別方法

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Hadoop平臺的Map-Reduce應(yīng)用研究