基于Hadoop平臺的Map-Reduce應(yīng)用研究
發(fā)布時(shí)間:2022-10-29 12:08
隨著互聯(lián)網(wǎng)和3G的迅猛發(fā)展,其數(shù)據(jù)具有海量、多樣、異構(gòu)、動態(tài)變化等特性。面對這些海量數(shù)據(jù),常常陷入“數(shù)據(jù)豐富,信息貧乏”的尷尬境地。如何高效地從這些海量數(shù)據(jù)中挖掘有效信息已成為一個重要的研究內(nèi)容。 在分析常見的分布式系統(tǒng)模型以及并行計(jì)算等相關(guān)技術(shù)的基礎(chǔ)上,結(jié)合MapReduce編程模型和Hadoop平臺的集群技術(shù),提出了基于Hadoop集群平臺的MapReduce編程模型的并行編程框架,該編程框架的特點(diǎn)是借助開源技術(shù)和當(dāng)前流行的分布式技術(shù)滿足算法并行執(zhí)行的需求,用該框架改進(jìn)Canopy-Kmeans算法,使Canopy-Kmeans算法執(zhí)行效率得到提高。同時(shí)該框架適用于大量其它算法。 Canopy-Kmeans算法對傳統(tǒng)Kmeans算法的改進(jìn)體現(xiàn)在兩個方面:利用Canopy算法選出初始的K個聚類中心有利于消除孤立點(diǎn),提高聚類的準(zhǔn)確性;再次就是將數(shù)據(jù)進(jìn)行Canopy有覆蓋劃分,在計(jì)算點(diǎn)離哪個聚類中心最近時(shí)不必計(jì)算其到所有聚類中心的距離,只要計(jì)算和它在同一個Canopy下的聚類中心的最短距離,大大提高效率。 Hadoop平臺具有成本低,易維護(hù),可擴(kuò)展,開發(fā)應(yīng)用程序簡單等優(yōu)...
【文章頁數(shù)】:77 頁
【學(xué)位級別】:碩士
【文章目錄】:
致謝
摘要
Abstract
1 引論
1.1 研究背景及研究意義
1.2 云計(jì)算概述
1.2.1 云計(jì)算的原理
1.2.2 云計(jì)算的形式
1.3 本文的主要工作
2 分布式相關(guān)技術(shù)介紹
2.1 分布式系統(tǒng)模型簡介
2.1.1 IBM Blue-Cloud
2.1.2 Google File System
2.1.3 Hadoop of Apache
2.1.4 Google AppEngine
2.2 并行計(jì)算概述
2.2.1 并行編程模型
2.2.2 并行計(jì)算主要體系結(jié)構(gòu)
2.2.3 并行算法舉例
2.3 分布式系統(tǒng)關(guān)鍵技術(shù)
2.3.1 MapReduce 編程模型
2.3.2 分布式存儲系統(tǒng)
2.4 本章小結(jié)
3 Hadoop 的架構(gòu)分析
3.1 Hadoop 核心組件
3.1.1 Hadoop Mapreduce
3.1.2 Hadoop HDFS 文件系統(tǒng)
3.2 HDFS-Hadoop 分布式文件系統(tǒng)
3.2.1 目標(biāo)及假設(shè)
3.2.2 文件系統(tǒng)命名空間
3.2.3 持久保存文件系統(tǒng)元數(shù)據(jù)
3.2.4 名字節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)
3.2.5 數(shù)據(jù)復(fù)制
3.2.6 通信協(xié)議
3.2.7 數(shù)據(jù)健壯性
3.2.8 數(shù)據(jù)組織
3.2.9 空間回收利用
3.3 基于 Hadoop 的 MapReduce 并行編程模型
3.3.1 MapReduce 執(zhí)行流程
3.3.2 Hadoop MapReduce
3.4 本章小結(jié)
4 基于 MapReduce 的 Canopy-Kmeans 多核機(jī)群聚類算法
4.1 基于 MapReduce 的并行編程架構(gòu)
4.2 canopy 聚類算法
4.2.1 Canopy 聚類應(yīng)用背景
4.2.2 Canopy 聚類算法
4.3 K-means 聚類算法
4.3.1 K-means 算法描述
4.4 基于 MapReduce 的 CanopyKmeans 聚類算法
4.4.1 算法思想
4.4.2 算法流程
4.4.3 算法復(fù)雜性分析
4.5 本章小結(jié)
5 算法實(shí)現(xiàn)及評測
5.1 集群環(huán)境平臺的構(gòu)建
5.1.1 硬件環(huán)境
5.1.2 軟件環(huán)境
5.1.3 Hadoop 平臺的安裝部署
5.2 Canopy-Kmeans 聚類算法實(shí)現(xiàn)及試驗(yàn)結(jié)果分析
5.2.1 Canopy-Kmeans 算法的Hadoop 集群執(zhí)行
5.2.2 試驗(yàn)結(jié)果分析
5.3 本章小結(jié)
6 總結(jié)與展望
6.1 總結(jié)
6.2 今后的研究改進(jìn)方向
參考文獻(xiàn)
作者簡歷
學(xué)位論文數(shù)據(jù)集
詳細(xì)摘要
【參考文獻(xiàn)】:
期刊論文
[1]多核處理器大規(guī)模并行系統(tǒng)中的任務(wù)分配問題及算法[J]. 劉軼,張昕,李鶴,錢德沛. 小型微型計(jì)算機(jī)系統(tǒng). 2008(05)
[2]MapReduce模型的調(diào)度及容錯機(jī)制研究[J]. 孫廣中,肖鋒,熊曦. 微電子學(xué)與計(jì)算機(jī). 2007(09)
[3]基于聚類模式的多數(shù)據(jù)源記錄匹配算法[J]. 唐懿芳,鐘達(dá)夫,嚴(yán)小衛(wèi). 小型微型計(jì)算機(jī)系統(tǒng). 2005(09)
[4]基于聚類模式的數(shù)據(jù)清洗技術(shù)[J]. 唐懿芳,鐘達(dá)夫,嚴(yán)小衛(wèi). 計(jì)算機(jī)應(yīng)用. 2004(05)
碩士論文
[1]基于MapReduce模型的并行計(jì)算平臺的設(shè)計(jì)與實(shí)現(xiàn)[D]. 萬至臻.浙江大學(xué) 2008
[2]基于Hadoop的海量數(shù)據(jù)處理模型研究和應(yīng)用[D]. 朱珠.北京郵電大學(xué) 2008
本文編號:3697659
【文章頁數(shù)】:77 頁
【學(xué)位級別】:碩士
【文章目錄】:
致謝
摘要
Abstract
1 引論
1.1 研究背景及研究意義
1.2 云計(jì)算概述
1.2.1 云計(jì)算的原理
1.2.2 云計(jì)算的形式
1.3 本文的主要工作
2 分布式相關(guān)技術(shù)介紹
2.1 分布式系統(tǒng)模型簡介
2.1.1 IBM Blue-Cloud
2.1.2 Google File System
2.1.3 Hadoop of Apache
2.1.4 Google AppEngine
2.2 并行計(jì)算概述
2.2.1 并行編程模型
2.2.2 并行計(jì)算主要體系結(jié)構(gòu)
2.2.3 并行算法舉例
2.3 分布式系統(tǒng)關(guān)鍵技術(shù)
2.3.1 MapReduce 編程模型
2.3.2 分布式存儲系統(tǒng)
2.4 本章小結(jié)
3 Hadoop 的架構(gòu)分析
3.1 Hadoop 核心組件
3.1.1 Hadoop Mapreduce
3.1.2 Hadoop HDFS 文件系統(tǒng)
3.2 HDFS-Hadoop 分布式文件系統(tǒng)
3.2.1 目標(biāo)及假設(shè)
3.2.2 文件系統(tǒng)命名空間
3.2.3 持久保存文件系統(tǒng)元數(shù)據(jù)
3.2.4 名字節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)
3.2.5 數(shù)據(jù)復(fù)制
3.2.6 通信協(xié)議
3.2.7 數(shù)據(jù)健壯性
3.2.8 數(shù)據(jù)組織
3.2.9 空間回收利用
3.3 基于 Hadoop 的 MapReduce 并行編程模型
3.3.1 MapReduce 執(zhí)行流程
3.3.2 Hadoop MapReduce
3.4 本章小結(jié)
4 基于 MapReduce 的 Canopy-Kmeans 多核機(jī)群聚類算法
4.1 基于 MapReduce 的并行編程架構(gòu)
4.2 canopy 聚類算法
4.2.1 Canopy 聚類應(yīng)用背景
4.2.2 Canopy 聚類算法
4.3 K-means 聚類算法
4.3.1 K-means 算法描述
4.4 基于 MapReduce 的 CanopyKmeans 聚類算法
4.4.1 算法思想
4.4.2 算法流程
4.4.3 算法復(fù)雜性分析
4.5 本章小結(jié)
5 算法實(shí)現(xiàn)及評測
5.1 集群環(huán)境平臺的構(gòu)建
5.1.1 硬件環(huán)境
5.1.2 軟件環(huán)境
5.1.3 Hadoop 平臺的安裝部署
5.2 Canopy-Kmeans 聚類算法實(shí)現(xiàn)及試驗(yàn)結(jié)果分析
5.2.1 Canopy-Kmeans 算法的Hadoop 集群執(zhí)行
5.2.2 試驗(yàn)結(jié)果分析
5.3 本章小結(jié)
6 總結(jié)與展望
6.1 總結(jié)
6.2 今后的研究改進(jìn)方向
參考文獻(xiàn)
作者簡歷
學(xué)位論文數(shù)據(jù)集
詳細(xì)摘要
【參考文獻(xiàn)】:
期刊論文
[1]多核處理器大規(guī)模并行系統(tǒng)中的任務(wù)分配問題及算法[J]. 劉軼,張昕,李鶴,錢德沛. 小型微型計(jì)算機(jī)系統(tǒng). 2008(05)
[2]MapReduce模型的調(diào)度及容錯機(jī)制研究[J]. 孫廣中,肖鋒,熊曦. 微電子學(xué)與計(jì)算機(jī). 2007(09)
[3]基于聚類模式的多數(shù)據(jù)源記錄匹配算法[J]. 唐懿芳,鐘達(dá)夫,嚴(yán)小衛(wèi). 小型微型計(jì)算機(jī)系統(tǒng). 2005(09)
[4]基于聚類模式的數(shù)據(jù)清洗技術(shù)[J]. 唐懿芳,鐘達(dá)夫,嚴(yán)小衛(wèi). 計(jì)算機(jī)應(yīng)用. 2004(05)
碩士論文
[1]基于MapReduce模型的并行計(jì)算平臺的設(shè)計(jì)與實(shí)現(xiàn)[D]. 萬至臻.浙江大學(xué) 2008
[2]基于Hadoop的海量數(shù)據(jù)處理模型研究和應(yīng)用[D]. 朱珠.北京郵電大學(xué) 2008
本文編號:3697659
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/3697659.html
最近更新
教材專著