基于MapReduce模型的并行計算平臺的設(shè)計與實現(xiàn)
發(fā)布時間:2020-04-13 02:25
【摘要】: 隨著互聯(lián)網(wǎng)的迅猛發(fā)展,每天由網(wǎng)絡產(chǎn)生的數(shù)據(jù)量越來越龐大;ヂ(lián)網(wǎng)企業(yè)面對這些浩繁的數(shù)據(jù),常常陷入“數(shù)據(jù)豐富,信息貧乏”的尷尬境地。設(shè)計一個通用可擴展的平臺,來有效地處理海量數(shù)據(jù),不斷地從中挖掘出對運營商有價值的信息,成為互聯(lián)網(wǎng)企業(yè)發(fā)展的必然選擇。 MapReduce是由Google公司首先提出的,一種能在大型計算機集群上并發(fā)地處理海量數(shù)據(jù)的框架模型。使用者通過指定一個map函數(shù)將輸入數(shù)據(jù)轉(zhuǎn)化成為一系列中間鍵-值對,然后由一個自定義的reduce函數(shù)將具有相同鍵的值聚集起來,將結(jié)果輸出。很多現(xiàn)實世界對海量數(shù)據(jù)的處理,都可以用這種模型來表示。 本文在分析MapReduce模型的基礎(chǔ)上,結(jié)合自身的特點,提出了一種并發(fā)處理海量數(shù)據(jù)的更通用、更可擴展的平臺。 首先,我們提出了海量數(shù)據(jù)并發(fā)處理平臺的體系結(jié)構(gòu)。該結(jié)構(gòu)為客戶端-任務調(diào)度與執(zhí)行層-數(shù)據(jù)存儲層三層架構(gòu)。在客戶端,通過可配置的XML文檔提交用戶任務。在進行任務調(diào)度與執(zhí)行層設(shè)計時,我們首先提出了幾點關(guān)鍵的策略,如通用平臺策略、負載均衡策略、中間結(jié)果處理策略和容錯策略。接著,我們提出了主控節(jié)點-分派節(jié)點.服務節(jié)點的三點式架構(gòu)。其中,主控節(jié)點負責收集與處理其他節(jié)點的各種信息;分派節(jié)點負責解析、分派任務,獲取任務執(zhí)行結(jié)果;服務節(jié)點負責任務的具體執(zhí)行。三種節(jié)點互相配合,共同完成數(shù)據(jù)的并發(fā)處理。 接著,我們設(shè)計了存儲海量數(shù)據(jù)的分布式文件系統(tǒng)。分布式文件系統(tǒng)具有優(yōu)異的性能和吞吐率,較高的穩(wěn)定性和良好的可擴展性。 最后,我們在已經(jīng)搭建好的平臺上,進行了若干測試系統(tǒng)性能的實驗。我們通過單機與并發(fā)執(zhí)行用戶任務的對比實驗,說明了并行計算平臺的高效。我們通過執(zhí)行不同類型的任務,說明了如何在集群規(guī)模一定的情況下,實現(xiàn)性能調(diào)優(yōu)。
【學位授予單位】:浙江大學
【學位級別】:碩士
【學位授予年份】:2008
【分類號】:TP338.6
【學位授予單位】:浙江大學
【學位級別】:碩士
【學位授予年份】:2008
【分類號】:TP338.6
【引證文獻】
相關(guān)期刊論文 前10條
1 李s,
本文編號:2625471
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2625471.html
最近更新
教材專著