高性能計(jì)算體系結(jié)構(gòu)下的海量數(shù)據(jù)處理分析與優(yōu)化
【圖文】:
架構(gòu)中為 HDFS (Hadoop Distributed File System),是一個(gè)應(yīng)用級(jí)的統(tǒng),維護(hù)了自己的名字空間和目錄結(jié)構(gòu),起著承上啟下的作用。向 Linux 的本地文件系統(tǒng),即 DFS 把實(shí)際的數(shù)據(jù)塊存儲(chǔ)在 Linux 本地 等)上。在 DFS 中看到的一般是邏輯上的大文件,該文件對(duì)應(yīng)的數(shù)據(jù)塊分布在不同節(jié)點(diǎn)的硬盤上。向上,DFS 為 MapReduce 層維護(hù)輸?shù)膭澐。MapReduce 層對(duì)任務(wù)進(jìn)行劃分,是以對(duì)數(shù)據(jù)的劃分為依據(jù)處理的一個(gè)一般性的原則是計(jì)算向數(shù)據(jù)遷移。對(duì)數(shù)據(jù)的劃分,是由和維護(hù)的。1.3 任務(wù)管理 MapReduce 層 2 是 MapReduce 編程模型示意圖。Map 任務(wù)對(duì)輸入數(shù)據(jù)進(jìn)行處理,、感興趣的信息,產(chǎn)生中間鍵值對(duì)。在 Hadoop 中,Reduce 任務(wù)分為一個(gè)階段是 Shuffle,即從 Map 任務(wù)所在節(jié)點(diǎn)取中間結(jié)果;第二個(gè)即把從多個(gè)節(jié)點(diǎn)取來的鍵值對(duì)進(jìn)行合并;第三個(gè)階段是 Reduce,即行總結(jié)、聚合等操作,得到最終的結(jié)果。
在 2008 年 5 月,Yahoo 利用 Hadoop 贏得了 TeraByte Sort 的第一名,耗時(shí) (3.48 分),比上一年的的紀(jì)錄保持者保持的 297 秒快了將近 90 秒。當(dāng)時(shí) Had集群配置為 910 個(gè)節(jié)點(diǎn)(每個(gè)節(jié)點(diǎn) 4 個(gè)雙核處理器,4 個(gè)硬盤,8GB 內(nèi)存)[在進(jìn)行排序基準(zhǔn)測(cè)試時(shí),Hadoop 為了保證合理地把中間結(jié)果分配給各educe 任務(wù),在所有任務(wù)開始前額外增加了一個(gè)采樣的過程。采樣是為了對(duì)所入記錄建立合適的分割點(diǎn),保證每個(gè) Reduce 任務(wù)負(fù)責(zé)排序一個(gè)特定的 Key 的,使得 Reduce 任務(wù)之間是有序的,各個(gè) Reduce 任務(wù)只需要保證局部有序即3.2.2 基于 DFS 的性能評(píng)測(cè)首先,,在 10 個(gè)計(jì)算節(jié)點(diǎn)上,基于 DFS 排序 100GB 數(shù)據(jù)。這時(shí),單元數(shù)據(jù)小為 Hadoop 默認(rèn)的 64MB,集群中的 Map 任務(wù)槽(Map Task Slot)數(shù)為 9educe 任務(wù)槽(Reduce Task Slot)數(shù)為 99。本次作業(yè)共分配了 1500 個(gè) Map 任 90 個(gè) Reduce 任務(wù),輸入數(shù)據(jù)量為 100GB,Map 任務(wù)完成后產(chǎn)生的中間數(shù)據(jù) 100GB,最終結(jié)果輸出數(shù)據(jù)量也為 100GB。作業(yè)總運(yùn)行時(shí)間為 489s,作業(yè)的時(shí)間圖如圖 3.1 所示。
【學(xué)位授予單位】:國(guó)防科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2011
【分類號(hào)】:TP338
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 張曉輝;嵌入式操作系統(tǒng)驅(qū)動(dòng)程序開發(fā)[J];安徽電氣工程職業(yè)技術(shù)學(xué)院學(xué)報(bào);2005年01期
2 李長(zhǎng)志;集群服務(wù)器系統(tǒng)負(fù)載均衡原理的分析與實(shí)現(xiàn)[J];重慶郵電學(xué)院學(xué)報(bào)(自然科學(xué)版);2004年06期
3 李允俊;在Linux下串行接口的C語言編程方法[J];長(zhǎng)春理工大學(xué)學(xué)報(bào);2005年01期
4 黃淑玲;可擴(kuò)展并行計(jì)算的應(yīng)用與研究[J];電腦知識(shí)與技術(shù);2005年12期
5 胡志坤,李建清,張中平,胡德勝;基于嵌入式Linux的氣象數(shù)據(jù)采集系統(tǒng)的設(shè)計(jì)[J];電子工程師;2004年02期
6 孫德妮,曾鵬;Linux系統(tǒng)防火墻技術(shù)的實(shí)現(xiàn)[J];電子工程師;2004年05期
7 黃昕,周建江;基于TS101的多DSP并行視頻實(shí)時(shí)處理系統(tǒng)硬件設(shè)計(jì)[J];電子工程師;2005年02期
8 楊素彬;譚成翔;;Linux連線跟蹤機(jī)制及應(yīng)用[J];計(jì)算機(jī)安全;2006年07期
9 馬勇;劉順蘭;章堅(jiān)武;;嵌入式多媒體播放器的系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J];杭州電子科技大學(xué)學(xué)報(bào);2006年02期
10 李凡,盧社階,邱鵬,林愛武;在嵌入式應(yīng)用中增強(qiáng)Linux實(shí)時(shí)性的方法研究[J];華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年02期
相關(guān)會(huì)議論文 前3條
1 張興起;;嵌入式數(shù)字視頻的挑戰(zhàn)與希望[A];全國(guó)第二屆嵌入式技術(shù)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2007年
2 姜詠江;;內(nèi)存分塊并行計(jì)算機(jī)研究[A];2005年全國(guó)開放式分布與并行計(jì)算學(xué)術(shù)會(huì)議論文集[C];2005年
3 耿江東;薛正輝;高本慶;;應(yīng)用并行GTD算法計(jì)算陣列天線近場(chǎng)受擾[A];第17屆全國(guó)電磁兼容學(xué)術(shù)會(huì)議論文集[C];2007年
相關(guān)博士學(xué)位論文 前9條
1 鄒勇;開放式實(shí)時(shí)系統(tǒng)的調(diào)度方法研究[D];中國(guó)科學(xué)院研究生院(軟件研究所);2003年
2 孫照焱;基于生物免疫機(jī)制的附網(wǎng)存儲(chǔ)關(guān)鍵技術(shù)研究[D];清華大學(xué);2004年
3 王建;并行最優(yōu)化算法與軟件設(shè)計(jì)及數(shù)值軟件移植[D];中國(guó)科學(xué)院研究生院(軟件研究所);2005年
4 郭榮祥;基于VEGA網(wǎng)格的Dixon結(jié)式分布式計(jì)算[D];中國(guó)科學(xué)院研究生院(成都計(jì)算機(jī)應(yīng)用研究所);2006年
5 張小平;高分辨率多波束成像聲吶關(guān)鍵技術(shù)研究[D];哈爾濱工程大學(xué);2005年
6 李康;光波導(dǎo)器件的高階FDTD并行仿真分析[D];山東大學(xué);2006年
7 孫宏元;基于HPC的多分辨空間信息應(yīng)用基礎(chǔ)平臺(tái)關(guān)鍵技術(shù)研究[D];西安電子科技大學(xué);2006年
8 劉炫;網(wǎng)絡(luò)光盤庫的應(yīng)用性能研究[D];清華大學(xué);2007年
9 田翔;模型預(yù)測(cè)控制并行計(jì)算系統(tǒng)研究[D];浙江大學(xué);2007年
相關(guān)碩士學(xué)位論文 前10條
1 薛筱宇;基于Linux內(nèi)核的操作系統(tǒng)實(shí)驗(yàn)系統(tǒng)[D];西南交通大學(xué);2003年
2 萬加富;嵌入式Linux的移植及其在網(wǎng)絡(luò)測(cè)控中的應(yīng)用研究[D];廣東工業(yè)大學(xué);2003年
3 李代偉;基于Linux的OS實(shí)驗(yàn)系統(tǒng)[D];西南交通大學(xué);2003年
4 王景麗;基于LINUX的IPSEC協(xié)議的研究與實(shí)現(xiàn)[D];西南交通大學(xué);2003年
5 康鵬;機(jī)頂盒設(shè)備GUI系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];北京工業(yè)大學(xué);2003年
6 王麗梅;安全Linux訪問控制機(jī)制研究與實(shí)現(xiàn)[D];北京工業(yè)大學(xué);2003年
7 李天翼;基于網(wǎng)絡(luò)存儲(chǔ)的web服務(wù)器集群系統(tǒng)的研究與實(shí)現(xiàn)[D];四川大學(xué);2003年
8 李德海;實(shí)時(shí)集群計(jì)算機(jī)系統(tǒng)研究與應(yīng)用[D];西安科技大學(xué);2003年
9 邵丹;關(guān)于Linux操作系統(tǒng)應(yīng)用于嵌入式設(shè)備中的研究[D];哈爾濱理工大學(xué);2003年
10 石斌;航空發(fā)動(dòng)機(jī)高可靠性FADEC軟件系統(tǒng)技術(shù)研究[D];西北工業(yè)大學(xué);2004年
本文編號(hào):2687976
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2687976.html