天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 計(jì)算機(jī)論文 >

高性能計(jì)算體系結(jié)構(gòu)下的海量數(shù)據(jù)處理分析與優(yōu)化

發(fā)布時(shí)間:2020-05-30 10:08
【摘要】:本文的研究?jī)?nèi)容是探索如何在高性能計(jì)算機(jī)上搭建海量數(shù)據(jù)處理平臺(tái),高效地實(shí)現(xiàn)海量數(shù)據(jù)處理。 首先,闡述了在高性能計(jì)算機(jī)上進(jìn)行海量數(shù)據(jù)處理的難點(diǎn)和重大意義,分析了在高性能計(jì)算機(jī)上處理數(shù)據(jù)密集型應(yīng)用,部署MapReduce架構(gòu)的必要性、可行性、以及可能遇到的問題。 其次,通過實(shí)驗(yàn)對(duì)高性能計(jì)算機(jī)上MapReduce架構(gòu)的性能進(jìn)行評(píng)測(cè)。分別在不同的節(jié)點(diǎn)規(guī)模下、基于不同的存儲(chǔ)系統(tǒng)、對(duì)不同類型應(yīng)用的性能進(jìn)行了評(píng)測(cè)。通過評(píng)測(cè)發(fā)現(xiàn),分布式文件系統(tǒng)(DFS)的I/O性能可以隨著節(jié)點(diǎn)數(shù)目的增加線性擴(kuò)展,而集中存儲(chǔ)系統(tǒng)的I/O性能則受限于集中存儲(chǔ)系統(tǒng)中磁盤陣列的規(guī)模,所以在節(jié)點(diǎn)數(shù)目增加的情況下,基于DFS的測(cè)試性能要好得多。 再次,建立了RA-MapReduce性能預(yù)測(cè)模型。通過詳細(xì)分析MapReduce作業(yè)各個(gè)階段的執(zhí)行過程,把執(zhí)行MapReduce應(yīng)用的性能(主要通過作業(yè)總的時(shí)間開銷來反映)與應(yīng)用特性參數(shù)以及集群硬件環(huán)境特性參數(shù)關(guān)聯(lián)起來。通過該模型,可以計(jì)算出不同體系結(jié)構(gòu)和硬件資源環(huán)境下,處理不同類型的數(shù)據(jù)密集型應(yīng)用時(shí),MapReduce作業(yè)各個(gè)階段的時(shí)間開銷,以及計(jì)算開銷、數(shù)據(jù)I/O開銷等在各個(gè)階段中所占的比例。利用RA-MapReduce性能預(yù)測(cè)模型,既可以預(yù)測(cè)在特定硬件環(huán)境下運(yùn)行某一特定MapReduce應(yīng)用能夠獲得的最佳性能,也可以分析出影響MapReduce應(yīng)用性能的瓶頸因素,以及增加某一類集群硬件資源能夠獲得的性能提升。 接下來,針對(duì)高性能計(jì)算機(jī)數(shù)據(jù)I/O能力有限,可能無法滿足當(dāng)前數(shù)據(jù)密集型應(yīng)用需要的問題,提出了對(duì)高性能計(jì)算機(jī)上MapReduce架構(gòu)設(shè)計(jì)的優(yōu)化,即中間結(jié)果網(wǎng)絡(luò)數(shù)據(jù)傳輸優(yōu)化和中間結(jié)果本地存儲(chǔ)優(yōu)化。 最后,把RA-MapReduce性能預(yù)測(cè)模型與實(shí)驗(yàn)數(shù)據(jù)結(jié)合起來,驗(yàn)證了模型的正確性。通過模型分析和實(shí)驗(yàn)驗(yàn)證兩個(gè)方面,分別證明了中間結(jié)果網(wǎng)絡(luò)數(shù)據(jù)傳輸優(yōu)化和中間結(jié)果本地存儲(chǔ)優(yōu)化,在高性能體系結(jié)構(gòu)下的有效性。在本文的實(shí)驗(yàn)中,存儲(chǔ)系統(tǒng)的I/O是系統(tǒng)性能的主要瓶頸,而中間結(jié)果本地存儲(chǔ)優(yōu)化減輕了集中存儲(chǔ)系統(tǒng)的負(fù)擔(dān),很好地改善了系統(tǒng)的性能。實(shí)驗(yàn)證明,基于集中存儲(chǔ)系統(tǒng)排序1TB數(shù)據(jù),加入中間結(jié)果本地存儲(chǔ)優(yōu)化后,性能提升了32.5%。
【圖文】:

示意圖,編程模型,示意圖


架構(gòu)中為 HDFS (Hadoop Distributed File System),是一個(gè)應(yīng)用級(jí)的統(tǒng),維護(hù)了自己的名字空間和目錄結(jié)構(gòu),起著承上啟下的作用。向 Linux 的本地文件系統(tǒng),即 DFS 把實(shí)際的數(shù)據(jù)塊存儲(chǔ)在 Linux 本地 等)上。在 DFS 中看到的一般是邏輯上的大文件,該文件對(duì)應(yīng)的數(shù)據(jù)塊分布在不同節(jié)點(diǎn)的硬盤上。向上,DFS 為 MapReduce 層維護(hù)輸?shù)膭澐。MapReduce 層對(duì)任務(wù)進(jìn)行劃分,是以對(duì)數(shù)據(jù)的劃分為依據(jù)處理的一個(gè)一般性的原則是計(jì)算向數(shù)據(jù)遷移。對(duì)數(shù)據(jù)的劃分,是由和維護(hù)的。1.3 任務(wù)管理 MapReduce 層 2 是 MapReduce 編程模型示意圖。Map 任務(wù)對(duì)輸入數(shù)據(jù)進(jìn)行處理,、感興趣的信息,產(chǎn)生中間鍵值對(duì)。在 Hadoop 中,Reduce 任務(wù)分為一個(gè)階段是 Shuffle,即從 Map 任務(wù)所在節(jié)點(diǎn)取中間結(jié)果;第二個(gè)即把從多個(gè)節(jié)點(diǎn)取來的鍵值對(duì)進(jìn)行合并;第三個(gè)階段是 Reduce,即行總結(jié)、聚合等操作,得到最終的結(jié)果。

任務(wù)時(shí)間,節(jié)點(diǎn),數(shù)據(jù)


在 2008 年 5 月,Yahoo 利用 Hadoop 贏得了 TeraByte Sort 的第一名,耗時(shí) (3.48 分),比上一年的的紀(jì)錄保持者保持的 297 秒快了將近 90 秒。當(dāng)時(shí) Had集群配置為 910 個(gè)節(jié)點(diǎn)(每個(gè)節(jié)點(diǎn) 4 個(gè)雙核處理器,4 個(gè)硬盤,8GB 內(nèi)存)[在進(jìn)行排序基準(zhǔn)測(cè)試時(shí),Hadoop 為了保證合理地把中間結(jié)果分配給各educe 任務(wù),在所有任務(wù)開始前額外增加了一個(gè)采樣的過程。采樣是為了對(duì)所入記錄建立合適的分割點(diǎn),保證每個(gè) Reduce 任務(wù)負(fù)責(zé)排序一個(gè)特定的 Key 的,使得 Reduce 任務(wù)之間是有序的,各個(gè) Reduce 任務(wù)只需要保證局部有序即3.2.2 基于 DFS 的性能評(píng)測(cè)首先,,在 10 個(gè)計(jì)算節(jié)點(diǎn)上,基于 DFS 排序 100GB 數(shù)據(jù)。這時(shí),單元數(shù)據(jù)小為 Hadoop 默認(rèn)的 64MB,集群中的 Map 任務(wù)槽(Map Task Slot)數(shù)為 9educe 任務(wù)槽(Reduce Task Slot)數(shù)為 99。本次作業(yè)共分配了 1500 個(gè) Map 任 90 個(gè) Reduce 任務(wù),輸入數(shù)據(jù)量為 100GB,Map 任務(wù)完成后產(chǎn)生的中間數(shù)據(jù) 100GB,最終結(jié)果輸出數(shù)據(jù)量也為 100GB。作業(yè)總運(yùn)行時(shí)間為 489s,作業(yè)的時(shí)間圖如圖 3.1 所示。
【學(xué)位授予單位】:國(guó)防科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2011
【分類號(hào)】:TP338

【共引文獻(xiàn)】

相關(guān)期刊論文 前10條

1 張曉輝;嵌入式操作系統(tǒng)驅(qū)動(dòng)程序開發(fā)[J];安徽電氣工程職業(yè)技術(shù)學(xué)院學(xué)報(bào);2005年01期

2 李長(zhǎng)志;集群服務(wù)器系統(tǒng)負(fù)載均衡原理的分析與實(shí)現(xiàn)[J];重慶郵電學(xué)院學(xué)報(bào)(自然科學(xué)版);2004年06期

3 李允俊;在Linux下串行接口的C語言編程方法[J];長(zhǎng)春理工大學(xué)學(xué)報(bào);2005年01期

4 黃淑玲;可擴(kuò)展并行計(jì)算的應(yīng)用與研究[J];電腦知識(shí)與技術(shù);2005年12期

5 胡志坤,李建清,張中平,胡德勝;基于嵌入式Linux的氣象數(shù)據(jù)采集系統(tǒng)的設(shè)計(jì)[J];電子工程師;2004年02期

6 孫德妮,曾鵬;Linux系統(tǒng)防火墻技術(shù)的實(shí)現(xiàn)[J];電子工程師;2004年05期

7 黃昕,周建江;基于TS101的多DSP并行視頻實(shí)時(shí)處理系統(tǒng)硬件設(shè)計(jì)[J];電子工程師;2005年02期

8 楊素彬;譚成翔;;Linux連線跟蹤機(jī)制及應(yīng)用[J];計(jì)算機(jī)安全;2006年07期

9 馬勇;劉順蘭;章堅(jiān)武;;嵌入式多媒體播放器的系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J];杭州電子科技大學(xué)學(xué)報(bào);2006年02期

10 李凡,盧社階,邱鵬,林愛武;在嵌入式應(yīng)用中增強(qiáng)Linux實(shí)時(shí)性的方法研究[J];華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年02期

相關(guān)會(huì)議論文 前3條

1 張興起;;嵌入式數(shù)字視頻的挑戰(zhàn)與希望[A];全國(guó)第二屆嵌入式技術(shù)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2007年

2 姜詠江;;內(nèi)存分塊并行計(jì)算機(jī)研究[A];2005年全國(guó)開放式分布與并行計(jì)算學(xué)術(shù)會(huì)議論文集[C];2005年

3 耿江東;薛正輝;高本慶;;應(yīng)用并行GTD算法計(jì)算陣列天線近場(chǎng)受擾[A];第17屆全國(guó)電磁兼容學(xué)術(shù)會(huì)議論文集[C];2007年

相關(guān)博士學(xué)位論文 前9條

1 鄒勇;開放式實(shí)時(shí)系統(tǒng)的調(diào)度方法研究[D];中國(guó)科學(xué)院研究生院(軟件研究所);2003年

2 孫照焱;基于生物免疫機(jī)制的附網(wǎng)存儲(chǔ)關(guān)鍵技術(shù)研究[D];清華大學(xué);2004年

3 王建;并行最優(yōu)化算法與軟件設(shè)計(jì)及數(shù)值軟件移植[D];中國(guó)科學(xué)院研究生院(軟件研究所);2005年

4 郭榮祥;基于VEGA網(wǎng)格的Dixon結(jié)式分布式計(jì)算[D];中國(guó)科學(xué)院研究生院(成都計(jì)算機(jī)應(yīng)用研究所);2006年

5 張小平;高分辨率多波束成像聲吶關(guān)鍵技術(shù)研究[D];哈爾濱工程大學(xué);2005年

6 李康;光波導(dǎo)器件的高階FDTD并行仿真分析[D];山東大學(xué);2006年

7 孫宏元;基于HPC的多分辨空間信息應(yīng)用基礎(chǔ)平臺(tái)關(guān)鍵技術(shù)研究[D];西安電子科技大學(xué);2006年

8 劉炫;網(wǎng)絡(luò)光盤庫的應(yīng)用性能研究[D];清華大學(xué);2007年

9 田翔;模型預(yù)測(cè)控制并行計(jì)算系統(tǒng)研究[D];浙江大學(xué);2007年

相關(guān)碩士學(xué)位論文 前10條

1 薛筱宇;基于Linux內(nèi)核的操作系統(tǒng)實(shí)驗(yàn)系統(tǒng)[D];西南交通大學(xué);2003年

2 萬加富;嵌入式Linux的移植及其在網(wǎng)絡(luò)測(cè)控中的應(yīng)用研究[D];廣東工業(yè)大學(xué);2003年

3 李代偉;基于Linux的OS實(shí)驗(yàn)系統(tǒng)[D];西南交通大學(xué);2003年

4 王景麗;基于LINUX的IPSEC協(xié)議的研究與實(shí)現(xiàn)[D];西南交通大學(xué);2003年

5 康鵬;機(jī)頂盒設(shè)備GUI系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];北京工業(yè)大學(xué);2003年

6 王麗梅;安全Linux訪問控制機(jī)制研究與實(shí)現(xiàn)[D];北京工業(yè)大學(xué);2003年

7 李天翼;基于網(wǎng)絡(luò)存儲(chǔ)的web服務(wù)器集群系統(tǒng)的研究與實(shí)現(xiàn)[D];四川大學(xué);2003年

8 李德海;實(shí)時(shí)集群計(jì)算機(jī)系統(tǒng)研究與應(yīng)用[D];西安科技大學(xué);2003年

9 邵丹;關(guān)于Linux操作系統(tǒng)應(yīng)用于嵌入式設(shè)備中的研究[D];哈爾濱理工大學(xué);2003年

10 石斌;航空發(fā)動(dòng)機(jī)高可靠性FADEC軟件系統(tǒng)技術(shù)研究[D];西北工業(yè)大學(xué);2004年



本文編號(hào):2687976

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2687976.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶856e4***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
亚洲欧美日本国产有色| 国产欧美日韩精品自拍| 亚洲少妇人妻一区二区| 欧美大黄片在线免费观看| 日韩人妻中文字幕精品| 沐浴偷拍一区二区视频| 亚洲男人的天堂色偷偷| 福利在线午夜绝顶三级| 亚洲一区二区三区在线中文字幕| 成人精品网一区二区三区| 亚洲男人天堂成人在线视频| 黑丝袜美女老师的小逼逼| 久久精品国产在热久久| 丰满人妻一二区二区三区av| 久久亚洲国产视频三级黄| 亚洲一区二区精品免费| 黑丝袜美女老师的小逼逼| 色婷婷国产精品视频一区二区保健| 日韩中文字幕有码午夜美女| 日韩国产传媒在线精品| 欧美午夜性刺激在线观看| 亚洲最新中文字幕一区| 激情五月天深爱丁香婷婷| 久久三级国外久久久三级| 欧美精品一区久久精品| 亚洲欧美日韩另类第一页| 欧美精品在线观看国产| 91精品蜜臀一区二区三区| 一区二区不卡免费观看免费| 色哟哟国产精品免费视频| 日本在线高清精品人妻| 亚洲av秘片一区二区三区| 国产乱淫av一区二区三区| 中文字幕在线区中文色 | 亚洲中文字幕在线观看黑人| 一区二区欧美另类稀缺| 亚洲一级在线免费观看| 高中女厕偷拍一区二区三区| 精品一区二区三区乱码中文| 麻豆精品视频一二三区| 欧美国产日产综合精品|