MapReduce并行計(jì)算應(yīng)用案例及其執(zhí)行框架性能優(yōu)化研究
本文選題:并行計(jì)算 + 大數(shù)據(jù)處理。 參考:《南京大學(xué)》2012年碩士論文
【摘要】:當(dāng)前,商業(yè)領(lǐng)域、科學(xué)領(lǐng)域以及社會生活中所產(chǎn)生的數(shù)據(jù)都在以驚人的速度增長。以關(guān)系型數(shù)據(jù)庫為代表的傳統(tǒng)數(shù)據(jù)存儲、處理技術(shù)和工具,已無法存儲、管理和處理如此大規(guī)模急速增長的數(shù)據(jù)。大數(shù)據(jù)包含了更多的有用信息,也帶來了更多的挑戰(zhàn)。大數(shù)據(jù)處理技術(shù)已成為當(dāng)前的研究熱點(diǎn)。在此背景下,通過并行計(jì)算技術(shù)解決大數(shù)據(jù)處理問題已成為學(xué)術(shù)界和工業(yè)界的普遍共識。然而并行計(jì)算技術(shù)與應(yīng)用問題緊密相關(guān),且應(yīng)用問題本身具有不同的復(fù)雜性和多樣性,這使得大數(shù)據(jù)的處理具有很大的技術(shù)挑戰(zhàn),需要尋找和研究有效的大數(shù)據(jù)處理并行計(jì)算模型和系統(tǒng)。 由Google公司所發(fā)表的MapReduce并行計(jì)算技術(shù),因其高可擴(kuò)展性和高易用性而成為目前最成功的大數(shù)據(jù)處理技術(shù),得到廣泛應(yīng)用。Hadoop作為當(dāng)前主流的開源MapReduce框架實(shí)現(xiàn),已成為大數(shù)據(jù)處理應(yīng)用事實(shí)上的工業(yè)標(biāo)準(zhǔn)。但是,現(xiàn)有的MapReduce執(zhí)行框架的實(shí)現(xiàn)主要面向大規(guī)模數(shù)據(jù)批處理作業(yè),而目前各行業(yè)出現(xiàn)了越來越多的對作業(yè)響應(yīng)性能有較高要求的在線數(shù)據(jù)處理或查詢應(yīng)用,現(xiàn)有的MapReduce并行計(jì)算框架在處理這類應(yīng)用時,其響應(yīng)性能存在明顯的不足。為了解該問題,本文從MapReduce上層應(yīng)用到底層框架逐步深入,以MapReduce并行計(jì)算應(yīng)用案例的研究工作為基礎(chǔ),研究并實(shí)現(xiàn)了對現(xiàn)有MapReduce執(zhí)行框架的性能優(yōu)化。本文的研究工作主要分為以下兩部分: (1) MapReduce并行計(jì)算應(yīng)用案例研究,以生物信息學(xué)中的著名序列比對工具BLAST為研究案例,對BLAST算法并行化所涉及到的數(shù)據(jù)劃分和計(jì)算劃分的難點(diǎn)加以分析,提出并實(shí)現(xiàn)了基于MapReduce的兩種并行化方案,通過多組實(shí)驗(yàn)測試對兩種方案作了評估和比較。通過對應(yīng)用案例的研究,我們也觀察到MapReduce模型和執(zhí)行框架在作業(yè)調(diào)度和程序執(zhí)行性能方面所存在的一些問題,進(jìn)而過渡到本文的第二部分研究工作。 (2) MapReduce執(zhí)行框架的性能優(yōu)化,通過對MapReduce作業(yè)執(zhí)行的內(nèi)部處理過程和時間開銷的詳細(xì)分析,以及對MapReduce執(zhí)行框架的結(jié)構(gòu)、作業(yè)(job)和任務(wù)(task)的狀態(tài)轉(zhuǎn)換、作業(yè)和任務(wù)調(diào)度流程的細(xì)致研究分析,本文提出并實(shí)現(xiàn)了對MapReduce執(zhí)行框架的兩點(diǎn)優(yōu)化:一是通過將job setup和job cleanup的工作從TaskTracker轉(zhuǎn)移到JobTracker,減少了作業(yè)運(yùn)行的環(huán)境準(zhǔn)備和清理的時間開銷;二是將任務(wù)分配從“拉(pull)"模式改為“推(push)"模式,并把任務(wù)狀態(tài)變化消息從現(xiàn)有的較為耗時的周期性心跳機(jī)制中分離出來,采用即時傳遞機(jī)制,從而提高了任務(wù)調(diào)度效率和計(jì)算資源的利用率。 最后,本文使用第一部分工作中的應(yīng)用案例對我們優(yōu)化后的MapReduce執(zhí)行框架做實(shí)驗(yàn)測試,實(shí)驗(yàn)結(jié)果表明了我們提出的性能優(yōu)化方法的有效性,實(shí)際的性能提升效果較為顯著。
[Abstract]:The data generated in business, science and social life are growing at an alarming rate. Traditional data storage, processing techniques and tools, represented by relational databases, can no longer store, manage and process such large scale and rapidly growing data. Big data contains more useful information and brings more challenges. Big data processing technology has become the focus of current research. In this context, it has become a common understanding of academia and industry to solve big data processing problems by parallel computing technology. However, the parallel computing technology is closely related to the application problem, and the application problem itself has different complexity and diversity, which makes the processing of big data have great technical challenge. It is necessary to find and study effective parallel computing models and systems for big data processing. MapReduce parallel computing technology, published by Google Company, has become the most successful big data processing technology due to its high scalability and ease of use. It has been widely used as the mainstream open source MapReduce framework implementation. It has become a de facto industrial standard for big data processing applications. However, the implementation of the existing MapReduce execution framework is mainly oriented to large-scale data batch processing, and there are more and more online data processing or query applications with high performance of job response. The response performance of the existing MapReduce parallel computing framework is obviously inadequate when dealing with this kind of applications. In order to understand this problem, this paper goes deep from the upper layer of MapReduce to the bottom frame. Based on the research work of MapReduce parallel computing application case, the performance optimization of the existing MapReduce execution framework is studied and realized. The research work of this paper is divided into the following two parts: 1) the application case study of MapReduce parallel computing, taking BLAST, a famous tool of sequence alignment in bioinformatics, as a case study, analyzes the difficulties of data partition and computational partitioning involved in parallelization of BLAST algorithm. Two parallel schemes based on MapReduce are proposed and implemented. Through the study of application cases, we also observe some problems in job scheduling and program execution performance of MapReduce model and execution framework, and then transition to the second part of this paper. 2) the performance optimization of MapReduce execution framework, through the detailed analysis of the internal processing process and time cost of MapReduce job execution, as well as the structure of MapReduce execution framework, job) and task state transformation. After detailed research and analysis of job and task scheduling process, this paper proposes and implements two optimizations of MapReduce execution framework: first, by transferring the work of job setup and job cleanup from TaskTracker to Job Tracker, the time cost of preparing and cleaning the environment of job running is reduced; The second is to change the task allocation from "pullout" mode to "push-push" mode, and separate the message of task state change from the existing time-consuming periodic heartbeat mechanism, and adopt the instant delivery mechanism. Therefore, the efficiency of task scheduling and the utilization of computing resources are improved. Finally, we use the application cases in the first part of the work to test our optimized MapReduce execution framework. The experimental results show that the proposed performance optimization method is effective, and the actual performance improvement effect is more significant.
【學(xué)位授予單位】:南京大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2012
【分類號】:TP338.6
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 師金鋼;鮑玉斌;冷芳玲;于戈;;基于MapReduce的關(guān)系型數(shù)據(jù)倉庫并行查詢[J];東北大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年05期
2 黃賢英,盛利;綜合查詢應(yīng)用性能提升的策略[J];計(jì)算機(jī)工程與應(yīng)用;2003年15期
3 朱克勤;數(shù)據(jù)庫系統(tǒng)性能優(yōu)化方法[J];警察技術(shù);2004年06期
4 李澤平;SQL查詢語句的性能優(yōu)化與索引[J];福建電腦;2005年09期
5 張南平,陳小倩;ASP.NET性能優(yōu)化[J];微機(jī)發(fā)展;2005年08期
6 史長瓊;基于ORACLE的GIS數(shù)據(jù)實(shí)時處理系統(tǒng)的性能優(yōu)化[J];長沙交通學(xué)院學(xué)報(bào);2001年03期
7 張華;;查詢優(yōu)化技術(shù)在MIS中的應(yīng)用[J];濰坊學(xué)院學(xué)報(bào);2005年06期
8 唐沙;唐慧佳;李東琦;;電子商務(wù)系統(tǒng)的性能優(yōu)化方案研究[J];微計(jì)算機(jī)信息;2007年27期
9 袁慧穎;翁盛鑫;程少平;魏冰;;ORACLE數(shù)據(jù)庫性能優(yōu)化[J];海軍總醫(yī)院學(xué)報(bào);2007年03期
10 王勇;;基于SQL數(shù)據(jù)庫的性能優(yōu)化問題分析[J];電腦知識與技術(shù);2008年15期
相關(guān)會議論文 前10條
1 范曉檣;李樺;田正雨;;超聲速/高超聲速飛行器復(fù)雜流場大規(guī)模并行數(shù)值仿真[A];計(jì)算流體力學(xué)研究進(jìn)展——第十二屆全國計(jì)算流體力學(xué)會議論文集[C];2004年
2 齊進(jìn);葉文華;;三維激光燒蝕瑞利-泰勒不穩(wěn)定性并行計(jì)算[A];中國空氣動力學(xué)學(xué)會第十屆物理氣體動力學(xué)專業(yè)委員會會議論文集[C];2001年
3 張望;王輝;;個性化服務(wù)中的并行K-Means聚類算法[A];2007年全國開放式分布與并行計(jì)算機(jī)學(xué)術(shù)會議論文集(下冊)[C];2007年
4 叢鵬;;MPI并行計(jì)算實(shí)現(xiàn)工業(yè)CT圖像重建[A];2004年CT和三維成像學(xué)術(shù)年會論文集[C];2004年
5 丁國昊;羅凱;李偉;李樺;;乘波飛行器氣動特性數(shù)值模擬與并行計(jì)算[A];第三屆高超聲速科技學(xué)術(shù)會議會議文集[C];2010年
6 羅文彩;陳小前;;并行計(jì)算的多方法優(yōu)化協(xié)作[A];第二十四屆中國控制會議論文集(上冊)[C];2005年
7 耿江東;薛正輝;高本慶;;應(yīng)用并行GTD算法計(jì)算陣列天線近場受擾[A];第17屆全國電磁兼容學(xué)術(shù)會議論文集[C];2007年
8 唐維軍;張景琳;蔚喜軍;;三維流體界面不穩(wěn)定性的并行計(jì)算[A];中國工程物理研究院科技年報(bào)(2000)[C];2000年
9 左風(fēng)麗;莫則堯;葉文華;;計(jì)算流體三維分裂格式的高效并行計(jì)算[A];中國工程物理研究院科技年報(bào)(2003)[C];2003年
10 杜志文;曾文華;;網(wǎng)格計(jì)算在文本分類中的應(yīng)用[A];2006年全國開放式分布與并行計(jì)算機(jī)學(xué)術(shù)會議論文集(三)[C];2006年
相關(guān)重要報(bào)紙文章 前10條
1 軼嘉;英特爾全球首個并行計(jì)算中心落戶無錫[N];人民郵電;2009年
2 江錫民;英特爾并行計(jì)算中心落戶無錫[N];新華日報(bào);2009年
3 劉琦;伯克利專家展望未來并行計(jì)算[N];中國計(jì)算機(jī)報(bào);2008年
4 張?jiān)迫?并行計(jì)算:迎接多核時代的挑戰(zhàn)[N];計(jì)算機(jī)世界;2006年
5 均兒;通用計(jì)算核動力[N];電腦報(bào);2009年
6 本報(bào)記者 馬文方;英特爾為何要牽頭并行計(jì)算[N];中國計(jì)算機(jī)報(bào);2009年
7 英特爾并行計(jì)算實(shí)驗(yàn)室研究員 TimothyMattson;并行計(jì)算:減少串行軟件[N];中國計(jì)算機(jī)報(bào);2007年
8 英特爾 趙軍(Jun Zhao);PC機(jī)并行計(jì)算革命尚未成功[N];中國計(jì)算機(jī)報(bào);2009年
9 陳翔;性能優(yōu)化只能救火[N];中國計(jì)算機(jī)報(bào);2007年
10 ;并行計(jì)算成PC產(chǎn)業(yè)發(fā)展瓶頸[N];人民郵電;2008年
相關(guān)博士學(xué)位論文 前10條
1 陳軍;分布式存儲環(huán)境下并行計(jì)算可擴(kuò)展性的研究與應(yīng)用[D];中國人民解放軍國防科學(xué)技術(shù)大學(xué);2000年
2 尹欣;三維彈性問題邊界元法并行計(jì)算及其工程應(yīng)用[D];清華大學(xué);2000年
3 陳曉春;基于并行計(jì)算的大渦模擬方法及其工程應(yīng)用基礎(chǔ)研究[D];西安建筑科技大學(xué);2004年
4 王開健;基于特大增量步算法的網(wǎng)絡(luò)并行計(jì)算[D];清華大學(xué);2005年
5 張理論;面向氣象預(yù)報(bào)數(shù)值模式的高效并行計(jì)算研究[D];中國人民解放軍國防科學(xué)技術(shù)大學(xué);2002年
6 寇哲君;可擴(kuò)展沖擊—接觸并行計(jì)算及其在汽車碰撞模擬中的應(yīng)用[D];清華大學(xué);2003年
7 劉麗;人工免疫網(wǎng)絡(luò)研究及應(yīng)用[D];江南大學(xué);2008年
8 張永彬;巖石破裂過程分析并行計(jì)算方法研究[D];東北大學(xué);2007年
9 伍湘君;GRAPES高分辨率氣象數(shù)值預(yù)報(bào)模式并行計(jì)算關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2011年
10 盧風(fēng)順;面向CPU/GPU異構(gòu)體系結(jié)構(gòu)的并行計(jì)算關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2012年
相關(guān)碩士學(xué)位論文 前10條
1 江逢斌;基于SAGE的分布式高性能優(yōu)化設(shè)計(jì)平臺[D];上海交通大學(xué);2010年
2 楊曉亮;MapReduce并行計(jì)算應(yīng)用案例及其執(zhí)行框架性能優(yōu)化研究[D];南京大學(xué);2012年
3 魏偉;基于SMP集群的性能優(yōu)化方法的研究[D];蘭州大學(xué);2006年
4 林樹新;SmartOSEK的系統(tǒng)設(shè)計(jì)和時間性能優(yōu)化[D];浙江大學(xué);2005年
5 熊遠(yuǎn)生;網(wǎng)絡(luò)控制系統(tǒng)的滑模預(yù)估變結(jié)構(gòu)控制器設(shè)計(jì)及性能優(yōu)化[D];浙江工業(yè)大學(xué);2004年
6 徐慧君;基于JSP平臺的信息發(fā)布系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];北京工業(yè)大學(xué);2004年
7 呂栗;郵件過濾系統(tǒng)中數(shù)據(jù)庫的性能優(yōu)化[D];哈爾濱工程大學(xué);2005年
8 石鵬飛;J2EE企業(yè)門戶網(wǎng)站技術(shù)研究[D];浙江大學(xué);2006年
9 陸琳琳;MD5算法的技術(shù)研究及性能優(yōu)化[D];吉林大學(xué);2006年
10 劉戰(zhàn)合;基于復(fù)合形方法的翼型優(yōu)化設(shè)計(jì)及并行計(jì)算研究[D];西北工業(yè)大學(xué);2004年
,本文編號:1908379
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/1908379.html