基于Hadoop的MapReduce的性能分析與優(yōu)化
本文關(guān)鍵詞:基于Hadoop的MapReduce的性能分析與優(yōu)化,,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著網(wǎng)絡(luò)技術(shù)的快速發(fā)展,各類(lèi)信息數(shù)據(jù)的增長(zhǎng)速度越來(lái)越快,針對(duì)海量數(shù)據(jù)的處理需求,云計(jì)算逐漸成為業(yè)界的主流計(jì)算模式。MapReduce是云計(jì)算思想的編程模型,以其簡(jiǎn)單實(shí)用的接口使得數(shù)據(jù)的并行處理變得簡(jiǎn)單易行,為海量數(shù)據(jù)的計(jì)算處理提供了軟件支持。迭代計(jì)算是MapReduce模型需要優(yōu)化的性能之一,本文首先分析了目前主流迭代框架存在的不足,特別是在抽象度不夠高,不能夠并行處理任務(wù)數(shù)據(jù)與靜態(tài)數(shù)據(jù)和動(dòng)態(tài)數(shù)據(jù)不能完全分離等方面。針對(duì)上述問(wèn)題對(duì)MapReduce框架進(jìn)行了改進(jìn),通過(guò)分割Map任務(wù)和Reduce任務(wù)以及對(duì)迭代終止條件進(jìn)行并行檢測(cè),提出了相應(yīng)的并行處理策略,解決了之前串行處理導(dǎo)致計(jì)算時(shí)間過(guò)長(zhǎng)的問(wèn)題,然后通過(guò)對(duì)Map端存儲(chǔ)策略的改進(jìn),將靜態(tài)數(shù)據(jù)存儲(chǔ)到Map端,直接在Map端完成對(duì)靜態(tài)數(shù)據(jù)與動(dòng)態(tài)數(shù)據(jù)的計(jì)算過(guò)程,使得一次迭代過(guò)程中的MapReduce數(shù)得到減少。針對(duì)基于MapReduce的SVM分類(lèi)算法對(duì)數(shù)據(jù)集的訓(xùn)練是將各子節(jié)點(diǎn)訓(xùn)練后得到的支持向量進(jìn)行合并,得到的分類(lèi)器分類(lèi)效率和準(zhǔn)確率并不理想。為此,提出了一種改進(jìn)的訓(xùn)練算法PISVMAM,該算法在各節(jié)點(diǎn)上運(yùn)用遺傳算法來(lái)尋找子數(shù)據(jù)集的最優(yōu)核函數(shù)及參數(shù),用得到的參數(shù)組合對(duì)子數(shù)據(jù)集進(jìn)行訓(xùn)練得到支持向量,合并每個(gè)節(jié)點(diǎn)訓(xùn)練后的支持向量為全局支持向量,然后在各個(gè)節(jié)點(diǎn)上將子集與全局支持向量合并并作為新的訓(xùn)練數(shù)據(jù)集,重復(fù)這四個(gè)步驟,直到全局支持向量不再變化時(shí),則收斂到最優(yōu)分類(lèi)模型。通過(guò)程序的編寫(xiě)及實(shí)驗(yàn)平臺(tái)的搭建,優(yōu)化后的迭代框架在處理迭代計(jì)算的效率有了明顯的提升。PISVMAM算法的分類(lèi)正確率也比傳統(tǒng)的分類(lèi)算法有了明顯的提高。
【關(guān)鍵詞】:云計(jì)算 MapReduce 迭代計(jì)算 SVM算法
【學(xué)位授予單位】:南京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類(lèi)號(hào)】:TP393.01
【目錄】:
- 摘要4-5
- Abstract5-8
- 第一章 緒論8-13
- 1.1 研究背景8
- 1.2 研究現(xiàn)狀8-11
- 1.2.1 Hadoop發(fā)展現(xiàn)狀9-10
- 1.2.2 MapReduce發(fā)展現(xiàn)狀10-11
- 1.3 本文的主要工作和章節(jié)安排11-13
- 第二章 Hadoop系統(tǒng)平臺(tái)及相關(guān)技術(shù)研究13-22
- 2.1 Hadoop開(kāi)源平臺(tái)13-15
- 2.1.1 Hadoop概述13-14
- 2.1.2 Hadoop架構(gòu)體系14-15
- 2.1.3 Hadoop工作流程15
- 2.2 MapReduce編程模型15-21
- 2.2.1 MapReduce概述16-17
- 2.2.2 MapReduce編程模型17
- 2.2.3 MapReduce執(zhí)行流程17-19
- 2.2.4 MapReduce的性能優(yōu)化研究19-21
- 2.3 迭代應(yīng)用在MapReduce中的實(shí)現(xiàn)21
- 2.4 本章小結(jié)21-22
- 第三章 基于MapReduce迭代技術(shù)的研究與優(yōu)化22-35
- 3.1 相關(guān)迭代技術(shù)框架的研究22-24
- 3.1.1 Haloop介紹22-23
- 3.1.2 Twister介紹23-24
- 3.1.3 存在的問(wèn)題24
- 3.2 基于MapReduce模型迭代應(yīng)用的設(shè)計(jì)24-27
- 3.3 影響迭代應(yīng)用性能的關(guān)鍵因素27-28
- 3.3.1 傳統(tǒng)串行機(jī)制及迭代終止條件檢測(cè)27-28
- 3.3.2 靜態(tài)數(shù)據(jù)與動(dòng)態(tài)數(shù)據(jù)及存儲(chǔ)機(jī)制28
- 3.4 并行機(jī)制及迭代終止條件檢測(cè)優(yōu)化策略28-31
- 3.4.1 并行策略描述29
- 3.4.2 任務(wù)分割29-30
- 3.4.3 優(yōu)化策略實(shí)現(xiàn)及過(guò)程分析30-31
- 3.5 Map端優(yōu)化機(jī)制31-34
- 3.5.1 Map端優(yōu)化及策略32-33
- 3.5.2 優(yōu)化步驟描述33-34
- 3.6 本章小結(jié)34-35
- 第四章 基于MapReduce的SVM分類(lèi)算法研究35-43
- 4.1 SVM算法與遺傳算法35-38
- 4.1.1 SVM算法35-36
- 4.1.2 遺傳算法36-38
- 4.2 傳統(tǒng)的基于MapReduce的SVM分類(lèi)算法38-39
- 4.2.1 傳統(tǒng)分類(lèi)算法介紹38
- 4.2.2 基于遺傳函數(shù)對(duì)SVM核函數(shù)及參數(shù)的選取38-39
- 4.3 基于MapReduce的并行迭代SVM算法39-42
- 4.3.1 PISVMAM算法相關(guān)定義39-40
- 4.3.2 PISVMAM算法迭代收斂分析40-41
- 4.3.3 PISVMAM算法實(shí)現(xiàn)過(guò)程41-42
- 4.4 本章小結(jié)42-43
- 第五章 實(shí)驗(yàn)及性能分析43-50
- 5.1 Hadoop平臺(tái)設(shè)計(jì)43-46
- 5.1.1 實(shí)驗(yàn)環(huán)境部署43-45
- 5.1.2 作業(yè)程序分析45-46
- 5.2 迭代優(yōu)化實(shí)驗(yàn)結(jié)果與分析46-48
- 5.2.1 并行優(yōu)化機(jī)制試驗(yàn)與分析46-47
- 5.2.2 Map端優(yōu)化機(jī)制實(shí)驗(yàn)結(jié)果與分析47-48
- 5.3 PISVMAM算法實(shí)驗(yàn)結(jié)果及分析48-49
- 5.3.1PISVMAM算法實(shí)驗(yàn)數(shù)據(jù)48
- 5.3.2 算法實(shí)驗(yàn)結(jié)果分析48-49
- 5.4 本章小結(jié)49-50
- 第六章 總結(jié)與展望50-52
- 6.1 總結(jié)50-51
- 6.2 展望51-52
- 參考文獻(xiàn)52-54
- 附錄1 攻讀碩士學(xué)位期間撰寫(xiě)的論文54-55
- 致謝55
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 ;數(shù)據(jù)集N鄽2[J];航空材料;1959年09期
2 江海洪 ,羅長(zhǎng)坤;首套中國(guó)數(shù)字化可視人體數(shù)據(jù)集在第三軍醫(yī)大學(xué)研制成功[J];中華醫(yī)學(xué)雜志;2003年09期
3 陳相穎;數(shù)據(jù)集記錄快速定位與篩選方法之探討[J];計(jì)量與測(cè)試技術(shù);2005年06期
4 張曉斌;魏永祥;韓德民;夏寅;李希平;原林;唐雷;王興海;;數(shù)字化耳鼻咽喉數(shù)據(jù)集的采集[J];中華耳鼻咽喉頭頸外科雜志;2005年06期
5 王宏鼎;唐世渭;董國(guó)田;;數(shù)據(jù)集成中數(shù)據(jù)集特征的檢測(cè)方法[J];中國(guó)金融電腦;2006年03期
6 張華;郁書(shū)好;;時(shí)空數(shù)據(jù)集的連接處理和優(yōu)化方法研究[J];皖西學(xué)院學(xué)報(bào);2006年02期
7 苗卿;單立新;裘昱;;信息熵在數(shù)據(jù)集分割中的應(yīng)用研究[J];電腦知識(shí)與技術(shù)(學(xué)術(shù)交流);2007年05期
8 陳德誠(chéng);丘平珠;唐炳莉;;廣西氣象數(shù)據(jù)集設(shè)計(jì)與制作[J];氣象研究與應(yīng)用;2007年04期
9 趙鳳英;王崇駿;陳世福;;用于不均衡數(shù)據(jù)集的挖掘方法[J];計(jì)算機(jī)科學(xué);2007年09期
10 劉密霞;張秋余;趙宏;余冬梅;;入侵檢測(cè)報(bào)警相關(guān)性及評(píng)測(cè)數(shù)據(jù)集研究[J];計(jì)算機(jī)應(yīng)用研究;2008年10期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 田捷;;三維醫(yī)學(xué)影像數(shù)據(jù)集處理的集成化平臺(tái)[A];2003年全國(guó)醫(yī)學(xué)影像技術(shù)學(xué)術(shù)會(huì)議論文匯編[C];2003年
2 范明;魏芳;;挖掘基本顯露模式用于分類(lèi)[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2004年
3 冷傳良;;飛機(jī)化銑成樣板劃線數(shù)據(jù)集設(shè)計(jì)方法探索[A];第十屆沈陽(yáng)科學(xué)學(xué)術(shù)年會(huì)論文集(信息科學(xué)與工程技術(shù)分冊(cè))[C];2013年
4 孟燁;張鵬;宋大為;王雷;;信息檢索系統(tǒng)性能對(duì)數(shù)據(jù)集特性的依賴(lài)性分析[A];第十二屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議(NCMMSC'2013)論文集[C];2013年
5 段磊;唐常杰;左R
本文編號(hào):301061
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/301061.html