基于Hadoop集群作業(yè)調(diào)度實時性能改進的研究與設(shè)計
發(fā)布時間:2021-08-16 09:21
Hadoop平臺是目前最為主流的分布式云計算平臺,同時作業(yè)調(diào)度技術(shù)是Hadoop中的關(guān)鍵技術(shù),對Hadoop平臺的性能和系統(tǒng)的資源利用都有直接的影響,因此在Hadoop平臺下研究作業(yè)調(diào)度具有重要意義。隨著各行各業(yè)的發(fā)展,用戶的需求日趨多元,具有時間約束要求的混合任務(wù)集的應(yīng)用越來越普遍。其中,用戶對于具備實時性能的系統(tǒng)更為關(guān)注,通過設(shè)計一種作業(yè)調(diào)度器的實現(xiàn)提升Hadoop平臺實時性能是目前該領(lǐng)域研究的熱點之一,F(xiàn)有的問題是Hadoop現(xiàn)有的作業(yè)調(diào)度器對實時性能考慮較少,對作業(yè)隊列的安排僅考慮單元組,同時對多任務(wù)類型的適用性考慮不足。針對上述問題本文提出一種新的混合任務(wù)集作業(yè)調(diào)度策略:作業(yè)調(diào)度采用動態(tài)優(yōu)先級調(diào)度方式,在動態(tài)優(yōu)先級調(diào)度算法中將調(diào)度決策單元組擴展為四元組,分別是作業(yè)緊急程度,作業(yè)等待時間,作業(yè)任務(wù)價值以及作業(yè)預(yù)計完成時間。在實現(xiàn)技術(shù)上本文通過創(chuàng)建新作業(yè)調(diào)度器,將新作業(yè)調(diào)度器繼承TaskScheduler接口,并在ResourceManager中實現(xiàn)新調(diào)度器加載和調(diào)用。同時在Hadoop中默認的作業(yè)優(yōu)先級只有五個等級,無法明確反映作業(yè)的緊急程度,因此本文還給出優(yōu)先級等比例映射公式...
【文章來源】:沈陽工業(yè)大學(xué)遼寧省
【文章頁數(shù)】:63 頁
【學(xué)位級別】:碩士
【部分圖文】:
云計算服務(wù)類型Fig2.1CloudcomputingservicetypeSaaSCRM、電子郵件、虛擬桌面、在線游戲…用
Nutch 希望實現(xiàn)對全網(wǎng)的搜索;但是隨著各行業(yè)的不斷進步,需要處理的網(wǎng)頁數(shù)目也越來越多,解決海量數(shù)據(jù)的存儲和相關(guān)的查詢功能也日趨困難,在問題出現(xiàn)之后谷歌發(fā)出兩篇論文來解決現(xiàn)有問題。其中一篇就是分布式文件系統(tǒng) GFS 的論文,其主要內(nèi)容描述了搜索引擎中相關(guān)的存儲架構(gòu),解決了網(wǎng)頁抓取中的超大文件存儲問題。另一篇介紹了重要的分布式計算框架MapReduce的設(shè)計藝術(shù),解決了海量網(wǎng)頁的索引問題[26]。Hadoop 版本的發(fā)展可以通過兩個版本進行描述,分別是 MapReduce version 1 和MapReduce version 2[27]。目前,較為通用的版本是 Hadoop2.x,該版本分離開資源管理和計算框架,方便了 Hadoop 與其他的分布式框架結(jié)合,提升了 Hadoop 的生命力。下圖 2.2 即為 Hadoop 的主要發(fā)行版本以及里程碑事件。2003 年 Nutch2004 年谷歌發(fā)表兩篇重要論文2006 年 Hadoop誕生2008 年2010 年 4 月谷歌將專利授權(quán)給 Apache 軟件基金會2011 年 12 月Hadoop1.0.0
當最后一個 DataNode 完成操作后會返回 ack packet,同樣通過 pipeline 返回給客戶端,當 client 內(nèi)部成功收到由 DataNode 返回的 ack packet 之后,會將該 ack packet 從相應(yīng)的 ack queue 中去除。如果在寫操作進行的過程中,有其中一個 DataNode 出現(xiàn)了問題,出現(xiàn)問題的會被當前 pipeline 移除,同時該 pipeline 就會被關(guān)閉,剩下的 block 會繼續(xù)在 pipeline 中傳輸,此時 NameNode 會為其分配一個新的 DataNode,保持先前replicas 的數(shù)量。所有 block 均完成便關(guān)閉文件。DistributedHDFSFileSystemClient1:Create3:write NameNodeNameNode2:CreateDistributedFileSystem6:close7:completeClientJVM5:ack packet4:write packet
【參考文獻】:
期刊論文
[1]基于公平調(diào)度的新能源調(diào)度方法[J]. 張鵬,黃越輝,李馳,楊海柱,岳剛偉,康樂. 科學(xué)技術(shù)與工程. 2018(20)
[2]基于公平性約束的無線體域網(wǎng)集中式調(diào)度算法[J]. 經(jīng)貞,謝志軍,石守東,紐俊. 傳感器與微系統(tǒng). 2018(06)
[3]耦合分布式系統(tǒng)多任務(wù)動態(tài)調(diào)度算法[J]. 劉金波,黃海于. 計算機技術(shù)與發(fā)展. 2017(12)
[4]基于節(jié)點性能的Hadoop作業(yè)調(diào)度算法改進[J]. 馮興杰,賀陽. 計算機應(yīng)用與軟件. 2017(05)
[5]MapReduce大數(shù)據(jù)處理平臺與算法研究進展[J]. 宋杰,孫宗哲,毛克明,鮑玉斌,于戈. 軟件學(xué)報. 2017(03)
[6]Hadoop平臺中作業(yè)調(diào)度算法分析與改進研究[J]. 陳新. 微型機與應(yīng)用. 2016(11)
[7]基于節(jié)點集計算能力差異的Hadoop自適應(yīng)任務(wù)調(diào)度算法[J]. 朱潔,李雯睿,王江平,趙紅. 計算機應(yīng)用. 2016(04)
[8]異構(gòu)Hadoop環(huán)境下的實時作業(yè)調(diào)度算法[J]. 何曦,張向利,張紅梅. 計算機工程與應(yīng)用. 2016(16)
[9]Hadoop集群作業(yè)調(diào)度算法優(yōu)化技術(shù)研究[J]. 單冬紅,郭靜博,趙偉艇. 現(xiàn)代電子技術(shù). 2016(06)
[10]基于范德蒙碼的HDFS優(yōu)化存儲策略研究[J]. 宋寶燕,王俊陸,王妍. 計算機學(xué)報. 2015(09)
碩士論文
[1]Hadoop平臺的作業(yè)調(diào)度算法研究與改進[D]. 陶昌俊.中國科學(xué)技術(shù)大學(xué) 2015
本文編號:3345412
【文章來源】:沈陽工業(yè)大學(xué)遼寧省
【文章頁數(shù)】:63 頁
【學(xué)位級別】:碩士
【部分圖文】:
云計算服務(wù)類型Fig2.1CloudcomputingservicetypeSaaSCRM、電子郵件、虛擬桌面、在線游戲…用
Nutch 希望實現(xiàn)對全網(wǎng)的搜索;但是隨著各行業(yè)的不斷進步,需要處理的網(wǎng)頁數(shù)目也越來越多,解決海量數(shù)據(jù)的存儲和相關(guān)的查詢功能也日趨困難,在問題出現(xiàn)之后谷歌發(fā)出兩篇論文來解決現(xiàn)有問題。其中一篇就是分布式文件系統(tǒng) GFS 的論文,其主要內(nèi)容描述了搜索引擎中相關(guān)的存儲架構(gòu),解決了網(wǎng)頁抓取中的超大文件存儲問題。另一篇介紹了重要的分布式計算框架MapReduce的設(shè)計藝術(shù),解決了海量網(wǎng)頁的索引問題[26]。Hadoop 版本的發(fā)展可以通過兩個版本進行描述,分別是 MapReduce version 1 和MapReduce version 2[27]。目前,較為通用的版本是 Hadoop2.x,該版本分離開資源管理和計算框架,方便了 Hadoop 與其他的分布式框架結(jié)合,提升了 Hadoop 的生命力。下圖 2.2 即為 Hadoop 的主要發(fā)行版本以及里程碑事件。2003 年 Nutch2004 年谷歌發(fā)表兩篇重要論文2006 年 Hadoop誕生2008 年2010 年 4 月谷歌將專利授權(quán)給 Apache 軟件基金會2011 年 12 月Hadoop1.0.0
當最后一個 DataNode 完成操作后會返回 ack packet,同樣通過 pipeline 返回給客戶端,當 client 內(nèi)部成功收到由 DataNode 返回的 ack packet 之后,會將該 ack packet 從相應(yīng)的 ack queue 中去除。如果在寫操作進行的過程中,有其中一個 DataNode 出現(xiàn)了問題,出現(xiàn)問題的會被當前 pipeline 移除,同時該 pipeline 就會被關(guān)閉,剩下的 block 會繼續(xù)在 pipeline 中傳輸,此時 NameNode 會為其分配一個新的 DataNode,保持先前replicas 的數(shù)量。所有 block 均完成便關(guān)閉文件。DistributedHDFSFileSystemClient1:Create3:write NameNodeNameNode2:CreateDistributedFileSystem6:close7:completeClientJVM5:ack packet4:write packet
【參考文獻】:
期刊論文
[1]基于公平調(diào)度的新能源調(diào)度方法[J]. 張鵬,黃越輝,李馳,楊海柱,岳剛偉,康樂. 科學(xué)技術(shù)與工程. 2018(20)
[2]基于公平性約束的無線體域網(wǎng)集中式調(diào)度算法[J]. 經(jīng)貞,謝志軍,石守東,紐俊. 傳感器與微系統(tǒng). 2018(06)
[3]耦合分布式系統(tǒng)多任務(wù)動態(tài)調(diào)度算法[J]. 劉金波,黃海于. 計算機技術(shù)與發(fā)展. 2017(12)
[4]基于節(jié)點性能的Hadoop作業(yè)調(diào)度算法改進[J]. 馮興杰,賀陽. 計算機應(yīng)用與軟件. 2017(05)
[5]MapReduce大數(shù)據(jù)處理平臺與算法研究進展[J]. 宋杰,孫宗哲,毛克明,鮑玉斌,于戈. 軟件學(xué)報. 2017(03)
[6]Hadoop平臺中作業(yè)調(diào)度算法分析與改進研究[J]. 陳新. 微型機與應(yīng)用. 2016(11)
[7]基于節(jié)點集計算能力差異的Hadoop自適應(yīng)任務(wù)調(diào)度算法[J]. 朱潔,李雯睿,王江平,趙紅. 計算機應(yīng)用. 2016(04)
[8]異構(gòu)Hadoop環(huán)境下的實時作業(yè)調(diào)度算法[J]. 何曦,張向利,張紅梅. 計算機工程與應(yīng)用. 2016(16)
[9]Hadoop集群作業(yè)調(diào)度算法優(yōu)化技術(shù)研究[J]. 單冬紅,郭靜博,趙偉艇. 現(xiàn)代電子技術(shù). 2016(06)
[10]基于范德蒙碼的HDFS優(yōu)化存儲策略研究[J]. 宋寶燕,王俊陸,王妍. 計算機學(xué)報. 2015(09)
碩士論文
[1]Hadoop平臺的作業(yè)調(diào)度算法研究與改進[D]. 陶昌俊.中國科學(xué)技術(shù)大學(xué) 2015
本文編號:3345412
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3345412.html
最近更新
教材專著