Spark負(fù)載均衡及隨機(jī)森林算法優(yōu)化研究
發(fā)布時(shí)間:2021-01-30 03:14
隨著信息技術(shù)的快速普及,各行各業(yè)產(chǎn)生并積累了海量的數(shù)據(jù),因此如何高效地處理海量數(shù)據(jù),從中挖掘出有價(jià)值的信息成為急需解決的重要問(wèn)題。近年來(lái),從平臺(tái)方面看,Spark作為一種基于內(nèi)存計(jì)算的高效的大數(shù)據(jù)處理平臺(tái),能夠較好地支撐解決大數(shù)據(jù)挖掘分析處理的一系列問(wèn)題,成為了學(xué)界和產(chǎn)業(yè)界的研究熱點(diǎn);從算法方面看,基于Spark平臺(tái)的數(shù)據(jù)挖掘算法優(yōu)化也是一個(gè)研究熱點(diǎn),隨機(jī)森林算法是數(shù)據(jù)分類方法中的典型算法,因其較好的分類性能被廣泛的應(yīng)用,因此研究基于Spark的隨機(jī)森林算法具有理論意義和實(shí)用價(jià)值。本文對(duì)于Spark平臺(tái)及基于Spark平臺(tái)的隨機(jī)森林分類算法進(jìn)行了相關(guān)研究,主要包括以下兩個(gè)方面的內(nèi)容:(1)Spark負(fù)載均衡優(yōu)化研究Spark是一種基于內(nèi)存計(jì)算的高效大數(shù)據(jù)處理平臺(tái),集群的負(fù)載均衡情況對(duì)于集群的運(yùn)算效率具有重要影響。但其默認(rèn)的任務(wù)調(diào)度策略在Spark集群下未考慮到節(jié)點(diǎn)的可用資源及節(jié)點(diǎn)當(dāng)前負(fù)載的具體情況,因此在進(jìn)行任務(wù)調(diào)度時(shí)可能會(huì)導(dǎo)致各個(gè)節(jié)點(diǎn)負(fù)載不均衡,進(jìn)而影響集群的任務(wù)處理效率。針對(duì)于Spark的負(fù)載不均衡問(wèn)題,本文提出一種基于Spark集群的自適應(yīng)任務(wù)調(diào)度策略用于實(shí)現(xiàn)Spark集群的負(fù)載...
【文章來(lái)源】:河北經(jīng)貿(mào)大學(xué)河北省
【文章頁(yè)數(shù)】:60 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
1 緒論
1.1 研究背景
1.2 研究目的及意義
1.3 國(guó)內(nèi)外研究現(xiàn)狀
1.3.1 負(fù)載均衡研究現(xiàn)狀
1.3.2 隨機(jī)森林算法及基于Spark的隨機(jī)森林算法研究現(xiàn)狀
1.4 本文結(jié)構(gòu)安排
2 相關(guān)技術(shù)分析
2.1 Spark生態(tài)系統(tǒng)
2.1.1 Spark組件及核心
2.1.2 部署模式
2.2 Spark相關(guān)技術(shù)分析
2.2.1 Spark運(yùn)行架構(gòu)
2.2.2 彈性分布式數(shù)據(jù)集(RDD)
2.2.3 Spark作業(yè)調(diào)度機(jī)制
2.3 啟發(fā)式算法
2.4 隨機(jī)森林算法分析
2.4.1 決策樹(shù)
2.4.2 隨機(jī)森林
2.5 特征選擇算法
2.6 本章小結(jié)
3 Spark負(fù)載均衡優(yōu)化研究
3.1 Spark負(fù)載均衡問(wèn)題分析
3.2 負(fù)載均衡優(yōu)化策略分析
3.3 相關(guān)理論基礎(chǔ)
3.3.1 蟻群算法
3.3.2 模擬退火算法
3.4 基于蟻群-模擬退火的Spark負(fù)載均衡優(yōu)化
3.4.1 蟻群-模擬退火融合算法
3.4.2 負(fù)載評(píng)價(jià)指標(biāo)
3.4.3 信息素更新機(jī)制
3.4.4 適應(yīng)度函數(shù)設(shè)計(jì)
3.4.5 Metropolis接受函數(shù)
3.4.6 蟻群-模擬退火任務(wù)分配策略
3.5 實(shí)驗(yàn)驗(yàn)證與分析
3.5.1 模擬驗(yàn)證實(shí)驗(yàn)
3.5.2 集群實(shí)驗(yàn)驗(yàn)證
3.6 本章小結(jié)
4 基于Spark的隨機(jī)森林算法優(yōu)化研究
4.1 隨機(jī)森林算法問(wèn)題分析
4.2 相關(guān)理論基礎(chǔ)
4.3 基于特征重要性的隨機(jī)森林算法
4.4 基于Spark的改進(jìn)隨機(jī)森林算法并行化設(shè)計(jì)
4.4.1 算法整體并行化設(shè)計(jì)
4.4.2 特征重要性計(jì)算并行化設(shè)計(jì)
4.4.3 隨機(jī)森林模型建模并行化設(shè)計(jì)
4.5 實(shí)驗(yàn)驗(yàn)證與應(yīng)用
4.5.1 算法改進(jìn)實(shí)驗(yàn)驗(yàn)證與分析
4.5.2 在信用評(píng)估領(lǐng)域中的應(yīng)用
4.6 本章小結(jié)
5 總結(jié)與展望
5.1 研究總結(jié)
5.2 研究展望
參考文獻(xiàn)
作者簡(jiǎn)歷
致謝
【參考文獻(xiàn)】:
期刊論文
[1]基于隨機(jī)森林的文本分類并行化[J]. 彭徵,王靈矯,郭華. 計(jì)算機(jī)科學(xué). 2018(12)
[2]基于隨機(jī)森林的自適應(yīng)特征選擇算法[J]. 劉凱,鄭山紅,蔣權(quán),趙天傲. 計(jì)算機(jī)技術(shù)與發(fā)展. 2018(09)
[3]基于非平衡數(shù)據(jù)的隨機(jī)森林分類算法改進(jìn)[J]. 魏正韜,楊有龍,白婧. 重慶大學(xué)學(xué)報(bào). 2018(04)
[4]基于Spark GraphX和社交網(wǎng)絡(luò)大數(shù)據(jù)的用戶影響力分析[J]. 文馨,陳能成,肖長(zhǎng)江. 計(jì)算機(jī)應(yīng)用研究. 2018(03)
[5]隨機(jī)森林改進(jìn)算法在LBS用戶社會(huì)關(guān)系推斷中的應(yīng)用[J]. 馬春來(lái),單洪,馬濤,史英春. 小型微型計(jì)算機(jī)系統(tǒng). 2016(12)
[6]異構(gòu)Spark集群下自適應(yīng)任務(wù)調(diào)度策略[J]. 楊志偉,鄭烇,王嵩,楊堅(jiān),周樂(lè)樂(lè). 計(jì)算機(jī)工程. 2016(01)
[7]一種基于ReliefF特征加權(quán)的R-NIC算法[J]. 陳曉琳,姬波,葉陽(yáng)東. 計(jì)算機(jī)工程. 2015(04)
[8]數(shù)據(jù)挖掘中決策樹(shù)分類算法的研究[J]. 李如平. 東華理工大學(xué)學(xué)報(bào)(自然科學(xué)版). 2010(02)
[9]基于自適應(yīng)路徑選擇和信息素更新的蟻群算法[J]. 趙寶江,李士勇,金俊. 計(jì)算機(jī)工程與應(yīng)用. 2007(03)
碩士論文
[1]基于Spark的隨機(jī)森林算法優(yōu)化與并行化研究[D]. 胡天宇.齊魯工業(yè)大學(xué) 2019
[2]基于Spark的高效用項(xiàng)集挖掘算法研究[D]. 肖懷遠(yuǎn).河南大學(xué) 2018
[3]面向特征選擇的Relief算法研究[D]. 黃曉娟.蘇州大學(xué) 2018
[4]Hadoop集群中數(shù)據(jù)負(fù)載均衡優(yōu)化及其平臺(tái)應(yīng)用研究[D]. 于磊春.江蘇大學(xué) 2018
[5]Spark中的數(shù)據(jù)均衡分配算法研究[D]. 黃超杰.電子科技大學(xué) 2018
[6]基于Hadoop的MapReduce性能優(yōu)化研究[D]. 馮亮亮.南京郵電大學(xué) 2017
[7]基于Spark的一種改進(jìn)的隨機(jī)森林算法研究[D]. 王日升.太原理工大學(xué) 2017
[8]基于Spark的情報(bào)大數(shù)據(jù)可視化分析[D]. 李筱川.山東大學(xué) 2017
[9]基于Spark分布式平臺(tái)的隨機(jī)森林分類算法研究[D]. 牛志華.中國(guó)民航大學(xué) 2017
[10]面向負(fù)載均衡的Spark任務(wù)劃分與調(diào)度策略研究[D]. 李巧巧.湖南大學(xué) 2017
本文編號(hào):3008127
【文章來(lái)源】:河北經(jīng)貿(mào)大學(xué)河北省
【文章頁(yè)數(shù)】:60 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
1 緒論
1.1 研究背景
1.2 研究目的及意義
1.3 國(guó)內(nèi)外研究現(xiàn)狀
1.3.1 負(fù)載均衡研究現(xiàn)狀
1.3.2 隨機(jī)森林算法及基于Spark的隨機(jī)森林算法研究現(xiàn)狀
1.4 本文結(jié)構(gòu)安排
2 相關(guān)技術(shù)分析
2.1 Spark生態(tài)系統(tǒng)
2.1.1 Spark組件及核心
2.1.2 部署模式
2.2 Spark相關(guān)技術(shù)分析
2.2.1 Spark運(yùn)行架構(gòu)
2.2.2 彈性分布式數(shù)據(jù)集(RDD)
2.2.3 Spark作業(yè)調(diào)度機(jī)制
2.3 啟發(fā)式算法
2.4 隨機(jī)森林算法分析
2.4.1 決策樹(shù)
2.4.2 隨機(jī)森林
2.5 特征選擇算法
2.6 本章小結(jié)
3 Spark負(fù)載均衡優(yōu)化研究
3.1 Spark負(fù)載均衡問(wèn)題分析
3.2 負(fù)載均衡優(yōu)化策略分析
3.3 相關(guān)理論基礎(chǔ)
3.3.1 蟻群算法
3.3.2 模擬退火算法
3.4 基于蟻群-模擬退火的Spark負(fù)載均衡優(yōu)化
3.4.1 蟻群-模擬退火融合算法
3.4.2 負(fù)載評(píng)價(jià)指標(biāo)
3.4.3 信息素更新機(jī)制
3.4.4 適應(yīng)度函數(shù)設(shè)計(jì)
3.4.5 Metropolis接受函數(shù)
3.4.6 蟻群-模擬退火任務(wù)分配策略
3.5 實(shí)驗(yàn)驗(yàn)證與分析
3.5.1 模擬驗(yàn)證實(shí)驗(yàn)
3.5.2 集群實(shí)驗(yàn)驗(yàn)證
3.6 本章小結(jié)
4 基于Spark的隨機(jī)森林算法優(yōu)化研究
4.1 隨機(jī)森林算法問(wèn)題分析
4.2 相關(guān)理論基礎(chǔ)
4.3 基于特征重要性的隨機(jī)森林算法
4.4 基于Spark的改進(jìn)隨機(jī)森林算法并行化設(shè)計(jì)
4.4.1 算法整體并行化設(shè)計(jì)
4.4.2 特征重要性計(jì)算并行化設(shè)計(jì)
4.4.3 隨機(jī)森林模型建模并行化設(shè)計(jì)
4.5 實(shí)驗(yàn)驗(yàn)證與應(yīng)用
4.5.1 算法改進(jìn)實(shí)驗(yàn)驗(yàn)證與分析
4.5.2 在信用評(píng)估領(lǐng)域中的應(yīng)用
4.6 本章小結(jié)
5 總結(jié)與展望
5.1 研究總結(jié)
5.2 研究展望
參考文獻(xiàn)
作者簡(jiǎn)歷
致謝
【參考文獻(xiàn)】:
期刊論文
[1]基于隨機(jī)森林的文本分類并行化[J]. 彭徵,王靈矯,郭華. 計(jì)算機(jī)科學(xué). 2018(12)
[2]基于隨機(jī)森林的自適應(yīng)特征選擇算法[J]. 劉凱,鄭山紅,蔣權(quán),趙天傲. 計(jì)算機(jī)技術(shù)與發(fā)展. 2018(09)
[3]基于非平衡數(shù)據(jù)的隨機(jī)森林分類算法改進(jìn)[J]. 魏正韜,楊有龍,白婧. 重慶大學(xué)學(xué)報(bào). 2018(04)
[4]基于Spark GraphX和社交網(wǎng)絡(luò)大數(shù)據(jù)的用戶影響力分析[J]. 文馨,陳能成,肖長(zhǎng)江. 計(jì)算機(jī)應(yīng)用研究. 2018(03)
[5]隨機(jī)森林改進(jìn)算法在LBS用戶社會(huì)關(guān)系推斷中的應(yīng)用[J]. 馬春來(lái),單洪,馬濤,史英春. 小型微型計(jì)算機(jī)系統(tǒng). 2016(12)
[6]異構(gòu)Spark集群下自適應(yīng)任務(wù)調(diào)度策略[J]. 楊志偉,鄭烇,王嵩,楊堅(jiān),周樂(lè)樂(lè). 計(jì)算機(jī)工程. 2016(01)
[7]一種基于ReliefF特征加權(quán)的R-NIC算法[J]. 陳曉琳,姬波,葉陽(yáng)東. 計(jì)算機(jī)工程. 2015(04)
[8]數(shù)據(jù)挖掘中決策樹(shù)分類算法的研究[J]. 李如平. 東華理工大學(xué)學(xué)報(bào)(自然科學(xué)版). 2010(02)
[9]基于自適應(yīng)路徑選擇和信息素更新的蟻群算法[J]. 趙寶江,李士勇,金俊. 計(jì)算機(jī)工程與應(yīng)用. 2007(03)
碩士論文
[1]基于Spark的隨機(jī)森林算法優(yōu)化與并行化研究[D]. 胡天宇.齊魯工業(yè)大學(xué) 2019
[2]基于Spark的高效用項(xiàng)集挖掘算法研究[D]. 肖懷遠(yuǎn).河南大學(xué) 2018
[3]面向特征選擇的Relief算法研究[D]. 黃曉娟.蘇州大學(xué) 2018
[4]Hadoop集群中數(shù)據(jù)負(fù)載均衡優(yōu)化及其平臺(tái)應(yīng)用研究[D]. 于磊春.江蘇大學(xué) 2018
[5]Spark中的數(shù)據(jù)均衡分配算法研究[D]. 黃超杰.電子科技大學(xué) 2018
[6]基于Hadoop的MapReduce性能優(yōu)化研究[D]. 馮亮亮.南京郵電大學(xué) 2017
[7]基于Spark的一種改進(jìn)的隨機(jī)森林算法研究[D]. 王日升.太原理工大學(xué) 2017
[8]基于Spark的情報(bào)大數(shù)據(jù)可視化分析[D]. 李筱川.山東大學(xué) 2017
[9]基于Spark分布式平臺(tái)的隨機(jī)森林分類算法研究[D]. 牛志華.中國(guó)民航大學(xué) 2017
[10]面向負(fù)載均衡的Spark任務(wù)劃分與調(diào)度策略研究[D]. 李巧巧.湖南大學(xué) 2017
本文編號(hào):3008127
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3008127.html
最近更新
教材專著