基于Spark的FCM算法的研究與應(yīng)用
發(fā)布時間:2022-01-15 12:43
在現(xiàn)代社會中信息科學技術(shù)越來越重要,大數(shù)據(jù)處理、技術(shù)更新?lián)Q代、商業(yè)模式的進化需求越來越旺盛,因而對大規(guī)模數(shù)據(jù)進行有效處理,并從大規(guī)模的數(shù)據(jù)中挖掘出有價值的信息已然成為當今時代眾多企業(yè)以及學者關(guān)注的重要話題。在以大數(shù)據(jù)信息技術(shù)為主導的社會背景下,對經(jīng)典聚類算法進行改進和擴展并使其為大數(shù)據(jù)進行服務(wù)是及其重要的,因而本文就是在此背景下的聚類算法的改進。模糊C均值算法(FCM)是目前眾多模糊聚類算法中應(yīng)用最廣泛、較為成熟的算法,FCM算法通過目標函數(shù)的不斷優(yōu)化,進而可以得出所有樣本點對每個類中心的隸屬度,以此來判斷輸入樣本的類別。FCM憑借這一運算原理在眾多模糊聚類算法中脫穎而出,其求解的聚類結(jié)果通常會比一般其他的算法更為優(yōu)良。論文的研究方案主要是基于理論基礎(chǔ)以及實踐實驗來展開的,對常用的單機環(huán)境和Spark環(huán)境從應(yīng)用特點、模型等方面進行對比,從理論分析對比兩種架構(gòu)在迭代學習任務(wù)上的性能差異,得出Spark在迭代性能方面更具有優(yōu)勢的結(jié)論。然后對模糊c均值算法基于Spark平臺進行并行化的探討,利用Spark平臺上的特殊功能,對算法進行改進,對算法并行計算后的魯棒性問題也進行了大程度的改善。針對...
【文章來源】:大連海事大學遼寧省 211工程院校
【文章頁數(shù)】:86 頁
【學位級別】:碩士
【部分圖文】:
圖1.1本文研究框架圖??Fig.?1.1?The?Diagram?of?Research?Framework??
???-??廠????;?;?Spark?AM?:??i?YARN?Client?!?;?????:???^??;?;?SparkContext?!?!??提交APP請求?::? ̄^?;;??;;?YarnCluster?;,??????^YARN?主節(jié)點J?|?CoarseGrained?|?:??;?7?;?;?SchedulerBackend?::??!?YARN?Client?j?.?i????I?;;??圖2.?4?YARN的工作流程圖??Fig.2.4?YARN?working?Flow?Chart??(五)RDD的運行流程??RDD在Spark中運行大概分為以下三步:??1、創(chuàng)建RDD對象;??2、DAGSchediiler模塊介入運算,計算RDD之間的依賴關(guān)系,RDD之間的依賴關(guān)??系就形成了?DAG;??3、每一個Job被分為多個Stage。劃分Stage的一個主要依據(jù)是當前計算因子的輸??入是否是確定的,如果是則將其分在同一個Stage,避免多個Stage之間的消息傳遞開銷。??示例圖如圖2.5所示:??RDD?Objects?DA^S^eduto?Ta^Schedil^?Worker??^?I,??U?卜參么卜國?Cluster?—地??:斗?Set?Bio?ck??■?■?vVVWvvs?manager??MB?v?/????^????rddl.join(rdd2)?Split?graph?into?launch?tasks?via??.EroiroBv{...)?Stages?of?
???-??廠????;?;?Spark?AM?:??i?YARN?Client?!?;?????:???^??;?;?SparkContext?!?!??提交APP請求?::? ̄^?;;??;;?YarnCluster?;,??????^YARN?主節(jié)點J?|?CoarseGrained?|?:??;?7?;?;?SchedulerBackend?::??!?YARN?Client?j?.?i????I?;;??圖2.?4?YARN的工作流程圖??Fig.2.4?YARN?working?Flow?Chart??(五)RDD的運行流程??RDD在Spark中運行大概分為以下三步:??1、創(chuàng)建RDD對象;??2、DAGSchediiler模塊介入運算,計算RDD之間的依賴關(guān)系,RDD之間的依賴關(guān)??系就形成了?DAG;??3、每一個Job被分為多個Stage。劃分Stage的一個主要依據(jù)是當前計算因子的輸??入是否是確定的,如果是則將其分在同一個Stage,避免多個Stage之間的消息傳遞開銷。??示例圖如圖2.5所示:??RDD?Objects?DA^S^eduto?Ta^Schedil^?Worker??^?I,??U?卜參么卜國?Cluster?—地??:斗?Set?Bio?ck??■?■?vVVWvvs?manager??MB?v?/????^????rddl.join(rdd2)?Split?graph?into?launch?tasks?via??.EroiroBv{...)?Stages?of?
本文編號:3590637
【文章來源】:大連海事大學遼寧省 211工程院校
【文章頁數(shù)】:86 頁
【學位級別】:碩士
【部分圖文】:
圖1.1本文研究框架圖??Fig.?1.1?The?Diagram?of?Research?Framework??
???-??廠????;?;?Spark?AM?:??i?YARN?Client?!?;?????:???^??;?;?SparkContext?!?!??提交APP請求?::? ̄^?;;??;;?YarnCluster?;,??????^YARN?主節(jié)點J?|?CoarseGrained?|?:??;?7?;?;?SchedulerBackend?::??!?YARN?Client?j?.?i????I?;;??圖2.?4?YARN的工作流程圖??Fig.2.4?YARN?working?Flow?Chart??(五)RDD的運行流程??RDD在Spark中運行大概分為以下三步:??1、創(chuàng)建RDD對象;??2、DAGSchediiler模塊介入運算,計算RDD之間的依賴關(guān)系,RDD之間的依賴關(guān)??系就形成了?DAG;??3、每一個Job被分為多個Stage。劃分Stage的一個主要依據(jù)是當前計算因子的輸??入是否是確定的,如果是則將其分在同一個Stage,避免多個Stage之間的消息傳遞開銷。??示例圖如圖2.5所示:??RDD?Objects?DA^S^eduto?Ta^Schedil^?Worker??^?I,??U?卜參么卜國?Cluster?—地??:斗?Set?Bio?ck??■?■?vVVWvvs?manager??MB?v?/????^????rddl.join(rdd2)?Split?graph?into?launch?tasks?via??.EroiroBv{...)?Stages?of?
???-??廠????;?;?Spark?AM?:??i?YARN?Client?!?;?????:???^??;?;?SparkContext?!?!??提交APP請求?::? ̄^?;;??;;?YarnCluster?;,??????^YARN?主節(jié)點J?|?CoarseGrained?|?:??;?7?;?;?SchedulerBackend?::??!?YARN?Client?j?.?i????I?;;??圖2.?4?YARN的工作流程圖??Fig.2.4?YARN?working?Flow?Chart??(五)RDD的運行流程??RDD在Spark中運行大概分為以下三步:??1、創(chuàng)建RDD對象;??2、DAGSchediiler模塊介入運算,計算RDD之間的依賴關(guān)系,RDD之間的依賴關(guān)??系就形成了?DAG;??3、每一個Job被分為多個Stage。劃分Stage的一個主要依據(jù)是當前計算因子的輸??入是否是確定的,如果是則將其分在同一個Stage,避免多個Stage之間的消息傳遞開銷。??示例圖如圖2.5所示:??RDD?Objects?DA^S^eduto?Ta^Schedil^?Worker??^?I,??U?卜參么卜國?Cluster?—地??:斗?Set?Bio?ck??■?■?vVVWvvs?manager??MB?v?/????^????rddl.join(rdd2)?Split?graph?into?launch?tasks?via??.EroiroBv{...)?Stages?of?
本文編號:3590637
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3590637.html
最近更新
教材專著