基于Spark的空間聚類算法的并行化優(yōu)化研究與應(yīng)用
發(fā)布時(shí)間:2021-01-07 00:15
在計(jì)算機(jī)的軟硬件技術(shù)高速發(fā)展下,如今已經(jīng)進(jìn)入了大數(shù)據(jù)信息階段,傳統(tǒng)的數(shù)據(jù)處理在面對(duì)數(shù)據(jù)規(guī)模較大的處理任務(wù)時(shí),其執(zhí)行速度和效率非常低甚至根本無法完成處理任務(wù),分布式計(jì)算進(jìn)而出現(xiàn)。目前主流分布式計(jì)算框架有Spark、Hadoop;常見集群計(jì)算模塊有HDFS(Hadoop Distributed File System)分布式文件存儲(chǔ)系統(tǒng);Spark中特有的RDD(Resilient Distributed Datasets)彈性分布式數(shù)據(jù)集結(jié)構(gòu);Yarn資源調(diào)度引擎;MapReduce并行計(jì)算框架等等,以上所有模塊的出現(xiàn)使得面對(duì)大數(shù)據(jù)時(shí)代的并行計(jì)算任務(wù)更加迅速且高效。對(duì)數(shù)據(jù)中隱含信息的進(jìn)一步挖掘?qū)ξ覀儸F(xiàn)實(shí)應(yīng)用和生產(chǎn)有著極其重要的實(shí)際指導(dǎo)意義。K-Means空間聚類分析作為空間數(shù)據(jù)挖掘技術(shù)中的一個(gè)重要方法,也是空間數(shù)據(jù)挖掘領(lǐng)域的重點(diǎn)研究方向之一。與此同時(shí),傳統(tǒng)的數(shù)據(jù)分析方法也無法在集成式環(huán)境下直接運(yùn)行,這也是目前學(xué)術(shù)界和行業(yè)界在大數(shù)據(jù)領(lǐng)域研究的熱點(diǎn)之一。另外,基本K-Means聚類算法采用Random方式確定簇類中心,使得該算法聚類結(jié)果穩(wěn)健性不佳并且對(duì)樣本離群點(diǎn)很敏感,嚴(yán)重甚至導(dǎo)致聚類失敗。...
【文章來源】:浙江工業(yè)大學(xué)浙江省
【文章頁數(shù)】:95 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
并行計(jì)算框架圖
浙江工業(yè)大學(xué)碩士學(xué)位論文10進(jìn)行分發(fā)到每個(gè)節(jié)點(diǎn)上,這種分布式計(jì)算方式具有很高的容錯(cuò)和安全可靠性。MapReduce并行計(jì)算體系構(gòu)成主要由兩部分組成:Job-Trackers和Task-Trackers。下圖2-2顯示了MapReduce主要執(zhí)行過程以及數(shù)據(jù)流向。圖2-2MapReduce執(zhí)行流程圖Figure2-2.MapReduceexecutionflowchartJob-Tracker是運(yùn)行在主節(jié)點(diǎn)上的,因此在一個(gè)完整的分布式計(jì)算作業(yè)當(dāng)值只有一個(gè),它是主要負(fù)責(zé)將一個(gè)完整的任務(wù)進(jìn)分解成多個(gè)子任務(wù),然后將這些任務(wù)分發(fā)到各個(gè)節(jié)點(diǎn)上由Task-Tracker執(zhí)行;另外,如果在某一個(gè)節(jié)點(diǎn)上任務(wù)執(zhí)行失敗,Job-Tracker會(huì)給失敗的任務(wù)重新指定節(jié)點(diǎn)來執(zhí)行。Task-Tracker就是執(zhí)行Job-Tracker分配的子任務(wù),主要負(fù)責(zé)上圖中Mapper和Reducer的運(yùn)行,并將任務(wù)執(zhí)行狀態(tài)向Job-Tracker進(jìn)行匯報(bào)。Mapper是負(fù)責(zé)對(duì)Input數(shù)據(jù)進(jìn)行解析,傳遞給開發(fā)人員腳本中的map()函數(shù),如果只有Map過程沒有后續(xù)的Reduce過程,那么數(shù)據(jù)結(jié)果直接寫進(jìn)HDFS,如果后面有Reduce過程,將MapOutput結(jié)果寫到本地磁盤,然后再執(zhí)行Reduce操作。Reducer是對(duì)Mappper后的結(jié)果進(jìn)行運(yùn)算。先要從本地磁盤中讀取MapOutput,然后將數(shù)據(jù)進(jìn)行shuffle等操作,最終按照groupBy傳遞給開發(fā)人員腳本中的reduce()函數(shù)。2.2.2分布式文件系統(tǒng)HDFSHDFS(HadoopDistributedFileSystem)是統(tǒng)一管理分布在集群上的文件系統(tǒng),該分布式存儲(chǔ)模塊具有以下屬性:能夠存儲(chǔ)較大文件:“大”一般指GB、TB級(jí)別,而實(shí)際應(yīng)用場(chǎng)景中的
基于Spark的空間聚類算法的并行化優(yōu)化研究與應(yīng)用11數(shù)據(jù)已經(jīng)達(dá)到PB級(jí)別。采用流式的數(shù)據(jù)訪問形式。在很多實(shí)際分析工作中,分析工作經(jīng)常只讀取大部分?jǐn)?shù)據(jù)而不是全部數(shù)據(jù),因此讀取整個(gè)文件的時(shí)間在設(shè)計(jì)中更加重要。因此采用了One-Write、More-Read模式。適用于商業(yè)設(shè)備。Hadoop集群的部署不需要跟高端的設(shè)備,可運(yùn)行于普通商用機(jī)器,使得部署工作相對(duì)容易實(shí)現(xiàn),具有較低的節(jié)點(diǎn)失敗率和較高的節(jié)點(diǎn)擴(kuò)展能力。HDFS整體的結(jié)構(gòu)框圖如2-3圖所表示。HDFS的系統(tǒng)結(jié)構(gòu)是Master-Slave模式。多個(gè)Datanode負(fù)責(zé)實(shí)際數(shù)據(jù)存儲(chǔ)和讀寫作業(yè);一個(gè)Namenod完成元數(shù)據(jù)管理和命名空間構(gòu)建。圖2-3HDFS基本結(jié)構(gòu)框圖Figure2-3.BasicstructureblockdiagramofHDFSNamenode是主節(jié)點(diǎn),一臺(tái)服務(wù)器只有一個(gè)Namenode節(jié)點(diǎn)。該節(jié)點(diǎn)主要任務(wù)和作用是對(duì)全部的文件系統(tǒng)進(jìn)行管理和維護(hù),可以完成對(duì)文件的打開關(guān)閉和重命名操作,并且可以和客戶端進(jìn)行交互。值得注意的是Namenode在操作文件的過程中,數(shù)據(jù)對(duì)象是放在內(nèi)存的。它是一整個(gè)文件系統(tǒng)的總?cè)肟,?dāng)客戶端對(duì)文件進(jìn)行查詢時(shí),Namenode先要對(duì)客戶端發(fā)來的相關(guān)信息進(jìn)行確認(rèn),通過后才可以對(duì)文件進(jìn)行操作。當(dāng)文件是分布式存在不同的集群節(jié)點(diǎn)主機(jī)上時(shí),也是通過Namenode對(duì)文件系統(tǒng)的命名空間進(jìn)行操作來實(shí)現(xiàn)文件之間的關(guān)聯(lián)的。Datanode是數(shù)據(jù)節(jié)點(diǎn),一臺(tái)服務(wù)器中可以有多個(gè)Datanode,它是文件存儲(chǔ)的最小單元。當(dāng)整個(gè)計(jì)算任務(wù)被分成許多子任務(wù)的時(shí)候,對(duì)應(yīng)的數(shù)據(jù)文件也被
本文編號(hào):2961511
【文章來源】:浙江工業(yè)大學(xué)浙江省
【文章頁數(shù)】:95 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
并行計(jì)算框架圖
浙江工業(yè)大學(xué)碩士學(xué)位論文10進(jìn)行分發(fā)到每個(gè)節(jié)點(diǎn)上,這種分布式計(jì)算方式具有很高的容錯(cuò)和安全可靠性。MapReduce并行計(jì)算體系構(gòu)成主要由兩部分組成:Job-Trackers和Task-Trackers。下圖2-2顯示了MapReduce主要執(zhí)行過程以及數(shù)據(jù)流向。圖2-2MapReduce執(zhí)行流程圖Figure2-2.MapReduceexecutionflowchartJob-Tracker是運(yùn)行在主節(jié)點(diǎn)上的,因此在一個(gè)完整的分布式計(jì)算作業(yè)當(dāng)值只有一個(gè),它是主要負(fù)責(zé)將一個(gè)完整的任務(wù)進(jìn)分解成多個(gè)子任務(wù),然后將這些任務(wù)分發(fā)到各個(gè)節(jié)點(diǎn)上由Task-Tracker執(zhí)行;另外,如果在某一個(gè)節(jié)點(diǎn)上任務(wù)執(zhí)行失敗,Job-Tracker會(huì)給失敗的任務(wù)重新指定節(jié)點(diǎn)來執(zhí)行。Task-Tracker就是執(zhí)行Job-Tracker分配的子任務(wù),主要負(fù)責(zé)上圖中Mapper和Reducer的運(yùn)行,并將任務(wù)執(zhí)行狀態(tài)向Job-Tracker進(jìn)行匯報(bào)。Mapper是負(fù)責(zé)對(duì)Input數(shù)據(jù)進(jìn)行解析,傳遞給開發(fā)人員腳本中的map()函數(shù),如果只有Map過程沒有后續(xù)的Reduce過程,那么數(shù)據(jù)結(jié)果直接寫進(jìn)HDFS,如果后面有Reduce過程,將MapOutput結(jié)果寫到本地磁盤,然后再執(zhí)行Reduce操作。Reducer是對(duì)Mappper后的結(jié)果進(jìn)行運(yùn)算。先要從本地磁盤中讀取MapOutput,然后將數(shù)據(jù)進(jìn)行shuffle等操作,最終按照groupBy傳遞給開發(fā)人員腳本中的reduce()函數(shù)。2.2.2分布式文件系統(tǒng)HDFSHDFS(HadoopDistributedFileSystem)是統(tǒng)一管理分布在集群上的文件系統(tǒng),該分布式存儲(chǔ)模塊具有以下屬性:能夠存儲(chǔ)較大文件:“大”一般指GB、TB級(jí)別,而實(shí)際應(yīng)用場(chǎng)景中的
基于Spark的空間聚類算法的并行化優(yōu)化研究與應(yīng)用11數(shù)據(jù)已經(jīng)達(dá)到PB級(jí)別。采用流式的數(shù)據(jù)訪問形式。在很多實(shí)際分析工作中,分析工作經(jīng)常只讀取大部分?jǐn)?shù)據(jù)而不是全部數(shù)據(jù),因此讀取整個(gè)文件的時(shí)間在設(shè)計(jì)中更加重要。因此采用了One-Write、More-Read模式。適用于商業(yè)設(shè)備。Hadoop集群的部署不需要跟高端的設(shè)備,可運(yùn)行于普通商用機(jī)器,使得部署工作相對(duì)容易實(shí)現(xiàn),具有較低的節(jié)點(diǎn)失敗率和較高的節(jié)點(diǎn)擴(kuò)展能力。HDFS整體的結(jié)構(gòu)框圖如2-3圖所表示。HDFS的系統(tǒng)結(jié)構(gòu)是Master-Slave模式。多個(gè)Datanode負(fù)責(zé)實(shí)際數(shù)據(jù)存儲(chǔ)和讀寫作業(yè);一個(gè)Namenod完成元數(shù)據(jù)管理和命名空間構(gòu)建。圖2-3HDFS基本結(jié)構(gòu)框圖Figure2-3.BasicstructureblockdiagramofHDFSNamenode是主節(jié)點(diǎn),一臺(tái)服務(wù)器只有一個(gè)Namenode節(jié)點(diǎn)。該節(jié)點(diǎn)主要任務(wù)和作用是對(duì)全部的文件系統(tǒng)進(jìn)行管理和維護(hù),可以完成對(duì)文件的打開關(guān)閉和重命名操作,并且可以和客戶端進(jìn)行交互。值得注意的是Namenode在操作文件的過程中,數(shù)據(jù)對(duì)象是放在內(nèi)存的。它是一整個(gè)文件系統(tǒng)的總?cè)肟,?dāng)客戶端對(duì)文件進(jìn)行查詢時(shí),Namenode先要對(duì)客戶端發(fā)來的相關(guān)信息進(jìn)行確認(rèn),通過后才可以對(duì)文件進(jìn)行操作。當(dāng)文件是分布式存在不同的集群節(jié)點(diǎn)主機(jī)上時(shí),也是通過Namenode對(duì)文件系統(tǒng)的命名空間進(jìn)行操作來實(shí)現(xiàn)文件之間的關(guān)聯(lián)的。Datanode是數(shù)據(jù)節(jié)點(diǎn),一臺(tái)服務(wù)器中可以有多個(gè)Datanode,它是文件存儲(chǔ)的最小單元。當(dāng)整個(gè)計(jì)算任務(wù)被分成許多子任務(wù)的時(shí)候,對(duì)應(yīng)的數(shù)據(jù)文件也被
本文編號(hào):2961511
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/2961511.html
最近更新
教材專著