當(dāng)前位置：主頁 > 科技論文 > 計(jì)算機(jī)應(yīng)用論文 >

基于Spark的空間聚類算法的并行化優(yōu)化研究與應(yīng)用

發(fā)布時(shí)間：2021-01-07 00:15

　　在計(jì)算機(jī)的軟硬件技術(shù)高速發(fā)展下,如今已經(jīng)進(jìn)入了大數(shù)據(jù)信息階段,傳統(tǒng)的數(shù)據(jù)處理在面對(duì)數(shù)據(jù)規(guī)模較大的處理任務(wù)時(shí),其執(zhí)行速度和效率非常低甚至根本無法完成處理任務(wù),分布式計(jì)算進(jìn)而出現(xiàn)。目前主流分布式計(jì)算框架有Spark、Hadoop;常見集群計(jì)算模塊有HDFS（Hadoop Distributed File System）分布式文件存儲(chǔ)系統(tǒng);Spark中特有的RDD（Resilient Distributed Datasets）彈性分布式數(shù)據(jù)集結(jié)構(gòu);Yarn資源調(diào)度引擎;MapReduce并行計(jì)算框架等等,以上所有模塊的出現(xiàn)使得面對(duì)大數(shù)據(jù)時(shí)代的并行計(jì)算任務(wù)更加迅速且高效。對(duì)數(shù)據(jù)中隱含信息的進(jìn)一步挖掘?qū)ξ覀儸F(xiàn)實(shí)應(yīng)用和生產(chǎn)有著極其重要的實(shí)際指導(dǎo)意義。K-Means空間聚類分析作為空間數(shù)據(jù)挖掘技術(shù)中的一個(gè)重要方法,也是空間數(shù)據(jù)挖掘領(lǐng)域的重點(diǎn)研究方向之一。與此同時(shí),傳統(tǒng)的數(shù)據(jù)分析方法也無法在集成式環(huán)境下直接運(yùn)行,這也是目前學(xué)術(shù)界和行業(yè)界在大數(shù)據(jù)領(lǐng)域研究的熱點(diǎn)之一。另外,基本K-Means聚類算法采用Random方式確定簇類中心,使得該算法聚類結(jié)果穩(wěn)健性不佳并且對(duì)樣本離群點(diǎn)很敏感,嚴(yán)重甚至導(dǎo)致聚類失敗。...

【文章來源】：浙江工業(yè)大學(xué)浙江省

【文章頁數(shù)】：95 頁

【學(xué)位級(jí)別】：碩士

【部分圖文】：

并行計(jì)算框架圖

流程圖,流程圖,分布式計(jì)算,節(jié)點(diǎn)

浙江工業(yè)大學(xué)碩士學(xué)位論文10進(jìn)行分發(fā)到每個(gè)節(jié)點(diǎn)上，這種分布式計(jì)算方式具有很高的容錯(cuò)和安全可靠性。MapReduce并行計(jì)算體系構(gòu)成主要由兩部分組成：Job-Trackers和Task-Trackers。下圖2-2顯示了MapReduce主要執(zhí)行過程以及數(shù)據(jù)流向。圖2-2MapReduce執(zhí)行流程圖Figure2-2.MapReduceexecutionflowchartJob-Tracker是運(yùn)行在主節(jié)點(diǎn)上的，因此在一個(gè)完整的分布式計(jì)算作業(yè)當(dāng)值只有一個(gè)，它是主要負(fù)責(zé)將一個(gè)完整的任務(wù)進(jìn)分解成多個(gè)子任務(wù)，然后將這些任務(wù)分發(fā)到各個(gè)節(jié)點(diǎn)上由Task-Tracker執(zhí)行；另外，如果在某一個(gè)節(jié)點(diǎn)上任務(wù)執(zhí)行失敗，Job-Tracker會(huì)給失敗的任務(wù)重新指定節(jié)點(diǎn)來執(zhí)行。Task-Tracker就是執(zhí)行Job-Tracker分配的子任務(wù)，主要負(fù)責(zé)上圖中Mapper和Reducer的運(yùn)行，并將任務(wù)執(zhí)行狀態(tài)向Job-Tracker進(jìn)行匯報(bào)。Mapper是負(fù)責(zé)對(duì)Input數(shù)據(jù)進(jìn)行解析，傳遞給開發(fā)人員腳本中的map()函數(shù)，如果只有Map過程沒有后續(xù)的Reduce過程，那么數(shù)據(jù)結(jié)果直接寫進(jìn)HDFS，如果后面有Reduce過程，將MapOutput結(jié)果寫到本地磁盤，然后再執(zhí)行Reduce操作。Reducer是對(duì)Mappper后的結(jié)果進(jìn)行運(yùn)算。先要從本地磁盤中讀取MapOutput，然后將數(shù)據(jù)進(jìn)行shuffle等操作，最終按照groupBy傳遞給開發(fā)人員腳本中的reduce()函數(shù)。2.2.2分布式文件系統(tǒng)HDFSHDFS(HadoopDistributedFileSystem)是統(tǒng)一管理分布在集群上的文件系統(tǒng)，該分布式存儲(chǔ)模塊具有以下屬性：能夠存儲(chǔ)較大文件：“大”一般指GB、TB級(jí)別，而實(shí)際應(yīng)用場(chǎng)景中的

結(jié)構(gòu)框圖,結(jié)構(gòu)框圖,文件

基于Spark的空間聚類算法的并行化優(yōu)化研究與應(yīng)用11數(shù)據(jù)已經(jīng)達(dá)到PB級(jí)別。采用流式的數(shù)據(jù)訪問形式。在很多實(shí)際分析工作中，分析工作經(jīng)常只讀取大部分?jǐn)?shù)據(jù)而不是全部數(shù)據(jù)，因此讀取整個(gè)文件的時(shí)間在設(shè)計(jì)中更加重要。因此采用了One-Write、More-Read模式。適用于商業(yè)設(shè)備。Hadoop集群的部署不需要跟高端的設(shè)備，可運(yùn)行于普通商用機(jī)器，使得部署工作相對(duì)容易實(shí)現(xiàn)，具有較低的節(jié)點(diǎn)失敗率和較高的節(jié)點(diǎn)擴(kuò)展能力。HDFS整體的結(jié)構(gòu)框圖如2-3圖所表示。HDFS的系統(tǒng)結(jié)構(gòu)是Master-Slave模式。多個(gè)Datanode負(fù)責(zé)實(shí)際數(shù)據(jù)存儲(chǔ)和讀寫作業(yè)；一個(gè)Namenod完成元數(shù)據(jù)管理和命名空間構(gòu)建。圖2-3HDFS基本結(jié)構(gòu)框圖Figure2-3.BasicstructureblockdiagramofHDFSNamenode是主節(jié)點(diǎn)，一臺(tái)服務(wù)器只有一個(gè)Namenode節(jié)點(diǎn)。該節(jié)點(diǎn)主要任務(wù)和作用是對(duì)全部的文件系統(tǒng)進(jìn)行管理和維護(hù)，可以完成對(duì)文件的打開關(guān)閉和重命名操作，并且可以和客戶端進(jìn)行交互。值得注意的是Namenode在操作文件的過程中，數(shù)據(jù)對(duì)象是放在內(nèi)存的。它是一整個(gè)文件系統(tǒng)的總?cè)肟�，�?dāng)客戶端對(duì)文件進(jìn)行查詢時(shí)，Namenode先要對(duì)客戶端發(fā)來的相關(guān)信息進(jìn)行確認(rèn)，通過后才可以對(duì)文件進(jìn)行操作。當(dāng)文件是分布式存在不同的集群節(jié)點(diǎn)主機(jī)上時(shí)，也是通過Namenode對(duì)文件系統(tǒng)的命名空間進(jìn)行操作來實(shí)現(xiàn)文件之間的關(guān)聯(lián)的。Datanode是數(shù)據(jù)節(jié)點(diǎn)，一臺(tái)服務(wù)器中可以有多個(gè)Datanode，它是文件存儲(chǔ)的最小單元。當(dāng)整個(gè)計(jì)算任務(wù)被分成許多子任務(wù)的時(shí)候，對(duì)應(yīng)的數(shù)據(jù)文件也被

本文編號(hào)：2961511

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/shengwushengchang/2961511.html

上一篇：基于異步檢查點(diǎn)機(jī)制的細(xì)粒度流分區(qū)負(fù)載均衡方法研究
下一篇：首席信息官的管理資本對(duì)企業(yè)數(shù)字化戰(zhàn)略導(dǎo)向的影響 ——基于LDA主題模型

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Spark的空間聚類算法的并行化優(yōu)化研究與應(yīng)用