基于云計算平臺Hadoop的聚類神經(jīng)網(wǎng)絡(luò)算法的研究與實現(xiàn)
發(fā)布時間:2017-11-21 06:06
本文關(guān)鍵詞:基于云計算平臺Hadoop的聚類神經(jīng)網(wǎng)絡(luò)算法的研究與實現(xiàn)
更多相關(guān)文章: Hadoop 并行化 聚類 Spark 神經(jīng)網(wǎng)絡(luò)
【摘要】:隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,推動了互聯(lián)網(wǎng)的廣泛應(yīng)用和普及,行業(yè)應(yīng)用系統(tǒng)的規(guī)模迅速擴(kuò)大,行業(yè)應(yīng)用所產(chǎn)生的數(shù)據(jù)呈爆炸性增長,促進(jìn)了云計算技術(shù)的誕生和發(fā)展,Apache Hadoop等開源云平臺伴隨著大數(shù)據(jù)時代的到來而出現(xiàn),數(shù)據(jù)分析已經(jīng)成為企業(yè)決策的重要支撐,如何快速有效地從海量數(shù)據(jù)中挖掘出有用的信息將顯得十分得迫切和重要了。其中聚類分析和神經(jīng)網(wǎng)絡(luò)算法是數(shù)據(jù)挖掘的核心技術(shù),傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)由于受到計算機(jī)自身性能以及編程模型的約束,無論從效率上,還是從計算復(fù)雜度上都已無法滿足海量信息的處理需要,云計算技術(shù)的發(fā)展為聚類分析、神經(jīng)網(wǎng)絡(luò)算法提供了新的研究方向[1],形成云挖掘。本文首先主要研究在Linux操作系統(tǒng)下部署Hadoop集群,創(chuàng)新點(diǎn)是將聚類算法MapReduce并行化。由于聚類算法比較繁多,本文從k均值聚類算法入手,按照MapReduce編程模型將上述算法進(jìn)行了并行化。并行化后的算法應(yīng)用在Hadoop云計算平臺,通過對UCI數(shù)據(jù)庫的Wine數(shù)據(jù)集進(jìn)行文本聚類處理,實驗表明MapReduce并行化后的K-means聚類算法大大提高了運(yùn)行速度。然后主要研究在Hadoop YARN上部署Spark集群,創(chuàng)新點(diǎn)是將神經(jīng)網(wǎng)絡(luò)算法在Spark平臺上并行化過程進(jìn)行設(shè)計及實現(xiàn),本文從BP神經(jīng)網(wǎng)絡(luò)入手,通過任務(wù)調(diào)度實現(xiàn)任務(wù)并行化,通過DAGScheduler,TaskScheduler等進(jìn)行作業(yè)調(diào)度,按照DAG劃分為不同的Stage,每個Stage劃分為并發(fā)執(zhí)行的一組Task(ShuffleMapTask和Result Task)。使用資源管理平臺YARN進(jìn)行資源調(diào)度,因為Spark通過引入基于工作集的RDD數(shù)據(jù)模型及基于內(nèi)存的運(yùn)算模式[2],適合大量的迭代計算,并行化后的算法應(yīng)用在Hadoop云計算平臺,采用入侵檢測數(shù)據(jù)集Kddcup進(jìn)行了分類處理,實驗表明并行化后的BP神經(jīng)網(wǎng)絡(luò)算法大大提高了運(yùn)行速度。
【學(xué)位授予單位】:貴州大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP311.13;TP183
,
本文編號:1209911
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1209911.html
最近更新
教材專著