基于Hadoop的大數(shù)據(jù)平臺(tái)數(shù)據(jù)挖掘云服務(wù)研究
發(fā)布時(shí)間:2017-10-20 22:08
本文關(guān)鍵詞:基于Hadoop的大數(shù)據(jù)平臺(tái)數(shù)據(jù)挖掘云服務(wù)研究
更多相關(guān)文章: Hadoop 虛擬化 存儲(chǔ) 數(shù)據(jù)挖掘 可視化 云服務(wù)
【摘要】:隨著社交網(wǎng)絡(luò)、網(wǎng)絡(luò)技術(shù)、傳感器技術(shù)、移動(dòng)互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,海量數(shù)據(jù)不斷被產(chǎn)生,世界正從IT時(shí)代進(jìn)入到DT時(shí)代。由于數(shù)據(jù)規(guī)模的快速增長,中小企業(yè)之前建設(shè)好的傳統(tǒng)的基于單機(jī)數(shù)據(jù)分析系統(tǒng)在服務(wù)器利用率、存儲(chǔ)、數(shù)據(jù)挖掘方面都顯得不盡人意,無法再有效地解決中小企業(yè)信息價(jià)值化實(shí)施過程中所面臨的眾多問題。獲得有價(jià)值的數(shù)據(jù)分析結(jié)果已逐漸成為中小企業(yè)增強(qiáng)自身競爭力的重要手段之一。本文研究了如何進(jìn)行分工、協(xié)作,完成數(shù)據(jù)傳輸、存儲(chǔ)、處理、采集等工作。如何搭建基于Hadoop的大數(shù)據(jù)平臺(tái),解決傳統(tǒng)數(shù)據(jù)倉庫在海量數(shù)據(jù)存儲(chǔ)、處理等方面的不足。提供基于云計(jì)算3種服務(wù)模式之一Saas(軟件即服務(wù))的模式數(shù)據(jù)挖掘云服務(wù)。該數(shù)據(jù)挖掘服務(wù)突破傳統(tǒng)數(shù)據(jù)倉庫在數(shù)據(jù)挖掘上的單節(jié)點(diǎn)的瓶頸憑借Hadoop平臺(tái)橫向擴(kuò)展的能力。它針對(duì)Hadoop的分布式文件存儲(chǔ)系統(tǒng)HDFS中的海量數(shù)據(jù)進(jìn)行挖掘,使用Hadoop平臺(tái)的MapReduce進(jìn)行并行計(jì)算。為進(jìn)一步驗(yàn)證該平臺(tái)的穩(wěn)定性,在該平臺(tái)上運(yùn)行改進(jìn)的K-Means算法和改進(jìn)的Apriori算法。實(shí)驗(yàn)結(jié)果表明,在Hadoop平臺(tái)上運(yùn)用改進(jìn)的K-Means算法和改進(jìn)的Apriori算法分析海量的數(shù)據(jù),可以明顯提高數(shù)據(jù)挖掘的效率和結(jié)果的準(zhǔn)確性。因此數(shù)據(jù)挖掘云服務(wù)可以有效解決中小企業(yè)在人才、資金、技術(shù)等方面的不足而導(dǎo)致的獲取有價(jià)值的數(shù)據(jù)比較難的問題,通過多種算法模型滿足其個(gè)性化、靈活性需求。目前幫助決策者更好地做出決策已成為數(shù)據(jù)挖掘云服務(wù)技術(shù)領(lǐng)域的新課題。本文通過對(duì)中小企業(yè)的需求以及數(shù)據(jù)挖掘云服務(wù)的應(yīng)用價(jià)值進(jìn)行分析,為中小企業(yè)提供有價(jià)值的信息。完成的主要工作及取得的成果是:1、對(duì)Hadoop、大數(shù)據(jù)平臺(tái)、數(shù)據(jù)挖掘、云服務(wù)的發(fā)展現(xiàn)狀進(jìn)行了研究和分析,論述了大數(shù)據(jù)平臺(tái)搭建和數(shù)據(jù)挖掘云服務(wù),探討了基于Hadoop的大數(shù)據(jù)平臺(tái)提供數(shù)據(jù)挖掘云服務(wù)的意義,完成了這一課題的理論背景研究。2、結(jié)合理論研究,參考了國內(nèi)外大量的研究成果,充分考慮到我國中小企業(yè)對(duì)數(shù)據(jù)要求價(jià)值化實(shí)際情況,明確數(shù)據(jù)挖掘云服務(wù)的研究目的,從用戶的使用需求出發(fā)建立一套基于Hadoop的大數(shù)據(jù)平臺(tái)。3、利用虛擬化技術(shù)和大數(shù)據(jù)相關(guān)技術(shù)建立基于Hadoop的大數(shù)據(jù)平臺(tái),提供給中小企業(yè)數(shù)據(jù)挖掘的云服務(wù)。4、在大數(shù)據(jù)平臺(tái)上運(yùn)行改進(jìn)的Apriori并行算法和改進(jìn)的k-Means算法的代碼jar包,得到數(shù)據(jù)挖掘的準(zhǔn)確結(jié)果。5、實(shí)現(xiàn)了快速、實(shí)時(shí)、準(zhǔn)確、高效地進(jìn)行數(shù)據(jù)挖掘分析,解決了傳統(tǒng)數(shù)據(jù)挖掘無法處理海量數(shù)據(jù)的難點(diǎn),節(jié)約中小企業(yè)享有高價(jià)值數(shù)據(jù)分析結(jié)果的成本,降低了中小企業(yè)對(duì)數(shù)據(jù)價(jià)值獲取的技術(shù)要求,對(duì)各種行業(yè)海量數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,對(duì)于中小企業(yè)數(shù)據(jù)價(jià)值化和做出正確的決策有著重要的意義。
【關(guān)鍵詞】:Hadoop 虛擬化 存儲(chǔ) 數(shù)據(jù)挖掘 可視化 云服務(wù)
【學(xué)位授予單位】:長江大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP311.13;TP393.09
【目錄】:
- 摘要6-8
- ABSTRACT8-10
- 第一章 緒論10-18
- 1.1 研究背景10-11
- 1.2 國外云計(jì)算服務(wù)相關(guān)研究狀況11-13
- 1.3 國內(nèi)云計(jì)算服務(wù)相關(guān)研究狀況13-15
- 1.4 目前存在的問題15
- 1.5 研究目的及意義15-16
- 1.6 論文的主要工作和研究的技術(shù)路線16-17
- 1.7 本文的創(chuàng)新點(diǎn)17
- 1.8 本章小結(jié)17-18
- 第二章 云計(jì)算與大數(shù)據(jù)介紹18-27
- 2.1 云計(jì)算和云服務(wù)18
- 2.2 虛擬化技術(shù)18-20
- 2.3 HADOOP20-23
- 2.5 數(shù)據(jù)挖掘概述23-26
- 2.6 本章小結(jié)26-27
- 第三章 HADOOP大數(shù)據(jù)平臺(tái)設(shè)計(jì)方案27-37
- 3.1 傳統(tǒng)數(shù)據(jù)倉庫解決方案分析27-29
- 3.2 HADOOP大數(shù)據(jù)平臺(tái)方案29-36
- 3.3 本章小結(jié)36-37
- 第四章 數(shù)據(jù)挖掘云服務(wù)的原理與設(shè)計(jì)37-57
- 4.1 需求分析37-38
- 4.2 總體設(shè)計(jì)38-41
- 4.3 數(shù)據(jù)挖掘服務(wù)設(shè)計(jì)方案41-43
- 4.4 改進(jìn)的APRIORI并行算法43-50
- 4.5 改進(jìn)的K-MEANS算法50-56
- 4.6 本章小結(jié)56-57
- 第五章 大數(shù)據(jù)挖掘服務(wù)平臺(tái)的實(shí)現(xiàn)57-74
- 5.1 系統(tǒng)開發(fā)環(huán)境準(zhǔn)備57-62
- 5.2 數(shù)據(jù)采集功能實(shí)現(xiàn)62-64
- 5.3 數(shù)據(jù)存儲(chǔ)功能實(shí)現(xiàn)64-67
- 5.4 數(shù)據(jù)挖掘功能實(shí)現(xiàn)67-71
- 5.5 數(shù)據(jù)可視化的展現(xiàn)71-73
- 5.6 本章小結(jié)73-74
- 第六章 結(jié)束語74-75
- 6.1 總結(jié)74
- 6.2 展望74-75
- 致謝75-76
- 參考文獻(xiàn)76-79
- 個(gè)人簡介79-80
本文編號(hào):1069618
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1069618.html
最近更新
教材專著