基于云平臺下的數(shù)據(jù)挖掘研究
本文關鍵詞:基于云平臺下的數(shù)據(jù)挖掘研究
更多相關文章: 云計算 數(shù)據(jù)挖掘 MapReduce HDFS 集群 K-Means
【摘要】:生活在信息大爆炸的時代,社會網(wǎng)絡產(chǎn)生數(shù)字圖像、視頻、網(wǎng)絡博客,網(wǎng)絡社區(qū)等形形色色的數(shù)據(jù)。但是隨著數(shù)據(jù)的數(shù)據(jù)源種類越來越多樣化,數(shù)據(jù)的爆炸式增長,傳統(tǒng)的數(shù)據(jù)挖掘技術已經(jīng)不能滿足我們的要求,需要建立一種新的有效機制來實現(xiàn)海量數(shù)據(jù)的分析處理。而云計算平臺下的數(shù)據(jù)挖掘的出現(xiàn)是由于其能提供大規(guī)模的存儲空間,便于海量數(shù)據(jù)的存儲,同時具有很高的可擴展性,編程人員能夠在它們的服務之上構建無縫可擴展的應用。因此,如果能夠優(yōu)化傳統(tǒng)的數(shù)據(jù)挖掘算法將其部署到云計算平臺之上,便可解決海量數(shù)據(jù)處理難的問題。但是,將傳統(tǒng)經(jīng)典算法部署到云計算平臺架構之上,也會遇到很多問題。(1)處理大數(shù)據(jù)中的算法重復迭代是不可避免的難題;(2)數(shù)據(jù)循環(huán)遍歷產(chǎn)生的通信成本負荷重;(3)傳統(tǒng)算法分析處理海量數(shù)據(jù)的時間慢,產(chǎn)生的I/O成本和網(wǎng)絡成本大。針對傳統(tǒng)數(shù)據(jù)挖掘技術在云計算平臺上遇到的問題,本文首先從云計算平臺和數(shù)據(jù)挖掘的基本原理[35]出發(fā),分析云計算中的相關技術、討論并行編程模型MapReduce的編程原理、分布式系統(tǒng)HDFS的存儲方式以及基于云計算的Hadoop平臺的數(shù)據(jù)挖掘架構,提出使用云計算下的數(shù)據(jù)挖掘處理機制來解決處理大規(guī)模數(shù)據(jù)難的問題,并獲得較高的性能;其次針對大數(shù)據(jù)的數(shù)據(jù)類型多樣化和數(shù)據(jù)量的倍增,提出對基于云計算平臺下的傳統(tǒng)數(shù)據(jù)挖掘算法K-Means算法進行優(yōu)化的方案,消除迭代算法的依賴性和減少計算成本;最后將優(yōu)化后的K-Means算法移植到Hadoop平臺進行試驗,通過Hadoop集群下的MapReduce的編程計算模式調(diào)用優(yōu)化后的K-Means算法,驗證優(yōu)化后的算法的有效性和可靠性。
【關鍵詞】:云計算 數(shù)據(jù)挖掘 MapReduce HDFS 集群 K-Means
【學位授予單位】:華東交通大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP393.09;TP311.13
【目錄】:
- 摘要3-4
- ABSTRACT4-7
- 第一章 緒論7-10
- 1.1 前言7-8
- 1.2 國內(nèi)外研究現(xiàn)狀8-9
- 1.3 本文研究內(nèi)容與創(chuàng)新9
- 1.4 本文組織結構9-10
- 第二章 云計算和海量數(shù)據(jù)挖掘技術的概述10-17
- 2.1 云計算10-12
- 2.1.1 云計算的概念10
- 2.1.2 云計算的基本原理10
- 2.1.3 云計算的體系架構10-11
- 2.1.4 云計算的關鍵技術11-12
- 2.2 數(shù)據(jù)挖掘12-16
- 2.2.1 數(shù)據(jù)挖掘的現(xiàn)狀及前景12-13
- 2.2.2 數(shù)據(jù)挖掘的經(jīng)典算法13-15
- 2.2.3 數(shù)據(jù)挖掘的應用15-16
- 2.3 本章小結16-17
- 第三章 基于云計算的數(shù)據(jù)挖掘算法17-25
- 3.1 云計算支持下的數(shù)據(jù)挖掘算法的來源17
- 3.2 MapReduce為基礎的傳統(tǒng)K-Means算法17-21
- 3.3 HADOOP MapRuduce編程模型21-24
- 3.3.1 MapRuduce編程模型原理21
- 3.3.2 MapReduce執(zhí)行過程21-22
- 3.3.3 Hadoop MapRduce模式22-24
- 3.4 本章小結24-25
- 第四章 基于云計算的Hadoop平臺下的數(shù)據(jù)挖掘的優(yōu)化25-36
- 4.1 Hadoop的背景及處理海量數(shù)據(jù)的優(yōu)勢25-26
- 4.2 分布式文件系統(tǒng)HDFS26-27
- 4.3 并行計算模型MapRuduce27-28
- 4.4 基于HADOOP平臺下的挖掘算法的優(yōu)化28-35
- 4.4.1 系統(tǒng)架構介紹28-29
- 4.4.2 系統(tǒng)設計原則29-30
- 4.4.3 基于K-Means算法在云計算平臺上的優(yōu)化設計30-35
- 4.4.3.1 Map函數(shù)的設計31-33
- 4.4.3.2 Combine函數(shù)的設計33
- 4.4.3.3 Reduce函數(shù)的設計33-34
- 4.4.3.4 基于K-Means算法的優(yōu)化設計34-35
- 4.5 傳統(tǒng)的K-Means算法與優(yōu)化后的K-Means算法的對比分析35
- 4.6 本章小結35-36
- 第五章 實驗結果評測及分析36-43
- 5.1 測試環(huán)境36-39
- 5.1.1 JDK配置36-37
- 5.1.2 SSH配置37
- 5.1.3 Hadoop的安裝和配置37-39
- 5.2 試驗分析39-42
- 5.2.1 試驗數(shù)據(jù)39-41
- 5.2.2 實驗結果41-42
- 5.3 本章小結42-43
- 第六章 總結與展望43-44
- 6.1 本文總結43
- 6.2 工作展望43-44
- 參考文獻44-46
- 個人簡歷 在讀期間發(fā)表的學術論文46-47
- 致謝47
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 香麗蕓;淺談數(shù)據(jù)挖掘及其應用[J];昌吉師專學報;2001年02期
2 鄭雪燕,張杰明,岳洋;數(shù)據(jù)挖掘語言[J];計算機時代;2001年11期
3 劉明晶;數(shù)據(jù)挖掘[J];華南金融電腦;2001年04期
4 張偉;劉勇國;彭軍;廖曉峰;吳中福;;數(shù)據(jù)挖掘發(fā)展研究[J];計算機科學;2001年07期
5 鐘曉;馬少平;張鈸;俞瑞釗;;數(shù)據(jù)挖掘綜述[J];模式識別與人工智能;2001年01期
6 朱建平,張潤楚;數(shù)據(jù)挖掘的發(fā)展及其特點[J];統(tǒng)計與決策;2002年07期
7 傅嵐;在數(shù)據(jù)海洋中打撈信息數(shù)據(jù)挖掘[J];科技廣場;2002年11期
8 李峻;數(shù)據(jù)挖掘,企業(yè)洞察先機的“慧眼”[J];中國計算機用戶;2002年48期
9 羅可,蔡碧野,卜勝賢,謝中科;數(shù)據(jù)挖掘及其發(fā)展研究[J];計算機工程與應用;2002年14期
10 ;2002數(shù)據(jù)挖掘研討班[J];計算機工程;2002年06期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 史東輝;蔡慶生;張春陽;;一種新的數(shù)據(jù)挖掘多策略方法研究[A];第十七屆全國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2000年
2 張弦;;數(shù)據(jù)挖掘在農(nóng)業(yè)中的應用[A];紀念中國農(nóng)業(yè)工程學會成立30周年暨中國農(nóng)業(yè)工程學會2009年學術年會(CSAE 2009)論文集[C];2009年
3 魏順平;;教育數(shù)據(jù)挖掘:現(xiàn)狀與趨勢[A];信息化、工業(yè)化融合與服務創(chuàng)新——第十三屆計算機模擬與信息技術學術會議論文集[C];2011年
4 關清平;沉培輝;;概率網(wǎng)絡在數(shù)據(jù)挖掘上的應用[A];科技、工程與經(jīng)濟社會協(xié)調(diào)發(fā)展——中國科協(xié)第五屆青年學術年會論文集[C];2004年
5 丁瑾;;基于Web數(shù)據(jù)挖掘的綜述[A];山西省科學技術情報學會學術年會論文集[C];2004年
6 聶茹;田森平;;Web數(shù)據(jù)挖掘及其在電子商務中的應用[A];中南六。▍^(qū))自動化學會第24屆學術年會會議論文集[C];2006年
7 李菊;王軍;;數(shù)據(jù)挖掘在客戶關系管理的應用[A];計算機技術與應用進展·2007——全國第18屆計算機技術與應用(CACIS)學術會議論文集[C];2007年
8 肖陽;李啟賢;;數(shù)據(jù)挖掘在中國鋼鐵行業(yè)中的應用[A];中國計量協(xié)會冶金分會2012年會暨能源計量與節(jié)能降耗經(jīng)驗交流會論文集[C];2012年
9 楊磊;王貴成;汪勇;張占勝;;SQL Server 2005在數(shù)據(jù)挖掘中的應用[A];2009年中國智能自動化會議論文集(第二分冊)[C];2009年
10 謝中;邱玉輝;;面向商務網(wǎng)站有效性的數(shù)據(jù)挖掘方法[A];第十八屆全國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2001年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 本報記者褚寧;數(shù)據(jù)挖掘如“挖金”[N];解放日報;2002年
2 周蓉蓉;數(shù)據(jù)挖掘需要點想像力[N];計算機世界;2004年
3 □中國電信股份有限公司北京研究院 張舒博 □北京郵電大學計算機科學與技術學院 牛琨;走出數(shù)據(jù)挖掘的誤區(qū)[N];人民郵電;2006年
4 《網(wǎng)絡世界》記者 王瑩;數(shù)據(jù)挖掘保險業(yè)的新藍海[N];網(wǎng)絡世界;2012年
5 劉俊麗;基于地理化的網(wǎng)絡數(shù)據(jù)挖掘與分析提升投資有效性[N];人民郵電;2014年
6 本報記者 連曉東;數(shù)據(jù)挖掘:金融信息化新熱點[N];中國電子報;2002年
7 本報記者 鳳小華 朱仁康;“數(shù)字挖掘軟件”引領中國信息化新浪潮[N];中國電子報;2003年
8 本報記者 史延廷;“成功企業(yè)數(shù)據(jù)挖掘暨數(shù)量化管理論壇”在京舉辦[N];中國旅游報;2002年
9 朱小寧;數(shù)據(jù)挖掘:信息化戰(zhàn)爭的基礎工程[N];解放軍報;2005年
10 本報記者 王小平;從“大集中”走向數(shù)據(jù)挖掘[N];金融時報;2002年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 于自強;海量流數(shù)據(jù)挖掘相關問題研究[D];山東大學;2015年
2 張馨;全基因組SNP芯片應用于CNV和L0H分析的軟件比對與數(shù)據(jù)挖掘[D];復旦大學;2011年
3 彭計紅;基于數(shù)據(jù)挖掘的癡呆中醫(yī)證的研究[D];南京中醫(yī)藥大學;2015年
4 李秋虹;基于MapReduce的大規(guī)模數(shù)據(jù)挖掘技術研究[D];復旦大學;2013年
5 鄔文帥;基于多目標決策的數(shù)據(jù)挖掘方法評估與應用[D];電子科技大學;2015年
6 謝邦彥;整合數(shù)據(jù)挖掘與TRIZ理論的質(zhì)量管理方法研究[D];首都經(jīng)濟貿(mào)易大學;2010年
7 何偉全;云南高校學生意外傷害因素關聯(lián)規(guī)則挖掘及風險管控體系研究[D];昆明理工大學;2015年
8 段功豪;基于多結構數(shù)據(jù)挖掘的滑坡災害預測模型研究[D];中國地質(zhì)大學;2016年
9 白曉明;基于數(shù)據(jù)挖掘的復合材料宏—細觀力學模型研究[D];哈爾濱工業(yè)大學;2016年
10 藍永豪(LAM Wing Ho);基于數(shù)據(jù)挖掘技術分析當代中醫(yī)名家痤瘡驗方經(jīng)驗研究[D];南京中醫(yī)藥大學;2016年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 林仁紅;基于數(shù)據(jù)挖掘的機遇識別與評價研究[D];首都經(jīng)濟貿(mào)易大學;2007年
2 張彥俊;游戲運營中的數(shù)據(jù)挖掘[D];復旦大學;2011年
3 王杰鋒;物聯(lián)網(wǎng)能耗數(shù)據(jù)智能分析及其應用平臺設計[D];江南大學;2015年
4 劉學建;數(shù)據(jù)挖掘在電子商務推薦系統(tǒng)中的應用研究[D];昆明理工大學;2015年
5 戴陽陽;基于數(shù)據(jù)挖掘的金融時間序列預測研究與應用[D];江南大學;2015年
6 石思優(yōu);基于主題模型的醫(yī)療數(shù)據(jù)挖掘研究[D];廣東技術師范學院;2015年
7 陳丹;移動互聯(lián)網(wǎng)信令挖掘?qū)崿F(xiàn)智慧營銷的設計與實現(xiàn)應用研究[D];華南理工大學;2015年
8 陳思;基于數(shù)據(jù)挖掘的大學生客戶識別模型的研究[D];昆明理工大學;2015年
9 位長帥;基于客戶數(shù)據(jù)挖掘的電信客戶關系管理研究[D];西南交通大學;2015年
10 安康;基于數(shù)據(jù)挖掘的商業(yè)銀行客戶關系管理研究[D];蘭州交通大學;2014年
,本文編號:1025562
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1025562.html