云環(huán)境下數(shù)據(jù)挖掘算法的研究與設(shè)計(jì)
本文關(guān)鍵詞:云環(huán)境下數(shù)據(jù)挖掘算法的研究與設(shè)計(jì),由筆耕文化傳播整理發(fā)布。
【摘要】:數(shù)據(jù)挖掘,又名知識(shí)發(fā)現(xiàn),是指從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,智能地搜尋隱含在其中的有價(jià)值的信息。通過(guò)數(shù)據(jù)挖掘,不僅可以總結(jié)過(guò)去的發(fā)展歷程,同時(shí)還能預(yù)測(cè)未來(lái)的發(fā)展趨勢(shì),為商業(yè)決策、醫(yī)療研究、軍事等領(lǐng)域提供強(qiáng)有力的支持。然而隨著大數(shù)據(jù)時(shí)代的到來(lái),日益龐大的數(shù)據(jù)規(guī)模正在向傳統(tǒng)數(shù)據(jù)挖工作發(fā)起挑戰(zhàn)。大規(guī)模的計(jì)算能力成為數(shù)據(jù)挖掘技術(shù)能否有效實(shí)現(xiàn)的先決條件。所幸的是,計(jì)算機(jī)技術(shù)與互聯(lián)網(wǎng)技術(shù)的發(fā)展,在產(chǎn)生大數(shù)據(jù)的同時(shí),也孕育出了全新的云計(jì)算技術(shù)。憑借云計(jì)算其分布式計(jì)算平臺(tái)所提供的強(qiáng)大計(jì)算能力,云計(jì)算與數(shù)據(jù)挖掘二者的結(jié)合存在著巨大的優(yōu)勢(shì)和潛力。將云計(jì)算應(yīng)用到數(shù)據(jù)挖掘中,可以為越來(lái)越多的海量數(shù)據(jù)挖掘提供解決方案,這已經(jīng)成為數(shù)據(jù)挖掘行業(yè)發(fā)展的趨勢(shì)。在數(shù)據(jù)挖掘中,關(guān)聯(lián)規(guī)則和聚類(lèi)分析是重要的數(shù)據(jù)挖掘算法。其中,關(guān)聯(lián)規(guī)則算法中的核心是Apriori算法,它是通過(guò)多次掃描數(shù)據(jù)庫(kù)來(lái)尋找所有的頻繁項(xiàng)集。當(dāng)面對(duì)大規(guī)模數(shù)據(jù)時(shí),重復(fù)的數(shù)據(jù)庫(kù)掃描將花費(fèi)大量時(shí)間和內(nèi)存空間,大大降低了算法執(zhí)行的效率。同樣的,典型的聚類(lèi)算法K-means算法需要多次進(jìn)行數(shù)據(jù)對(duì)象與聚類(lèi)中心間距離的計(jì)算以及同一聚類(lèi)內(nèi)點(diǎn)平均值的計(jì)算。在處理規(guī)模較大的數(shù)據(jù)時(shí),同樣受制于內(nèi)存容量,往往不能有效地運(yùn)行。因此,本文主要是利用Hadoop云計(jì)算平臺(tái)強(qiáng)大的分布式計(jì)算和存儲(chǔ)數(shù)據(jù)的能力,基于MapReduce編程模型將傳統(tǒng)串行算法并行化設(shè)計(jì),從而解決關(guān)聯(lián)規(guī)則和聚類(lèi)分析中所面臨的有效處理大規(guī)模數(shù)據(jù)問(wèn)題。首先,本文主要介紹了云計(jì)算Hadoop框架、關(guān)聯(lián)規(guī)則Apriori算法及聚類(lèi)分析K-means,同時(shí)深入研究Hadoop的兩大核心技術(shù)——HDFS分布式文件系統(tǒng)及MapReduce編程模型。接著,基于MapReuduce編程模型,對(duì)傳統(tǒng)數(shù)據(jù)挖掘Apriori算法和K-means進(jìn)行改進(jìn),分別提出并行化設(shè)計(jì)方案。并行化后的算法將重復(fù)的計(jì)算工作分布在各個(gè)節(jié)點(diǎn),減少了單個(gè)節(jié)點(diǎn)的計(jì)算負(fù)擔(dān)和計(jì)算時(shí)間,有效地提高了算法效率,使它們能并行處理大規(guī)模數(shù)據(jù)。最后,將基于MapReduce并行化后的改進(jìn)算法部署到Hadoop集群環(huán)境中,在不同大小的數(shù)據(jù)集下對(duì)改進(jìn)算法進(jìn)行實(shí)驗(yàn),并根據(jù)實(shí)驗(yàn)結(jié)果分析并行算法的性能表現(xiàn)。實(shí)驗(yàn)證明,基于MapReduce的Apriori算法和K-means算法一定程度上解決了傳統(tǒng)數(shù)據(jù)挖掘耗時(shí)長(zhǎng)、效率低的問(wèn)題。
【關(guān)鍵詞】:云計(jì)算 Map Reduce 并行化 關(guān)聯(lián)規(guī)則 聚類(lèi)分析
【學(xué)位授予單位】:東華大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類(lèi)號(hào)】:TP311.13
【目錄】:
- 摘要5-7
- ABSTRACT7-11
- 第一章 緒論11-17
- 1.1 研究背景及意義11-12
- 1.2 研究現(xiàn)狀12-15
- 1.2.1 云計(jì)算研究現(xiàn)狀12-14
- 1.2.2 數(shù)據(jù)挖掘研究現(xiàn)狀14-15
- 1.3 論文的主要工作15-16
- 1.4 論文的組織結(jié)構(gòu)16-17
- 第二章 相關(guān)技術(shù)介紹17-25
- 2.1 Hadoop概述17
- 2.2 Map Reduce計(jì)算模型17-22
- 2.2.1 MapReduce基本原理17-20
- 2.2.2 MapReduce運(yùn)行流程20-22
- 2.3 HDFS分布式存儲(chǔ)文件系統(tǒng)22-25
- 2.3.1 HDFS基本框架與工作流程22-23
- 2.3.2 HDFS可靠性措施23-25
- 第三章 云環(huán)境下的關(guān)聯(lián)規(guī)則算法25-39
- 3.1 關(guān)聯(lián)規(guī)則挖掘基礎(chǔ)理論25-27
- 3.1.1 關(guān)聯(lián)規(guī)則挖掘基本概念25-27
- 3.1.2 關(guān)聯(lián)規(guī)則挖掘基本模型27
- 3.2 關(guān)聯(lián)規(guī)則算法Apriori27-33
- 3.2.1 Apriori算法思想27-28
- 3.2.2 Apriori算法流程28-33
- 3.2.3 Apriori算法問(wèn)題分析33
- 3.3 基于MapReduce框架的關(guān)聯(lián)規(guī)則算法Apriori33-39
- 3.3.1 Apriori算法并行化設(shè)計(jì)33-35
- 3.3.3 Apriori算法并行化實(shí)現(xiàn)35-39
- 第四章 云環(huán)境下的聚類(lèi)分析算法39-50
- 4.1 聚類(lèi)分析基礎(chǔ)理論39-41
- 4.1.1 聚類(lèi)分析基本概念39-40
- 4.1.2 聚類(lèi)分析基本模型40
- 4.1.3 聚類(lèi)分析算法的分類(lèi)40-41
- 4.2 聚類(lèi)分析算法K-means41-45
- 4.2.1 K-means算法思想41
- 4.2.2 K-means算法流程41-45
- 4.2.3 K-means算法問(wèn)題分析45
- 4.3 基于MapReduce框架的聚類(lèi)分析算法K-means45-50
- 4.3.1 K-means算法并行化設(shè)計(jì)45-48
- 4.3.2 K-means算法并行化實(shí)現(xiàn)48-50
- 第五章 實(shí)驗(yàn)設(shè)計(jì)與分析50-62
- 5.1 搭建實(shí)驗(yàn)環(huán)境50-53
- 5.1.1 軟硬件環(huán)境50-51
- 5.1.2 Hadoop實(shí)驗(yàn)環(huán)境搭建51-53
- 5.2 基于MapReduce的并行化算法可行性實(shí)驗(yàn)53-55
- 5.2.1 準(zhǔn)備實(shí)驗(yàn)數(shù)據(jù)集54-55
- 5.2.2 實(shí)驗(yàn)結(jié)果與分析55
- 5.3 基于MapReduce的并行化算法實(shí)驗(yàn)與分析55-62
- 5.3.1 準(zhǔn)備實(shí)驗(yàn)數(shù)據(jù)集55-56
- 5.3.2 實(shí)驗(yàn)結(jié)果與分析56-62
- 第六章 結(jié)束語(yǔ)62-64
- 6.1 本文工作總結(jié)62
- 6.2 未來(lái)工作展望62-64
- 致謝64-65
- 參考文獻(xiàn)65-68
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 香麗蕓;淺談數(shù)據(jù)挖掘及其應(yīng)用[J];昌吉師專(zhuān)學(xué)報(bào);2001年02期
2 鄭雪燕,張杰明,岳洋;數(shù)據(jù)挖掘語(yǔ)言[J];計(jì)算機(jī)時(shí)代;2001年11期
3 劉明晶;數(shù)據(jù)挖掘[J];華南金融電腦;2001年04期
4 張偉;劉勇國(guó);彭軍;廖曉峰;吳中福;;數(shù)據(jù)挖掘發(fā)展研究[J];計(jì)算機(jī)科學(xué);2001年07期
5 鐘曉;馬少平;張鈸;俞瑞釗;;數(shù)據(jù)挖掘綜述[J];模式識(shí)別與人工智能;2001年01期
6 朱建平,張潤(rùn)楚;數(shù)據(jù)挖掘的發(fā)展及其特點(diǎn)[J];統(tǒng)計(jì)與決策;2002年07期
7 傅嵐;在數(shù)據(jù)海洋中打撈信息數(shù)據(jù)挖掘[J];科技廣場(chǎng);2002年11期
8 李峻;數(shù)據(jù)挖掘,企業(yè)洞察先機(jī)的“慧眼”[J];中國(guó)計(jì)算機(jī)用戶(hù);2002年48期
9 羅可,蔡碧野,卜勝賢,謝中科;數(shù)據(jù)挖掘及其發(fā)展研究[J];計(jì)算機(jī)工程與應(yīng)用;2002年14期
10 ;2002數(shù)據(jù)挖掘研討班[J];計(jì)算機(jī)工程;2002年06期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 史東輝;蔡慶生;張春陽(yáng);;一種新的數(shù)據(jù)挖掘多策略方法研究[A];第十七屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2000年
2 張弦;;數(shù)據(jù)挖掘在農(nóng)業(yè)中的應(yīng)用[A];紀(jì)念中國(guó)農(nóng)業(yè)工程學(xué)會(huì)成立30周年暨中國(guó)農(nóng)業(yè)工程學(xué)會(huì)2009年學(xué)術(shù)年會(huì)(CSAE 2009)論文集[C];2009年
3 魏順平;;教育數(shù)據(jù)挖掘:現(xiàn)狀與趨勢(shì)[A];信息化、工業(yè)化融合與服務(wù)創(chuàng)新——第十三屆計(jì)算機(jī)模擬與信息技術(shù)學(xué)術(shù)會(huì)議論文集[C];2011年
4 關(guān)清平;沉培輝;;概率網(wǎng)絡(luò)在數(shù)據(jù)挖掘上的應(yīng)用[A];科技、工程與經(jīng)濟(jì)社會(huì)協(xié)調(diào)發(fā)展——中國(guó)科協(xié)第五屆青年學(xué)術(shù)年會(huì)論文集[C];2004年
5 丁瑾;;基于Web數(shù)據(jù)挖掘的綜述[A];山西省科學(xué)技術(shù)情報(bào)學(xué)會(huì)學(xué)術(shù)年會(huì)論文集[C];2004年
6 聶茹;田森平;;Web數(shù)據(jù)挖掘及其在電子商務(wù)中的應(yīng)用[A];中南六省(區(qū))自動(dòng)化學(xué)會(huì)第24屆學(xué)術(shù)年會(huì)會(huì)議論文集[C];2006年
7 李菊;王軍;;數(shù)據(jù)挖掘在客戶(hù)關(guān)系管理的應(yīng)用[A];計(jì)算機(jī)技術(shù)與應(yīng)用進(jìn)展·2007——全國(guó)第18屆計(jì)算機(jī)技術(shù)與應(yīng)用(CACIS)學(xué)術(shù)會(huì)議論文集[C];2007年
8 肖陽(yáng);李啟賢;;數(shù)據(jù)挖掘在中國(guó)鋼鐵行業(yè)中的應(yīng)用[A];中國(guó)計(jì)量協(xié)會(huì)冶金分會(huì)2012年會(huì)暨能源計(jì)量與節(jié)能降耗經(jīng)驗(yàn)交流會(huì)論文集[C];2012年
9 楊磊;王貴成;汪勇;張占勝;;SQL Server 2005在數(shù)據(jù)挖掘中的應(yīng)用[A];2009年中國(guó)智能自動(dòng)化會(huì)議論文集(第二分冊(cè))[C];2009年
10 謝中;邱玉輝;;面向商務(wù)網(wǎng)站有效性的數(shù)據(jù)挖掘方法[A];第十八屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2001年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前10條
1 本報(bào)記者褚寧;數(shù)據(jù)挖掘如“挖金”[N];解放日?qǐng)?bào);2002年
2 周蓉蓉;數(shù)據(jù)挖掘需要點(diǎn)想像力[N];計(jì)算機(jī)世界;2004年
3 □中國(guó)電信股份有限公司北京研究院 張舒博 □北京郵電大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 牛琨;走出數(shù)據(jù)挖掘的誤區(qū)[N];人民郵電;2006年
4 《網(wǎng)絡(luò)世界》記者 王瑩;數(shù)據(jù)挖掘保險(xiǎn)業(yè)的新藍(lán)海[N];網(wǎng)絡(luò)世界;2012年
5 劉俊麗;基于地理化的網(wǎng)絡(luò)數(shù)據(jù)挖掘與分析提升投資有效性[N];人民郵電;2014年
6 本報(bào)記者 連曉東;數(shù)據(jù)挖掘:金融信息化新熱點(diǎn)[N];中國(guó)電子報(bào);2002年
7 本報(bào)記者 鳳小華 朱仁康;“數(shù)字挖掘軟件”引領(lǐng)中國(guó)信息化新浪潮[N];中國(guó)電子報(bào);2003年
8 本報(bào)記者 史延廷;“成功企業(yè)數(shù)據(jù)挖掘暨數(shù)量化管理論壇”在京舉辦[N];中國(guó)旅游報(bào);2002年
9 朱小寧;數(shù)據(jù)挖掘:信息化戰(zhàn)爭(zhēng)的基礎(chǔ)工程[N];解放軍報(bào);2005年
10 本報(bào)記者 王小平;從“大集中”走向數(shù)據(jù)挖掘[N];金融時(shí)報(bào);2002年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 于自強(qiáng);海量流數(shù)據(jù)挖掘相關(guān)問(wèn)題研究[D];山東大學(xué);2015年
2 張馨;全基因組SNP芯片應(yīng)用于CNV和L0H分析的軟件比對(duì)與數(shù)據(jù)挖掘[D];復(fù)旦大學(xué);2011年
3 彭計(jì)紅;基于數(shù)據(jù)挖掘的癡呆中醫(yī)證的研究[D];南京中醫(yī)藥大學(xué);2015年
4 李秋虹;基于MapReduce的大規(guī)模數(shù)據(jù)挖掘技術(shù)研究[D];復(fù)旦大學(xué);2013年
5 鄔文帥;基于多目標(biāo)決策的數(shù)據(jù)挖掘方法評(píng)估與應(yīng)用[D];電子科技大學(xué);2015年
6 謝邦彥;整合數(shù)據(jù)挖掘與TRIZ理論的質(zhì)量管理方法研究[D];首都經(jīng)濟(jì)貿(mào)易大學(xué);2010年
7 李榮;生物信息數(shù)據(jù)挖掘若干關(guān)鍵問(wèn)題研究與應(yīng)用[D];復(fù)旦大學(xué);2004年
8 李玉華;面向服務(wù)的數(shù)據(jù)挖掘關(guān)鍵技術(shù)研究[D];華中科技大學(xué);2006年
9 吳少智;時(shí)間序列數(shù)據(jù)挖掘在生物醫(yī)學(xué)中的應(yīng)用研究[D];電子科技大學(xué);2010年
10 王珊珊;知識(shí)指導(dǎo)下的數(shù)據(jù)挖掘在新聞和金融工具之間因果關(guān)系上的應(yīng)用[D];中國(guó)科學(xué)技術(shù)大學(xué);2009年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 林仁紅;基于數(shù)據(jù)挖掘的機(jī)遇識(shí)別與評(píng)價(jià)研究[D];首都經(jīng)濟(jì)貿(mào)易大學(xué);2007年
2 張彥俊;游戲運(yùn)營(yíng)中的數(shù)據(jù)挖掘[D];復(fù)旦大學(xué);2011年
3 焦亞召;基于多核函數(shù)FCM算法在數(shù)據(jù)挖掘聚類(lèi)中的應(yīng)用研究[D];昆明理工大學(xué);2015年
4 王杰鋒;物聯(lián)網(wǎng)能耗數(shù)據(jù)智能分析及其應(yīng)用平臺(tái)設(shè)計(jì)[D];江南大學(xué);2015年
5 劉學(xué)建;數(shù)據(jù)挖掘在電子商務(wù)推薦系統(tǒng)中的應(yīng)用研究[D];昆明理工大學(xué);2015年
6 戴陽(yáng)陽(yáng);基于數(shù)據(jù)挖掘的金融時(shí)間序列預(yù)測(cè)研究與應(yīng)用[D];江南大學(xué);2015年
7 石思優(yōu);基于主題模型的醫(yī)療數(shù)據(jù)挖掘研究[D];廣東技術(shù)師范學(xué)院;2015年
8 陳丹;移動(dòng)互聯(lián)網(wǎng)信令挖掘?qū)崿F(xiàn)智慧營(yíng)銷(xiāo)的設(shè)計(jì)與實(shí)現(xiàn)應(yīng)用研究[D];華南理工大學(xué);2015年
9 陳思;基于數(shù)據(jù)挖掘的大學(xué)生客戶(hù)識(shí)別模型的研究[D];昆明理工大學(xué);2015年
10 位長(zhǎng)帥;基于客戶(hù)數(shù)據(jù)挖掘的電信客戶(hù)關(guān)系管理研究[D];西南交通大學(xué);2015年
本文關(guān)鍵詞:云環(huán)境下數(shù)據(jù)挖掘算法的研究與設(shè)計(jì),,由筆耕文化傳播整理發(fā)布。
本文編號(hào):317553
本文鏈接:http://sikaile.net/wenyilunwen/huanjingshejilunwen/317553.html