基于Hadoop平臺(tái)的并行數(shù)據(jù)挖掘算法研究
本文關(guān)鍵詞:基于Hadoop平臺(tái)的并行數(shù)據(jù)挖掘算法研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:由于科學(xué)研究、通信技術(shù)以及IT技術(shù)等的迅猛飛速發(fā)展,龐大的數(shù)據(jù)集合由GB往TB發(fā)展,甚至將來的ZB。云計(jì)算憑借其超強(qiáng)的計(jì)算能力和可靠的計(jì)算能力為數(shù)據(jù)挖掘技術(shù)的改進(jìn)帶來了一絲生機(jī)。本文采用Hadoop分布式云計(jì)算平臺(tái),基于該平臺(tái)的兩大核心技術(shù)MapReduce和HDFS,實(shí)現(xiàn)數(shù)據(jù)挖掘算法中分類聚類算法的并行化,通過實(shí)踐論證了基于該平臺(tái)的分類聚類算法具有良好的加速比、擴(kuò)展性及分布式運(yùn)算效果。主要內(nèi)容如下:1.引入開源分布式計(jì)算平臺(tái)Hadoop,包含它的兩大核心技術(shù)MapReduce和HDFS。詳細(xì)介紹了MapReduce和HDFS的運(yùn)行機(jī)制及實(shí)現(xiàn)原理。給出數(shù)據(jù)挖掘技術(shù)的概念,介紹數(shù)據(jù)挖掘算法中的分類聚類算法;并根據(jù)現(xiàn)有的知識(shí)結(jié)合數(shù)據(jù)挖掘技術(shù)的特點(diǎn)分析數(shù)據(jù)挖掘的發(fā)展趨勢(shì)。2.基于前面的Hadoop理論知識(shí),完成了本文所需的高可靠Hadoop平臺(tái)的搭建。針對(duì)1.0.0之前的Hadoop版本缺乏安全性認(rèn)證,引入Kerberos的安全策略;針對(duì)HDFS的NameNode、MapReduce的JobTracker的單節(jié)點(diǎn)故障問題,使用了DRBD鏡像塊設(shè)備存儲(chǔ)技術(shù)。最終搭建成功高可靠安全的Hadoop環(huán)境。3.著重介紹基于Hadoop平臺(tái)實(shí)現(xiàn)K-Means聚類算法的主要思想和實(shí)現(xiàn)的代碼;并且通過幾組實(shí)驗(yàn),實(shí)踐說明基于云計(jì)算平臺(tái)的K-Means聚類算法具有良好的擴(kuò)展性能和較好的擴(kuò)展性能。4.詳細(xì)介紹了基于Hadoop平臺(tái)的樸素貝葉斯分類算法的主要思想及實(shí)現(xiàn)代碼;并對(duì)MapReduce化的樸素貝葉斯算法和改進(jìn)前的樸素貝葉斯算法比較,分析改進(jìn)后的分類算法的分布式運(yùn)算效果。
【關(guān)鍵詞】:Hadoop平臺(tái) 數(shù)據(jù)挖掘 分類聚類算法 HDFS
【學(xué)位授予單位】:安徽理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP311.13
【目錄】:
- 摘要5-6
- Abstract6-11
- 1 緒論11-15
- 1.1 論文的研究背景11-12
- 1.2 研究現(xiàn)狀12-13
- 1.3 論文研究的工作13
- 1.4 論文的組織結(jié)構(gòu)13-15
- 2 開源云平臺(tái)Hadoop及數(shù)據(jù)挖掘概述15-31
- 2.1 Hadoop概述15-22
- 2.1.1 編程模型MapReduce16-19
- 2.1.2 分布式文件系統(tǒng)HDFS19-22
- 2.2 數(shù)據(jù)挖掘簡(jiǎn)介22-28
- 2.2.1 數(shù)據(jù)挖掘概念22-23
- 2.2.2 數(shù)據(jù)挖掘過程23-26
- 2.2.3 分類算法的介紹26-28
- 2.2.4 聚類算法的介紹28
- 2.3 透析數(shù)據(jù)挖掘的未來28-29
- 2.4 小結(jié)29-31
- 3 高可靠Hadoop數(shù)據(jù)挖掘平臺(tái)的構(gòu)建31-45
- 3.1 Hadoop平臺(tái)的搭建31-36
- 3.1.1 軟硬件描述31
- 3.1.2 搭建基礎(chǔ)環(huán)境31-36
- 3.2 安全策略Kerberos配置36-40
- 3.2.1 Kerberos概述36-38
- 3.2.2 配置Kerberos38-40
- 3.3 高可用DRBD配置40-42
- 3.3.1 DRBD概述40-41
- 3.3.2 DRBD的配置41-42
- 3.4 實(shí)驗(yàn)的框架設(shè)計(jì)42-43
- 3.5 小結(jié)43-45
- 4 基于Hadoop平臺(tái)的聚類算法的設(shè)計(jì)與實(shí)現(xiàn)45-55
- 4.1 基于平臺(tái)聚類算法的設(shè)計(jì)思想45
- 4.2 K-Means算法概述45-46
- 4.3 改進(jìn)算法的設(shè)計(jì)與實(shí)現(xiàn)46-50
- 4.4 實(shí)驗(yàn)結(jié)果50-53
- 4.5 小結(jié)53-55
- 5 基于Hadoop平臺(tái)的分類算法的設(shè)計(jì)及實(shí)現(xiàn)55-63
- 5.1 基于平臺(tái)分類算法的設(shè)計(jì)思想55
- 5.2 樸素貝葉斯分類算法概述55-57
- 5.2.1 樸素貝葉斯分類原理55-57
- 5.3 改進(jìn)的分類算法57-59
- 5.4 實(shí)驗(yàn)結(jié)果59-61
- 5.5 小結(jié)61-63
- 6 總結(jié)與展望63-65
- 6.1 本文總結(jié)63
- 6.2 展望未來63-65
- 參考文獻(xiàn)65-69
- 致謝69-71
- 作者簡(jiǎn)介和主要科研成果71
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 王清毅,張波,蔡慶生;目前數(shù)據(jù)挖掘算法的評(píng)價(jià)[J];小型微型計(jì)算機(jī)系統(tǒng);2000年01期
2 胡浩紋,魏軍,胡濤;模糊數(shù)據(jù)挖掘算法在人力資源管理中的應(yīng)用[J];計(jì)算機(jī)與數(shù)字工程;2002年05期
3 萬國(guó)華,陳宇曉;數(shù)據(jù)挖掘算法及其在股市技術(shù)分析中的應(yīng)用[J];計(jì)算機(jī)應(yīng)用;2004年11期
4 文俊浩,胡顯芝,何光輝,徐玲;小波在數(shù)據(jù)挖掘算法中的運(yùn)用[J];重慶大學(xué)學(xué)報(bào)(自然科學(xué)版);2004年12期
5 鄒志文,朱金偉;數(shù)據(jù)挖掘算法研究與綜述[J];計(jì)算機(jī)工程與設(shè)計(jì);2005年09期
6 趙澤茂,何坤金,胡友進(jìn);基于距離的異常數(shù)據(jù)挖掘算法及其應(yīng)用[J];計(jì)算機(jī)應(yīng)用與軟件;2005年09期
7 趙晨,諸靜;過程控制中的一種數(shù)據(jù)挖掘算法[J];武漢大學(xué)學(xué)報(bào)(工學(xué)版);2005年05期
8 王振華,柴玉梅;基于決策樹的分布式數(shù)據(jù)挖掘算法研究[J];河南科技;2005年02期
9 胡作霆;董蘭芳;王洵;;圖的數(shù)據(jù)挖掘算法研究[J];計(jì)算機(jī)工程;2006年03期
10 宋中山;吳立鋒;;增量數(shù)據(jù)挖掘算法在區(qū)域交通管理中的應(yīng)用[J];武漢理工大學(xué)學(xué)報(bào)(交通科學(xué)與工程版);2006年03期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 賀煒;邢春曉;潘泉;;因果不完備條件下的數(shù)據(jù)挖掘算法[A];第二十二屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2005年
2 劉玲;張興會(huì);;基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘算法研究[A];全國(guó)第二屆信號(hào)處理與應(yīng)用學(xué)術(shù)會(huì)議?痆C];2008年
3 陳曦;曾凡鋒;;數(shù)據(jù)挖掘算法在風(fēng)險(xiǎn)評(píng)估中的應(yīng)用[A];2007通信理論與技術(shù)新發(fā)展——第十二屆全國(guó)青年通信學(xué)術(shù)會(huì)議論文集(上冊(cè))[C];2007年
4 郭新宇;梁循;;大型數(shù)據(jù)庫(kù)中數(shù)據(jù)挖掘算法SLIQ的研究及仿真[A];2004年中國(guó)管理科學(xué)學(xué)術(shù)會(huì)議論文集[C];2004年
5 張沫;欒媛媛;秦培玉;羅丹;;基于聚類算法的多維客戶行為細(xì)分模型研究與實(shí)現(xiàn)[A];2011年通信與信息技術(shù)新進(jìn)展——第八屆中國(guó)通信學(xué)會(huì)學(xué)術(shù)年會(huì)論文集[C];2011年
6 潘國(guó)林;楊帆;;數(shù)據(jù)挖掘算法在保險(xiǎn)客戶分析中的應(yīng)用[A];全國(guó)第20屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議(CACIS·2009)暨全國(guó)第1屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議論文集(上冊(cè))[C];2009年
7 張乃岳;張力;張學(xué)燕;;基于字段匹配的CRM數(shù)據(jù)挖掘算法與應(yīng)用[A];邏輯學(xué)及其應(yīng)用研究——第四屆全國(guó)邏輯系統(tǒng)、智能科學(xué)與信息科學(xué)學(xué)術(shù)會(huì)議論文集[C];2008年
8 祖巧紅;陳定方;胡吉全;;客戶分析中的數(shù)據(jù)挖掘算法比較研究[A];12省區(qū)市機(jī)械工程學(xué)會(huì)2006年學(xué)術(shù)年會(huì)湖北省論文集[C];2006年
9 李怡凌;馬亨冰;;一種基于本體的關(guān)聯(lián)規(guī)則挖掘算法[A];全國(guó)第19屆計(jì)算機(jī)技術(shù)與應(yīng)用(CACIS)學(xué)術(shù)會(huì)議論文集(下冊(cè))[C];2008年
10 盛立;劉希玉;高明;;基于粗糙集理論的數(shù)據(jù)挖掘算法研究[A];山東省計(jì)算機(jī)學(xué)會(huì)2005年信息技術(shù)與信息化研討會(huì)論文集(二)[C];2005年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前1條
1 ;選擇合適的數(shù)據(jù)挖掘算法[N];計(jì)算機(jī)世界;2007年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前4條
1 陳云開;基于粗糙集和聚類的數(shù)據(jù)挖掘算法及其在反洗錢中的應(yīng)用研究[D];華中科技大學(xué);2007年
2 張靜;基于粗糙集理論的數(shù)據(jù)挖掘算法研究[D];西北工業(yè)大學(xué);2006年
3 沙朝鋒;基于信息論的數(shù)據(jù)挖掘算法[D];復(fù)旦大學(xué);2008年
4 梁瑾;模糊粗糙單調(diào)數(shù)據(jù)挖掘算法及在污水處理中應(yīng)用研究[D];華南理工大學(xué);2011年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 謝亞鑫;基于Hadoop的數(shù)據(jù)挖掘算法的研究[D];華北電力大學(xué);2015年
2 彭軍;基于新型異構(gòu)計(jì)算平臺(tái)的數(shù)據(jù)挖掘算法研究與實(shí)現(xiàn)[D];電子科技大學(xué);2015年
3 楊維;基于Hadoop的健康物聯(lián)網(wǎng)數(shù)據(jù)挖掘算法研究與實(shí)現(xiàn)[D];東北大學(xué);2013年
4 孫兵率;基于MapReduce的數(shù)據(jù)挖掘算法并行化研究與應(yīng)用[D];西安工程大學(xué);2015年
5 張永芳;基于Hadoop平臺(tái)的并行數(shù)據(jù)挖掘算法研究[D];安徽理工大學(xué);2016年
6 孫孝萍;基于聚類分析的數(shù)據(jù)挖掘算法研究[D];西南石油學(xué)院;2002年
7 亢建波;數(shù)據(jù)挖掘算法在電力生產(chǎn)決策中的研究與應(yīng)用[D];華北電力大學(xué)(河北);2005年
8 阿斯力別克(Kutlumuratov Assylbek);流數(shù)據(jù)挖掘算法在金融領(lǐng)域的應(yīng)用研究[D];華南理工大學(xué);2012年
9 國(guó)琳;基于云數(shù)據(jù)庫(kù)的幾種數(shù)據(jù)挖掘算法研究與實(shí)現(xiàn)[D];吉林大學(xué);2013年
10 程建星;數(shù)據(jù)挖掘算法的改進(jìn)及其在入侵檢測(cè)中的應(yīng)用[D];暨南大學(xué);2008年
本文關(guān)鍵詞:基于Hadoop平臺(tái)的并行數(shù)據(jù)挖掘算法研究,由筆耕文化傳播整理發(fā)布。
本文編號(hào):354670
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/354670.html