天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于分布式計算的數(shù)據(jù)挖掘算法研究與實現(xiàn)

發(fā)布時間:2018-12-18 01:39
【摘要】:隨著互聯(lián)網(wǎng)訪問便捷性的提高,互聯(lián)網(wǎng)的線上活動已經(jīng)成為一個越來越受歡迎的新興領(lǐng)域;ヂ(lián)網(wǎng)的快速發(fā)展,擴(kuò)大了互聯(lián)網(wǎng)的應(yīng)用領(lǐng)域。由此,互聯(lián)網(wǎng)行業(yè)也產(chǎn)生了大量的用戶數(shù)據(jù)。傳統(tǒng)的單機計算方式,已經(jīng)逐漸難以滿足互聯(lián)網(wǎng)行業(yè)實際業(yè)務(wù)情景下的計算需求和計算速度要求。而基于分布式計算的數(shù)據(jù)挖掘算法研究,有助于在互聯(lián)網(wǎng)數(shù)據(jù)量日益增多的今天發(fā)揮其在計算能力和處理速度的優(yōu)勢。這就要求人們轉(zhuǎn)換傳統(tǒng)單機計算數(shù)據(jù)挖掘算法的設(shè)計思想,實現(xiàn)分布式計算的數(shù)據(jù)挖掘算法。為了實現(xiàn)這一要求,本文提出基于分布式計算的數(shù)據(jù)挖掘研究方法。本方法基于單機數(shù)據(jù)挖掘算法原理,對目前最為廣泛使用的分類算法——樸素貝葉斯分類算法、SVM分類算法,關(guān)聯(lián)規(guī)則——FP-Growth和聚類算法——Canopy算法、k-Means聚類算法來進(jìn)行基于分布式計算的數(shù)據(jù)挖掘算法研究和實現(xiàn),并將基于分布式樸素貝葉斯算法和FP-Growth關(guān)聯(lián)規(guī)則的文本分類以及基于分布式環(huán)境的改進(jìn)k-Means算法的聚類分析應(yīng)用在微博熱點博文分析系統(tǒng)中。本文的主要工作如下:1.研究數(shù)據(jù)挖掘算法的基本理論和分布式計算的基本設(shè)計思想,提出了本文的重點研究內(nèi)容——基于分布式計算的數(shù)據(jù)挖掘算法,即分布式環(huán)境中的分類算法——樸素貝葉斯算法、SVM算法,關(guān)聯(lián)規(guī)則——FP-Growth 以及聚類算法 k-Means、Canopy、改進(jìn) k-Means 聚類算法;2.基于上一步提出的研究內(nèi)容,本文對分布式環(huán)境中的數(shù)據(jù)挖掘算法進(jìn)行研究。本方法,首先,在充分研究數(shù)據(jù)挖掘算法的基礎(chǔ)上,結(jié)合分布式環(huán)境Hadoop中的MapReduce編程模型的特點來實現(xiàn)基于分布式環(huán)境的樸素貝葉斯分類算法、SVM分類算法、關(guān)聯(lián)規(guī)則FP-Growth、Canopy聚類算法、k-Means聚類算法以及改進(jìn)的k-Means聚類算法;趯Ψ植际接嬎銛(shù)據(jù)挖掘算法的實現(xiàn),針對不同分布式數(shù)據(jù)挖掘算法對經(jīng)典數(shù)據(jù)集進(jìn)行實驗對比,分析基于分布式計算的數(shù)據(jù)挖掘算法的處理效率等方面指標(biāo);3.基于上述分布式環(huán)境中的數(shù)據(jù)挖掘方法的實驗結(jié)果和分析,本文設(shè)計并實現(xiàn)了微博熱點博文分析系統(tǒng)。實驗表明,本方法能夠滿足微博熱點博文分析系統(tǒng)各模塊的基本功能,并驗證了分布式數(shù)據(jù)挖掘算法相對于單機計算的性能優(yōu)勢。微博熱點博文分析系統(tǒng)首先結(jié)合分布式環(huán)境中的樸素貝葉斯算法、分類規(guī)則算法來對微博博文數(shù)據(jù)進(jìn)行主題分類,然后結(jié)合本文提出的分布式環(huán)境中數(shù)據(jù)挖掘算法的改進(jìn)k-Means算法來對基于主題的微博數(shù)據(jù)進(jìn)行微博熱點博文分析,最后根據(jù)博文分析結(jié)果對各項評價指標(biāo)進(jìn)行分析。
[Abstract]:With the improvement of Internet access convenience, the online activities of the Internet have become an increasingly popular emerging field. With the rapid development of the Internet, the application of the Internet has been expanded. As a result, the Internet industry has also produced a large number of user data. The traditional single computer computing method has been gradually difficult to meet the actual business situation of the Internet industry computing requirements and computing speed requirements. The research of data mining algorithm based on distributed computing is helpful to give full play to its advantage in computing power and processing speed in today's Internet data volume increasing day by day. This requires people to change the design idea of traditional single-machine computing data mining algorithm and realize the distributed computing data mining algorithm. In order to meet this requirement, this paper proposes a research method of data mining based on distributed computing. This method is based on the principle of single machine data mining algorithm. At present, the most widely used classification algorithms are naive Bayes classification algorithm, SVM classification algorithm, association rule FP-Growth and clustering algorithm Canopy algorithm. K-Means clustering algorithm is used to research and implement the data mining algorithm based on distributed computing. The text classification based on distributed naive Bayes algorithm and FP-Growth association rules and the clustering analysis of improved k-Means algorithm based on distributed environment are applied to Weibo hot spot blog analysis system. The main work of this paper is as follows: 1. The basic theory of data mining algorithm and the basic design idea of distributed computing are studied. That is, naive Bayesian algorithm, SVM algorithm, association rule FP-Growth and k-Means-Canopyalgorithm, which are the classification algorithms in distributed environment, improve the k-Means clustering algorithm. 2. Based on the previous research content, this paper studies the data mining algorithm in distributed environment. In this method, first of all, based on the research of data mining algorithm, combining the characteristics of MapReduce programming model in distributed environment Hadoop, the naive Bayes classification algorithm, SVM classification algorithm and association rule FP-Growth, are implemented based on distributed environment. Canopy clustering algorithm, k-Means clustering algorithm and improved k-Means clustering algorithm. Based on the implementation of distributed computing data mining algorithm, this paper compares the classical data sets with different distributed data mining algorithms, and analyzes the processing efficiency of data mining algorithms based on distributed computing. 3. Based on the experimental results and analysis of the data mining methods in the distributed environment mentioned above, this paper designs and implements Weibo hot spot blog analysis system. Experiments show that this method can meet the basic functions of Weibo hot spot blog analysis system and verify the performance of distributed data mining algorithm compared with single computer. Weibo Hot spot blog Analysis system first combines naive Bayes algorithm and classification rule algorithm in distributed environment to classify the topic of Weibo blog data. Then combine the improved k-Means algorithm of data mining algorithm in distributed environment to analyze the Weibo data based on topic, then analyze the hot spot blog on the basis of the analysis result of blog. Finally, the evaluation index is analyzed according to the result of the analysis.
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP311.13

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 陳文鋒;;基于統(tǒng)計信息的數(shù)據(jù)挖掘算法[J];統(tǒng)計與決策;2008年15期

2 王清毅,張波,蔡慶生;目前數(shù)據(jù)挖掘算法的評價[J];小型微型計算機系統(tǒng);2000年01期

3 胡浩紋,魏軍,胡濤;模糊數(shù)據(jù)挖掘算法在人力資源管理中的應(yīng)用[J];計算機與數(shù)字工程;2002年05期

4 萬國華,陳宇曉;數(shù)據(jù)挖掘算法及其在股市技術(shù)分析中的應(yīng)用[J];計算機應(yīng)用;2004年11期

5 文俊浩,胡顯芝,何光輝,徐玲;小波在數(shù)據(jù)挖掘算法中的運用[J];重慶大學(xué)學(xué)報(自然科學(xué)版);2004年12期

6 鄒志文,朱金偉;數(shù)據(jù)挖掘算法研究與綜述[J];計算機工程與設(shè)計;2005年09期

7 趙澤茂,何坤金,胡友進(jìn);基于距離的異常數(shù)據(jù)挖掘算法及其應(yīng)用[J];計算機應(yīng)用與軟件;2005年09期

8 趙晨,諸靜;過程控制中的一種數(shù)據(jù)挖掘算法[J];武漢大學(xué)學(xué)報(工學(xué)版);2005年05期

9 王振華,柴玉梅;基于決策樹的分布式數(shù)據(jù)挖掘算法研究[J];河南科技;2005年02期

10 胡作霆;董蘭芳;王洵;;圖的數(shù)據(jù)挖掘算法研究[J];計算機工程;2006年03期

相關(guān)會議論文 前10條

1 賀煒;邢春曉;潘泉;;因果不完備條件下的數(shù)據(jù)挖掘算法[A];第二十二屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2005年

2 劉玲;張興會;;基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘算法研究[A];全國第二屆信號處理與應(yīng)用學(xué)術(shù)會議專刊[C];2008年

3 陳曦;曾凡鋒;;數(shù)據(jù)挖掘算法在風(fēng)險評估中的應(yīng)用[A];2007通信理論與技術(shù)新發(fā)展——第十二屆全國青年通信學(xué)術(shù)會議論文集(上冊)[C];2007年

4 郭新宇;梁循;;大型數(shù)據(jù)庫中數(shù)據(jù)挖掘算法SLIQ的研究及仿真[A];2004年中國管理科學(xué)學(xué)術(shù)會議論文集[C];2004年

5 張沫;欒媛媛;秦培玉;羅丹;;基于聚類算法的多維客戶行為細(xì)分模型研究與實現(xiàn)[A];2011年通信與信息技術(shù)新進(jìn)展——第八屆中國通信學(xué)會學(xué)術(shù)年會論文集[C];2011年

6 潘國林;楊帆;;數(shù)據(jù)挖掘算法在保險客戶分析中的應(yīng)用[A];全國第20屆計算機技術(shù)與應(yīng)用學(xué)術(shù)會議(CACIS·2009)暨全國第1屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會議論文集(上冊)[C];2009年

7 張乃岳;張力;張學(xué)燕;;基于字段匹配的CRM數(shù)據(jù)挖掘算法與應(yīng)用[A];邏輯學(xué)及其應(yīng)用研究——第四屆全國邏輯系統(tǒng)、智能科學(xué)與信息科學(xué)學(xué)術(shù)會議論文集[C];2008年

8 祖巧紅;陳定方;胡吉全;;客戶分析中的數(shù)據(jù)挖掘算法比較研究[A];12省區(qū)市機械工程學(xué)會2006年學(xué)術(shù)年會湖北省論文集[C];2006年

9 李怡凌;馬亨冰;;一種基于本體的關(guān)聯(lián)規(guī)則挖掘算法[A];全國第19屆計算機技術(shù)與應(yīng)用(CACIS)學(xué)術(shù)會議論文集(下冊)[C];2008年

10 盛立;劉希玉;高明;;基于粗糙集理論的數(shù)據(jù)挖掘算法研究[A];山東省計算機學(xué)會2005年信息技術(shù)與信息化研討會論文集(二)[C];2005年

相關(guān)重要報紙文章 前1條

1 ;選擇合適的數(shù)據(jù)挖掘算法[N];計算機世界;2007年

相關(guān)博士學(xué)位論文 前4條

1 陳云開;基于粗糙集和聚類的數(shù)據(jù)挖掘算法及其在反洗錢中的應(yīng)用研究[D];華中科技大學(xué);2007年

2 張靜;基于粗糙集理論的數(shù)據(jù)挖掘算法研究[D];西北工業(yè)大學(xué);2006年

3 沙朝鋒;基于信息論的數(shù)據(jù)挖掘算法[D];復(fù)旦大學(xué);2008年

4 梁瑾;模糊粗糙單調(diào)數(shù)據(jù)挖掘算法及在污水處理中應(yīng)用研究[D];華南理工大學(xué);2011年

相關(guān)碩士學(xué)位論文 前10條

1 祁丹;基于分布式計算的數(shù)據(jù)挖掘算法研究與實現(xiàn)[D];北京郵電大學(xué);2016年

2 謝亞鑫;基于Hadoop的數(shù)據(jù)挖掘算法的研究[D];華北電力大學(xué);2015年

3 彭軍;基于新型異構(gòu)計算平臺的數(shù)據(jù)挖掘算法研究與實現(xiàn)[D];電子科技大學(xué);2015年

4 楊維;基于Hadoop的健康物聯(lián)網(wǎng)數(shù)據(jù)挖掘算法研究與實現(xiàn)[D];東北大學(xué);2013年

5 張永芳;基于Hadoop平臺的并行數(shù)據(jù)挖掘算法研究[D];安徽理工大學(xué);2016年

6 李圍成;基于FP-樹的時空數(shù)據(jù)挖掘算法研究[D];河南工業(yè)大學(xué);2016年

7 官凱;基于MapReduce的圖挖掘研究[D];貴州師范大學(xué);2016年

8 陳名輝;基于YARN和Spark框架的數(shù)據(jù)挖掘算法并行研究[D];湖南師范大學(xué);2016年

9 劉少龍;面向大數(shù)據(jù)的高效數(shù)據(jù)挖掘算法研究[D];華北電力大學(xué)(北京);2016年

10 羅俊;數(shù)據(jù)挖掘算法的并行化研究及其應(yīng)用[D];青島大學(xué);2016年

,

本文編號:2385101

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2385101.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶9e058***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com